ES2236952T3

ES2236952T3 - Procedimiento de sintesis de nucleotidos que tienen secuencias total o parcialmente aleatorias.

Info

Publication number: ES2236952T3
Application number: ES98951672T
Authority: ES
Inventors: Philippe Neuner
Original assignee: Istituto di Ricerche di Biologia Molecolare P Angeletti SpA
Current assignee: Istituto di Ricerche di Biologia Molecolare P Angeletti SpA
Priority date: 1997-10-28
Filing date: 1998-10-28
Publication date: 2005-07-16
Anticipated expiration: 2018-10-28
Also published as: JP2001521040A; ATE290011T1; JP3986255B2; AU9760698A; CA2306762C; ITRM970651A1; EP1027366B1; CA2306762A1; WO1999021873A2; US6350595B1; WO1999021873A3; EP1027366A2; IT1295830B1; DE69829200T2; AU744592B2; DE69829200D1

Abstract

Un procedimiento para la síntesis química de un polinucleótido que tiene una secuencia total o parcialmente aleatoria, en el que la producción de dicha parte de secuencia aleatoria comprende ciclos de reacción que combinan alternativamente un mononucleótido y un dinucleótido para formar un trinucleótido que comprende: (a) un ciclo de reacción en al menos un soporte en el que se añade al menos un dinucleótido a cada soporte; (b) otro ciclo de reacción en el que se añade un mononucleótido a cada soporte; (c) aleatorizar opcionalmente el/los producto(s) obtenido(s) al mezclar los soportes y dividir el/los producto(s) entre al menos dos soportes; y (d) repetir opcionalmente las etapas (a) a (c) tanto como sea necesario hasta que se produce dicha parte de secuencia aleatoria; en el que la combinación de mononucleótidos y dinucleótidos se elige de tal modo que para la parte de secuencia aleatoria cada unidad de trinucleótido constituye un codón elegido a partir de un número limitado de los codones disponibles.

Description

Procedimiento de síntesis de nucleótidos que tienen secuencias total o parcialmente aleatorias.

El objeto de la presente invención es un procedimiento para la síntesis de polinucleótidos que permite introducir secuencias aleatorias a lo largo de áreas más o menos extendidas de la molécula, de tal modo que la aleatoriedad se refiere a unidades de tres nucleótidos adyacentes, y que cada una de dichas unidades se elige para que corresponda a un número limitado de codones, predefinidos en número y secuencia, y para eliminar los efectos de la degeneración del código genético.

Las potencialidades aplicativas de un procedimiento de síntesis de polinucleótido con los aspectos anteriores son indudablemente remarcables. Además, en los últimos años las aplicaciones que requieren su uso han tomado una importancia cada vez mayor en muchos campos de la investigación científica. Es útil, por ejemplo, en mutagénesis de sitio específico que actúa en una codificación de gen para una proteína conocida en posiciones presumiblemente claves para verificar su papel real en la función o estructura molecular. Otro ejemplo se proporciona mediante bibliotecas, que contienen "cajas" de oligonucleótidos sintéticos de secuencia aleatoria, que se hacen para seleccionar moléculas capaces de llevar a cabo nuevas funciones biológicas.

En todos estos casos es de la máxima importancia que la aleatoriedad de la secuencia esté controlada de algún modo, de modo que sólo se inserten los codones deseados, eliminando además los efectos de la degeneración del código genético. Es de igual importancia, obviamente, el hecho de que dicha síntesis de polinucleótidos se lleve a cabo con un procedimiento sencillo, rentable y eficaz.

Terminología

Es útil especificar los términos usados a continuación:

Soporte: el término soporte se refiere a un material en fase sólida al que los monómeros se unen para realizar una síntesis química; dicho soporte está compuesto normalmente por resina o granos de cristal poroso, pero también puede estar compuesto de cualquier otro material conocido por un experto en la materia. Se supone que el término incluye uno o más monómeros acoplados al soporte para las reacciones adicionales de síntesis de polinucleótidos.

Conjugar o condensar: estos términos se refieren a las reacciones químicas llevadas a cabo para unir un monómero a un segundo monómero o a un soporte sólido. Estas reacciones son conocidas por los expertos en la materia y se realizan normalmente en un sintetizador de ADN automatizado, siguiendo las instrucciones proporcionadas por el fabricante.

Monómeros o mononucleótidos: los términos monómero o mononucleótido se refieren a nucleótidos individuales utilizados en la síntesis química de oligonucleótidos. Los monómeros que se pueden utilizar comprenden tanto ribo- como desoxirribo-formas de cada uno de los cinco nucleótidos convencionales (derivados de las bases adenina (respectivamente A o dA), guanina (G o dG), citosina (C o dC), timina (T) y uracilo (U)). Los derivados o precursores de base como inosina también están comprendidos en monómeros, así como nucleótidos químicamente modificados, como por ejemplo aquellos con un grupo de bloqueo reversible en cualquier posición en las bases púricas o pirimidínicas, en ribosa o desoxirribosa, o en grupos hidroxílicos o fosfato del monómero. Esos grupos de bloqueo comprenden por ejemplo grupos dimetoxitritilo, benzoilo, isobutirilo, beta-cianoetilo y diisopropilamina, y son útiles para proteger grupos hidroxílicos, fosfatos y aminas hexocíclicas. Sin embargo, se pueden adoptar otros agentes de bloqueo conocidos por un experto en la técnica.

Dímeros o dinucleótidos: los términos dímeros o dinucleótidos se refieren a unidades moleculares derivadas de la condensación de dos monómeros o mononucleótidos como se especificó anteriormente.

Unidades monoméricas de síntesis: este término indica unidades utilizadas como elementos esenciales en el procedimiento de síntesis. En la materia del procedimiento de la presente invención pueden estar formadas por monómeros o dímeros; también pueden estar constituidas por unidades de trinucleótidos en otros procedimientos conocidos en la técnica.

Codón o triplete: el término codón o triplete se refiere a una secuencia de tres monómeros de desoxirribonucleótido adyacentes que especifican uno de los 20 aminoácidos naturales utilizados en una biosíntesis de polipéptidos. El término comprende también codones sin sentido, codones que no codifican ningún aminoácido.

Codón o triplete aleatorio: estos términos se refieren al caso donde la misma posición de secuencia corresponde a más de un codón en un conjunto de polinucleótidos. El número de codones diferentes puede variar entre 2 y 64 para cada posición específica.

Anticodón: el término anticodón se refiere a una secuencia de tres monómeros de ribonucleótidos adyacentes que especifican para un codón correspondiente según la regla conocida de acoplamiento de bases purínicas y pirimidínicas.

Polinucleótidos u oligonicleótidos aleatorios: este término se refiere a un conjunto de oligonucleótidos que tienen codones aleatorios en una o más posiciones. Por ejemplo, si los oligonucleótidos aleatorios están formados por seis nucleótidos de longitud (es decir, dos codones), y tanto la primera como la segunda posición de la secuencia son aleatorias para codificar para cada uno de los 20 aminoácidos, entonces la población de oligonucleótidos aleatorios comprenderá un conjunto de oligonucleótidos con cada combinación posible de los veinte tripletes en la primera y segunda posición. En este caso, por lo tanto, el número de posibles combinaciones de codones es 400. Análogamente, si se sintetizan oligonucleótidos aleatorios de 15 nucleótidos de longitud de tal modo que sean aleatorios en cada posición, entonces todos los tripletes que codifican para cada uno de estos veinte aminoácidos se encontrarán en cada posición. En este caso, la población de oligonucleótidos aleatorios contendrá 20^{5} especies de oligonucleótidos posibles diferentes.

Cuando no está definido de modo suficientemente claro, se supone que otros términos en uso en la presente descripción son conocidos por los expertos en el campo, a quienes va dirigida la invención.

Para algunos términos que están relacionados con técnicas de biología molecular, véase el manual de Sambrook y col. (Sambrook y col, 1989). Otros términos que se refieren a sustancias de naturaleza química no definidas de modo claro se supone que son conocidos por los expertos en el campo de la invención, y de cualquier modo sus definiciones se pueden encontrar en manuales como Gait, M. J. y col, 1984.

Estado de la técnica

En general, las aplicaciones que utilizan oligonucleótidos sintéticos son de dos tipos: aquellas que requieren el uso de oligonucleótidos de secuencia conocida, y aquellas que requieren el uso de oligonucleótidos con una secuencia al menos parcialmente degenerada o aleatoria.

En cuanto al primer grupo de aplicaciones, los procedimientos de síntesis normales se basan en el principio de construir el oligonucleótido condensando mononucleótidos de uno en uno, comenzando desde el primero en el extremo 3', y eligiendo cada mononucleótido para cada ciclo de reacción para sintetizar un polinucleótido con una secuencia deseada e inequívoca.

En cuanto al segundo grupo de aplicaciones, la síntesis sigue las mismas modalidades, pero en las posiciones a lo largo de la secuencia donde uno necesita insertar variabilidad el ciclo sintético continúa usando mezclas de dos o más monómeros diferentes. En cada ciclo se crean por lo tanto mezclas de oligonucleótidos que difieren en el monómero añadido al extremo 5'. Por ejemplo, si en un ciclo se emplean como monómeros 4 mononucleótidos diferentes, se obtiene una mezcla que contiene 4 polinucleótidos diferentes que difieren entre ellos sólo en el último nucleótido insertado. Si se repite un ciclo sintético del mismo tipo, se obtiene una mezcla de 16 polinucleótidos que difieren en los dos últimos nucleótidos insertados, y así sucesivamente.

En general, las aplicaciones que utilizan polinucleótidos sintéticos prevén una inserción directa o indirecta de dichos polinucleótidos en material genético que se traducirá en polipéptidos en un cierto organismo vivo (la traducción in vitro ocurre rara vez). Como es sabido, el código genético que traduce ADN está parcialmente degenerado, es decir dado que los 64 codones posibles formados por grupos de tres nucleótidos codifican sólo para 20 aminoácidos (además de tres señales de terminación o parada), más de un codón codifica para cada aminoácido.

Los oligonucleótidos que tienen al menos una secuencia parcialmente aleatoria como se describe anteriormente (donde por polipéptido de secuencia aleatoria se quiere significar una mezcla más o menos compleja de polinucleótidos que tienen secuencias diferentes), codifican para péptidos de secuencia aleatoria (es decir para una mezcla de polipéptidos, estando codificado cada péptido por uno o más polinucleótidos).

De hecho, la degeneración del código genético implica tres consecuencias importantes en los nucleótido de secuencia aleatoria que se van a usar para la derivación de polipéptidos aleatorios:

a) cualquier mezcla de oligonucleótidos que tiene una secuencia al menos parcialmente aleatoria, codifica para una mezcla de polipéptidos mucho más sencilla. Por ejemplo, una mezcla de oligonucleótidos en la que las 6 posiciones están rellenas aleatoriamente por uno de los cuatro nucleótidos naturales está compuesta de 4096 moléculas diferentes (4^{6} si se consideran nucleótidos sencillos, o 64^{2} si se consideran codones), pero exactamente en virtud de la degeneración del código, éstos codifican sólo para 400 polipéptidos diferentes (es decir 20^{2}).

Este fenómeno sería irrelevante por sí mismo, siempre que los diferentes polinucleótidos que codifican para el polipéptido tuvieran los mismos aspectos físicos y químicos, pero diferentes secuencias pueden conferir propiedades diferentes que afectan por ejemplo a la solubilidad, estabilidad y carga estática en condiciones diferentes, adsorción con medio de filtro, etcétera.

b) en la mezcla de polipéptidos originados mediante la traducción de los polinucleótidos de secuencia aleatoria, habrá un porcentaje de péptidos de secuencia truncada. En la práctica, durante la incorporación aleatoria de los codones también se insertan necesariamente aquellos que indican una señal de parada, y la formación de polipéptidos de secuencia truncada es, por lo tanto, inevitable.

En el ejemplo precedente, aparte de los 4096 oligonucleótidos, 375 (9%) codificarán para polipéptidos truncados en la primera o segunda posición (es decir, 3 codones de terminación posibles en la primera posición para cada uno de los 64 codones posibles en la segunda posición, y tres posibles codones de parada en la primera). Por lo tanto, junto con 400 polipéptidos posibles, se encontrarán 21 polipéptidos truncados (uno en la primera posición y 20 en la segunda posición). Este fenómeno adquiere una importancia particular cuando se crean bibliotecas de polinucleótidos que poseen una secuencia aleatoria bastante larga. Por ejemplo, en una biblioteca de 27 nucleótidos (que codifica para bibliotecas de nonapéptidos, como se describe en muchas aplicaciones) hasta el 35% de los polinucleótidos contienen un codón de parada (o [64^{9}-61^{9}]/64^{9}]. Las secuencias más grandes contendrán un mayor porcentaje de moléculas que codifican para una terminación prematura de la cadena de polipéptidos.

c) La existencia de una eficacia de traducción diferente de los distintos codones que codifican para el mismo aminoácido en diferentes organismos, se vuelve evidente en la derivación de mezclas de polipéptidos con complejidades diferentes de las de las mezclas de polinucleótidos de partida. Aunque el código genético es de naturaleza única, precisamente, hay una diferencia en los distintos organismos vivos en la eficacia con la que se traducen los distintos codones codifican para el mismo aminoácido. Por ejemplo, en E. Coli serina se codifica 18 veces más por codón UCU que por codón UCA. Se deduce que dos polinucleótidos diferentes con concentración equimolar en la mezcla inicial se traducirán con diferente eficacia, y la mezcla de polipéptidos resultante contendrá una relación molar diferente de las dos especies moleculares. Es por lo tanto de la máxima importancia, para maximizar la eficacia del sistema celular seleccionado, que las secuencias de codificación contengan los mismos codones que son utilizados principalmente por el propio sistema celular.

Cada uno de estos tres factores ejerce una fuerte influencia sobre la eficacia de sistemas que utilizan polinucleótidos de secuencia aleatoria, tanto en aplicaciones que prevén la aleatoriedad en una sola posición, como en aplicaciones cuyas aleatoriedades se refieren a secuencias más grandes. Esta influencia, sin embargo, es directamente proporcional a la longitud y complejidad de la secuencia aleatoria adoptada.

Este hecho interfiere especialmente con la preparación de mezclas completamente homogéneas (es decir, aquellas que contienen la misma concentración de cada especie molecular posible) de polinucleótidos de secuencia aleatoria, producidos por la preparación de mezclas de polipéptidos igualmente complejas y homogéneas. En realidad, cada esfuerzo en esta dirección es parcialmente desbaratado cuando se traducen polinucleótidos en moléculas de polipéptidos, exactamente por la combinación de estos tres factores, y porque posiblemente no pueden dejar de afectar a una serie considerable de aplicaciones.

Tal es el caso por ejemplo con la eficacia de bibliotecas de expresión creadas a partir de dicha mezcla homogénea de polinucleótidos.

En relación con estos tres problemas, los procedimientos de síntesis se desarrollaron a lo largo del tiempo pretendiendo superarlos y mejorar la eficacia de los distintos sistemas que utilizan polipéptidos de secuencia aleatoria.

Una primera solución (quizás la más obvia desde un punto de vista teórico) es una síntesis de polinucleótidos que prevé la utilización de trinucleótidos preformados (que corresponden a codones) como unidades monoméricas, en lugar de los mononucleótidos individuales (Virkenas, B. y col, 1994; Lyttle, M. U. y col, 1995; Ono, A. y col, 1994). De este modo los 20 trímeros que corresponden a los codones deseados se pueden sintetizar primero, y la síntesis de polinucleótidos se lleva a cabo sola más tarde al condensar en cada ciclo de síntesis las unidades monoméricas hechas de trímeros en lugar de monómeros. Esta solución es aparentemente sencilla y efectiva, pero en realidad requiere un procedimiento complejo, caro e ineficaz, por las razones siguientes:

1. Aunque la síntesis de trinucleótidos inicial es fácilmente realizable mediante la condensación de tres nucleótidos bloqueados llevada a cabo de acuerdo con el procedimiento de síntesis de polinucleótidos regular (por lo tanto mediante un procedimiento sencillo y eficaz), hay varios problemas inevitablemente inherentes en la fase de separación del nuevo trinucleótido formado de la matriz de síntesis.

En realidad, en procedimientos normales esta operación es concurrente con la lisis de todos los grupos que protegen las distintas bases, pero en este caso, en vista de las etapas posteriores de la síntesis de polinucleótidos el enlace entre los nucleótidos y los grupos protectores laterales debe permanecer intacta, de modo que se han hecho intentos para permitir la lisis del enlace 3'-5' con la matriz soporte sin afectar a los enlaces con grupos laterales protectores.

A partir de esto surge la necesidad de usar grupos protectores inusuales y de tener que calcular los rendimientos de producción que varían entre un codón y otro. Los rendimientos son a duras penas reproducibles y en cualquier caso son bajos.

Surgen dificultades completamente análogas cuando la síntesis se lleva a cabo en una solución, en lugar de sobre resina. En este caso asimismo, los trinucleótidos individuales necesitan desbloquearse selectivamente antes de usarse, exclusivamente en la posición 3' (para hacerlos reactivos), mientras que todas las otras funciones permanecen bloqueadas.

2. En la síntesis normal de polinucleótidos de secuencia aleatoria, en función del uso de mononucleótidos, en cada ciclo de síntesis se usa una mezcla compuesta por al menos dos nucleótidos. En las condiciones químicas más problemáticas, se usan todos los 4 posibles nucleótidos, pero incluso si cada uno de ellos posee una reactividad ligeramente diferente de los otros, habiendo sólo 4 componentes, las condiciones de relaciones molares óptimas que favorecerán la incorporación equimolar de cada nucleótido en la formación de la cadena polinucleótida no son difíciles de encontrar.

Son de mucha mayor importancia las dificultades que uno encuentra cuando como mucho 20 trinucleótidos diferentes tienen que incorporarse en una cantidad equimolar. En primer lugar, debe tenerse en cuenta el hecho de que entre todos los posibles polinucleótidos exista una diferencia en la reactividad química relativa, marcadamente superior que la que hay entre los cuatro mononucleótidos sencillos.

Además, mientras que los nucleótidos están fácilmente disponibles en forma pura y con una reactividad controlada y reproducible, los trinucleótidos, por las dificultades anteriormente mencionadas, estarán disponibles en soluciones cuyo contenido cualitativo y cuantitativo no es fácilmente verificable. Por último, será difícil obviamente encontrar las relaciones molares correctas de los 20 componentes que forman la mezcla de síntesis, suficiente para asegurar una incorporación equimolar. Por supuesto que todas estas dificultades se minimizan al adoptar mezclas menos complejas.

Una segunda aproximación, mucho más sencilla desde el punto de vista de la síntesis química, se basa en el hecho de que cuando más codones codifican sólo para un aminoácido, las dos primeras bases de codones son a menudo constantes, difiriendo sólo en la tercera base de codones.

La diferencia entre los codones representados por el polinucleótido se puede reducir por lo tanto si, durante la síntesis de cada unidad de trinucleótido, en el primer ciclo (que dará el nucleótido 3' terminal, es decir el tercero en el codón) se usa una mezcla de nucleótidos derivados de guanina y timina (o uracilo), mientras que en los dos ciclos de condensación se usan más adelante mezclas de los cuatro mononucleótidos. De este modo, se sintetizan polinucleótidos que pueden no contener 64 codones posibles pero sólo los 32 degenerados del tipo NNK, donde N es cualquiera de los cuatro nucleósidos, y K es guanosina o timidina. Se deduce que de los 20 aminoácidos codificados, 12 están codificados por un solo codón, 5 están codificados por dos posibles codones y 3 están codificados por tres posibles codones. Finalmente, sólo un codón de los 32 codifica para una señal de parada.

Este procedimiento, si se compara con los procedimientos de síntesis usuales, mantiene la extraordinaria ventaja de que no requiere en absoluto un cambio, pero se resuelve si no es parcialmente los problemas anteriores, Específicamente, aunque en comparación con los procedimientos usuales proporciona una solución parcial, no resuelve los problemas de la introducción de los codones de parada, y de la formación resultante de polipéptidos truncados. (Huang, W. y Santi, D. V., 1994).

Otro procedimiento descrito en la técnica se basa en el principio de subdividir el soporte de síntesis en tantos recipientes de síntesis (normalmente columnas), como diferentes codones hay que se insertarán en una posición predeterminada en el oligonucleótido. Los codones sencillos se sintetizan entonces en cada soporte, y los distintos soportes se mezclan entonces para obtener una mezcla de polinucleótidos aleatorios (documento US-A-05523388). Por ejemplo, si cuatro codones codifican para cuatro aminoácidos tienen que insertarse en una posición predeterminada, la resina de síntesis se subdivide en cuatro partes, el primer codón se sintetiza en la primera, el segundo codón en la segunda, y así sucesivamente. Una vez que la síntesis ha finalizado los cuatro soportes se mezclan, obteniendo de este modo una resina soporte que soporta un polinucleótido conjugado cuyo codón del extremo 5' es aleatorio para los cuatro codones.

Este procedimiento tiene la ventaja de permitir una selección exacta de los codones que tienen que insertarse en una posición predeterminada. Esta limitación principal deriva de la necesidad de tener que redividir la resina de síntesis en tantas partes como codones deseados hay. La síntesis se vuelve entonces relativamente sencilla si el número de codones es pequeño, pero relativamente compleja si es elevado, cuando se deben preparar hasta veinte soportes de síntesis diferentes para cada posición deseada para la aleatoriedad. Dado que es necesario trabajar con cantidades relativamente pequeñas de resina para contener los costes de producción, por lo tanto llega a ser extremadamente incómodo subdividir la resina en diez o más cantidades diferentes, y difícil de manejar en las operaciones complicadas de reacciones químicas y lavados necesarios en cada ciclo de síntesis. Además, debe advertirse que la escala de síntesis no se puede aumentar en más de unos pocos micromoles (aproximadamente 10-15 micromoles) sin entrar en considerables pérdidas de eficacia en las reacciones de acoplamiento.

Resumen de la invención

La presente invención se dirige a superar las dificultades anteriormente mencionadas mediante un procedimiento que asegura al mismo nivel una simplicidad y eficacia de costes extraordinarias en la síntesis. La invención se basa en la observación de que cada trinucleótido que compone un codón se puede considerar como constituido por un mononucleótido y por un dinucleótido que le sigue o le precede en la secuencia.

Los aspectos distintivos de esta aproximación se pueden evidenciar mediante una comparación sencilla de los codones mostrados del modo normal (tabla I), con los mismos mostrados para señalar las combinaciones de mononucleótido-dinucleótido (tabla II) y dinucleótido-mononucleótido (tabla III).

TABLA I Código genético

\vskip1.000000\baselineskip

1

TABLA II Combinación B + D

\vskip1.000000\baselineskip

2

TABLA III Combinación D + B

\vskip1.000000\baselineskip

3

En la Tabla II específicamente, cada codón se muestra como el resultado de la combinación del primer nucleótido más un dinucleótido (en lo sucesivo denominado como B + D, donde B significa el nucleótido individual, y D el dinucleótido), mientras que la Tabla III (que también deriva de I) representa codones que se derivan de nucleótidos que esta vez corresponden a la primera y segunda base de codón, más un nucleótido individual que corresponde a la tercera base (denominada en lo sucesivo también como D + B, de acuerdo con la terminología adoptada anteriormente).

Un examen a fondo de estas dos representaciones alternativas del código genético, permitió al inventor observar que en comparación con otras aproximaciones, el número mínimo de unidades monoméricas (constituidas por dinucleótidos) necesarias para codificar para todos los amonoácidos se puede reducir consistentemente. En realidad, según la representación de D + B, es equivalente a los 13 dinucleótidos (resaltados mediante sombreado en la Tabla III), un número muy bajo que disminuye incluso más aun a 7 (también resaltados mediante sombreado en la Tabla II), si se sigue la representación del código B + D. La combinación B + D debe considerarse por lo tanto como las más favorable.

Además, se pueden obtener otras combinaciones de las Tablas II y III que, aunque son en general menos favorables que la combinación D + B, en virtud de su bajo número de dinucleótidos necesarios presentes sin embargo presentan la ventaja de permitir la introducción en la secuencia de codones favorecidos por la expresión genética en diferentes organismos. En función del presente conocimiento en el uso diferencial de los distintos condones en E. Coli, levaduras y células eucarióticas, siempre manteniendo mínimo el número de dímeros necesarios para cada formación de mezcla de síntesis (para la descripción detallada de la invención véase más adelante), es posible derivar, a partir de la Tabla II, las Tablas IV, V y VI respectivamente, en las que se muestra el uso de frecuencias de los codones individuales, mientras que las selecciones más convenientes se resaltan mediante sombreado.

TABLA IV Combinación B + D, aplicada a E. Coli

\vskip1.000000\baselineskip

4

TABLA V Combinación B + D, aplicada a Levadura

\vskip1.000000\baselineskip

5

TABLA VI Base del código genético + dímero según los codones más frecuentes en eucariotas

\vskip1.000000\baselineskip

6

El procedimiento de síntesis química se organiza consecuentemente a la combinación seleccionada. De acuerdo con los aspectos de la aproximación seleccionada, el procedimiento que se prefiere es el que se basa en la combinación de nucleótido-dinucleótido mostrado en la Tabla II (es decir, la B + D) descrita a continuación en el presente documento.

El procedimiento prevé la preparación de 4 columnas de síntesis idénticas, que contienen la resina común usada para este fin, marcada con los nombres de los cuatro nucleótidos, es decir T (o U cuando se debe sintetizar un polirribonucleótido), C, A, G. Entonces, se condensa una mezcla de los dinucleótidos oportunamente seleccionados en la resina dentro de un sintetizador automático. En la primera columna (T) la mezcla está constituida por los dinucleótidos que en la Tabla II están correspondientemente sombreados (TT; CT; AT; GT; GC). En la segunda columna (C) la mezcla está constituida por los dinucleótidos que en la Tabla II están correspondientemente sombreados (TT; CT; AT; AA; GT). En la tercera columna (A) la mezcla está constituida por los dinucleótidos que en la Tabla II están correspondientemente sombreados (TT; TG; CT; AT; AA). En la cuarta (G) la mezcla está constituida por los dinucleótidos que en la Tabla II están correspondientemente sombreados (TT; CT; AT; AA; GT). A este ciclo de síntesis le sigue un segundo ciclo, donde un nucleótido individual (y específicamente el mostrado con el símbolo de la columna, es decir T en la primera, C en la segunda, A en la tercera y G en la cuarta) se añade a cada columna. Al final del segundo ciclo, todos los veinte codones preseleccionados se habrán insertado en la resina de las cuatro columnas, pero en cada columna estarán presentes sólo los codones sombreados en la Tabla II. Para aleatorizar más aun la secuencia, las columna son abiertas ahora, la resina de síntesis se recubre y las cuatro resinas se mezclan cuidadosamente.

La resina mezclada se redistribuye en cuatro columnas, las columnas se reconectan al equipo de síntesis, y se repiten los dos ciclos de síntesis como se describió anteriormente. En la práctica, en cada ciclo de síntesis doble se añaden tres nuevas unidades a la cadena de polinucleótido que se forma para formar sólo los codones preseleccionados, pero de un modo totalmente aleatorio, es decir, a pesar de los codones seleccionados.

Este procedimiento sintético presenta notables ventajas relativas a las descritas en el estado de la técnica, que se resumen a continuación.

\bullet La síntesis de dinucleótidos se lleva a cabo mediante procedimientos que están muy bien descritos en la bibliografía, por lo tanto mediante el uso de reactivos económicos y comercialmente disponibles, en solución y con rendimiento de producto de 85-90% (Kumar, G. 1984).

\bullet En la mayoría de los casos se espera que la diferencia en la reactividad de los distintos dinucleótidos sea inferior a las diferencias de reactividad peculiares de trinucleótidos. La consecuencia principal es que son más sencillas de obtener las incorporaciones homogéneas en la cadena de polinucleótidos que se está formando de todas las especies moleculares presentes en la mezcla de síntesis. La pureza de los reactivos es un factor determinante para este aspecto de la reacción.

\bullet El número total de dinucleótidos requeridos para cubrir todas las posibles combinaciones es extremadamente bajo. En realidad, varía entre un mínimo de 7 y un máximo de 20, y en los casos más normales, como para los descritos en el presente documento, 11 dímeros son suficientes.

\bullet La selección de dinucleótidos a usar se puede hacer para minimizar el número de especies moleculares que se forman en la mezcla de síntesis. Un ejemplo de esto se muestra en la Tabla II, donde lo dímeros se seleccionan de modo que cada mezcla de síntesis contiene sólo 5 dinucleótidos. Esto hace que la búsqueda de condiciones de reacción adecuadas y de concentraciones molares relativas de los reactivos sean mucho más sencillas, para optimizar la incorporación homogénea de todos los componentes.

\bullet Una síntesis llevada a cabo según este enfoque, permite incorporar codones completos en la cadena que se está formando. De hecho, una cuidadosa selección de dinucleótidos y mononucleósidos, permite dirigir la síntesis de modo que se excluyan codones indeseados como por ejemplo codones de parada. Una combinación que excluye específicamente sólo codones de parada es por ejemplo la que se muestra en la Tabla II, pero también es posible modificar la combinación para excluir, en una o más posiciones de la secuencia final, cualquier codón indeseado.

Si por ejemplo se fueran a excluir algunos aminoácidos de cierta posición de la cadena polipeptídica, por ejemplo los ácidos (ácido glutámico, Glu o E, y ácido aspártico, Asp o D), sería suficiente la exclusión de la mezcla aplicada a la columna G en el ciclo de síntesis correspondiente a los dímeros de posición deseados AT y AA. Sin embargo, según el mismo principio, son posibles otras incontables combinaciones.

\bullet En relación a cada síntesis de aminoácidos, la posibilidad de seleccionar un codón adecuado entre los muchos posibles permite la inserción de sólo aquellos codones que se usan preferiblemente en la síntesis proteínica del microorganismo seleccionado. Por lo tanto, al excluir de la mezcla de oligonucleótidos de la secuencia aleatoria aquellos traducidos en el sistema con una menor eficacia, es posible maximizar la expresión genética, obteniendo de este modo una mejor correspondencia entre las homogeneidades del oligonucleótido y de la mezcla de oligopéptidos resultante.

Todas estas consideraciones destacan las notables ventajas que se derivan de dicha aproximación. En realidad, no están relacionadas exclusivamente con el procedimiento basado en una combinación B + D, sino que por el contrario son válidas para cualquier tipo de procedimiento que se deriva de la aproximación general y por lo tanto deducible a partir de la mencionada anteriormente.

De hecho, por ejemplo en función de la combinación mostrada en la Tabla III, es posible inferir un procedimiento de síntesis que difiere del precedente sólo para el aspecto de que debe invertirse orden de los dos ciclos sintéticos: en primer lugar los mononucleótidos individuales se condensan sobre resinas de síntesis, y las mezclas de dinucleótidos sólo en la segunda ronda.

Este segundo procedimiento, al igual que los otros que se derivan de más combinaciones posibles, aunque está incluido dentro de las intenciones del inventor, no debe especificarse más, porque son esencialmente deducibles a partir del primer procedimiento descrito anteriormente.

Descripción de las figuras

La invención se aclarará mejor con la ayuda de la figura 1 adjunta.

La Fig. 1 muestra la estructura química de los dímeros utilizados como unidades monoméricas en la síntesis de los codones de la secuencia final. Cada dímero se obtiene al sustituir grupos en la posición B2 y luego en la B1, según se especifica para cada dímero.

Descripción detallada de la invención

Se describe un procedimiento para la síntesis de mezclas de oligonucleótidos que contienen secuencias de nucleótidos total o parcialmente aleatorias y que tienen los siguientes aspectos:

\bullet cada componente de mezcla codifica para un polipéptido diferente. No hay presentes en la mezcla oligonucleótidos diferentes que codifican para el mismo polipéptido;

\bullet la parte de la secuencia aleatoria insertada en cada componente de mezcla está compuesta de tal modo que la aleatoriedad de la secuencia se refiere a una unidad de tres nucleótidos adyacentes (que corresponden normalmente a un codón) en lugar de nucleótidos individuales.

La parte de la secuencia aleatoria insertada en cada componente de mezcla está compuesta de hecho de tal modo que, considerando las tres unidades de oligonucleótidos adyacentes, cada unidad puede adoptar la secuencia de un número limitado de trinucleótidos, definidos en una lista predeterminada, y que contiene entre 2 y 64 de los trinucleótidos posibles formados por la combinación de los cuatro mononucleótidos naturales.

Estos aspectos son una consecuencia directa del procedimiento de síntesis. En su forma preferida, está basado en las siguientes operaciones:

a) preselección de dinucleótidos en grupos, estando formado cada grupo por aquellos dinucleótidos que constituyen la segunda y la tercera base de al menos uno de los codones deseados en la secuencia que comparte la primera base.

b) preparación de mezclas que contienen dinucleótidos activados, estando redistribuidos dichos dinucleótidos en dichas mezclas así como agrupados por la operación de éstas bajo a) en una concentración adecuada para obtener homogeneidad en la correspondiente representación de tripletes;

c) síntesis que se puede llevar a cabo en paralelo o no, en uno o más recipientes de reacción que mantienen un soporte para la síntesis de fase sólida de una secuencia conocida que resultará en el extremo 3' de la secuencia final;

d) adición de las mezclas de dinucleótidos activados de éstos bajo b) en los recipientes de síntesis, uno para cada recipiente, y consiguiente reacción de unión de los dinucleótidos activados contenidos allí, con el extremo 5' de las secuencias sintetizadas de éstas bajo c);

e) adición de al menos un mononucleótido a al menos uno de los recipientes de síntesis, un mononucleótido para cada recipiente, y consiguiente reacción de unión en el extremo 5' de dichos dinucleótidos de éstos.

f) apertura del recipiente y mezcla de los soportes para obtener una mezcla de reacción homogénea;

g) reconstitución de los recipientes de síntesis con una cantidad de mezcla homogénea ésta en el artículo g) precedente igual a una fracción 1/n para cada recipiente, donde n es el número de recipientes usados;

h) repetición de la secuencia operacional bajo d), e), f) y g) tantas veces como sea necesario mediante el diseño de la solicitud.

i) síntesis en los recipientes en paralelo o no de una secuencia conocida que estará en el extremo 5' del producto de polinucleótidos final.

Para ejemplificar las maneras de llevar a cabo las distintas operaciones mencionadas anteriormente, el procedimiento se resume a continuación, por lo tanto cada etapa se puede rehacer (o fragmentar si se necesita) en función de los criterios aplicativos adoptados más comúnmente en la práctica en laboratorio.

El procedimiento se puede realizar por lo tanto de la manera siguiente:

\alpha. Una tabla de los 64 oligonucleótidos, obtenible al tener en cuenta la combinación de cada uno de los 4 nucleótidos posibles con cada uno de los 16 dinucleótidos posibles (como por ejemplo en la Tabla II).

\beta. A continuación a cada trinucleótido enumerado en la tabla se le indican los aspectos a considerar en el uso del polinucleótido a sintetizar. En su forma más común (pero no en la única), estos aspectos son los aminoácidos codificados según el código genético natural, y se expresará finalmente la abundancia relativa de los trinucleótidos en las secuencias de polinucleótidos naturales de los organismos en los que se van a sintetizar los polinucleótidos (como en las Tablas IV; V y VI). Si se demostrara que es posible establecer otros aspectos peculiares inherentes a los trinucleótidos, éstos se podrían tener en cuenta para la selección de una estrategia de síntesis.

\gamma. Se lleva a cabo entonces una selección de trinucleótidos deseados tratando de mantener en un escaso mínimo el número de dinucleótidos necesarios para su síntesis, para hacer que se distribuyan lo más uniformemente posible en las cuatro columnas de la tabla (como se ejemplifica mediante sombreados en las Tablas II, III, IV, V, y VI).

\delta. Preparación de los dímeros seleccionados en una forma activada y protegida. En una realización preferida, la presente invención prevé la preparación de los dinucleótidos necesarios según se describe por Kumar G. y Poonian M. S. J. Org. Chem. (1984), Vol 49, pág. 4905-4912. Los dímeros obtenidos de este modo se protegen en su extremo 5' mediante un grupo dimetoxi-tritilo, mientras que el extremo 3' del dímero es derivado con cianoetilfosforamidito. Las bases se protegen con los grupos protectores descritos en la técnica, y de uso en la síntesis de oligonucleótidos según el procedimiento de fosforamidito (como en el ejemplo, no limitante, mostrado en la Fig. 1). La pureza de los dímeros es de 85-90%, según se determinó mediante cromatografía en capa fina (TLC) y resonancia magnética nuclear llevada a cabo con fósforo^{31} (RMN-^{31}P). Para definir el alcance de esta invención, los procedimientos de síntesis de los distintos dímeros no son importantes, ya que son compatibles con el procedimiento de condensación en la matriz sólida utilizada para síntesis de polinucleótidos.

\varepsilon. En la realización preferida la síntesis de polinucleótidos se lleva a cabo en paralelo, utilizando como recipientes de síntesis 4 columnas cromatográficas para la síntesis en fase sólida que contienen resina como soporte, adoptando los protocolos usuales descritos por el fabricante del equipo usado. De cualquier modo, en la presente patente se describen metodologías a las que se hace referencia a modo de ejemplo en la firma Perkin Elmer, pero es igualmente posible utilizar cualquier otro conjunto o procedimiento de síntesis en fase sólida basado en las mismas reacciones químicas o en unas lo suficientemente iguales.

Se unen entonces cuatro columnas de síntesis al conjunto y se utilizan normalmente (pero no necesariamente) para la síntesis paralela de una parte del extremo 3' que tiene una secuencia única y definida. En ésta hay comprendidos a menudo sitios de corte para las enzimas de restricción, o cualquier otra secuencia útil para la clonación, o para muchas otras aplicaciones deseables cualquiera del polinucleótido;

\zeta. Entonces en las columnas 1, 2, 3 y 4 (también denominadas T, C, A y G según el mononucleótido que se añadirá más tarde) respectivamente las mezclas de dinucleótidos que corresponden a T, C, A y G se añaden según la definición de los codones según se especifica en la Tabla de referencia seleccionada (por ejemplo una de las tablas II, IV, V, VI o incluso otras, preparadas según se describe anteriormente en los apartados \alpha, \beta y \gamma de la presente sección). La mezcla que contiene los dinucleótidos que corresponden a T se denominarán mezcla T, el que corresponde a A mezcla A y así sucesivamente.

La composición molar de las distintas mezclas, así como los tiempos de acoplamiento, se deben optimizar según las circunstancias.

En la práctica usual, los tiempos de acoplamiento se seleccionan en el intervalo entre 20 segundos y 8 minutos, mientras que las concentraciones molares relativas de dinucleótidos individuales presentes en mezclas pueden divergir desde la equimolaridad para tener en cuenta tanto la pureza de los dinucleótidos individuales como la reactividad de éstos. Las indicaciones de la reactividad de los dinucleótidos individuales se puede inferir a partir de la reactividad de los trinucleótidos que tienen el mismo extremo 3' que el descrito en por Virnekas y col., 1994; Ono y col., 1994; Kagushin y col., 1994.

La reacción de condensación de los dímeros ocurre generalmente con 90-95% de rendimiento, medido con liberación de tritilo.

\eta. La siguiente etapa de síntesis consiste en el acoplamiento de cada monómero a la columna correspondiente y la mezcla según se describe a continuación:

Columna 1 (mezcla T) 5'-O-dimetoxitritilo, timidina, 3'-O-cianoetil fosforamidita

Columna 2 (mezcla C) 5'-O-dimetoxitritilo, desoxicitidin N4-benzoil 3'-O-cianoetil fosforamidita

Columna 3 (mezcla A) 5'-O-dimetoxitritilo, desoxadenosin N6-benzoil 3'-O-cianoetil fosforamidita

Columna 4 (mezcla G) monómero de 5'-O-dimetoxitritilo, desoxiguanosin N2-isobutiril 3'-O-cianoetil fosforamidita

Tras la acetilación usual de las secuencias que no reaccionan, y la oxidación de puente fosfórico internucleótido (de acuerdo con las etapas de síntesis clásica), se para la síntesis.

\theta. Las cuatro columnas de síntesis se abren y sus resinas se mezclan para obtener una mezcla homogénea.

\iota. Las cuatro columnas de síntesis se reconstituyen con una cantidad equivalente de resina por columna, y las columnas se reconectan al sintetizador.

\kappa. El procedimiento de \zeta a \iota se repite tantas veces como requiera el número de trinucleótidos de tipo aleatorio que se insertarán en el polinucleósido.

\lambda. La síntesis se termina normalmente al sintetizar en paralelo en las cuatro columnas una cola del extremo 5' polinucleotídica de determinada secuencia, que posee funciones análogas a la secuencia del extremo 3' tratada en \varepsilon.

Por lo tanto, teniendo en cuenta todo lo explicado, el tema de la presente invención es un procedimiento para la síntesis química de polinucleótidos que tienen una secuencia parcial o totalmente aleatoria, de modo que para la parte de la secuencia aleatoria cada unidad de trinucleótido que corresponde a un codón puede asumir un número determinado de secuencias predefinidas. El procedimiento se caracteriza por el hecho de utilizar como unidades monoméricas de la síntesis de la parte de la secuencia aleatoria mononucleótidos y dinucleótidos presintetizados, y por el hecho de que dicha síntesis se lleva a cabo en una multiplicidad de soportes, de modo que en cada uno de dichos soportes se alternan al menos un ciclo de reacción en el que se une un mononucleótido. En una realización preferida, al final de los ciclos de reacción necesarios para un codón se mezclan soportes de síntesis y luego se redividen en dos o más recipientes de reacción.

En particular, el caso considerado es el de los dinucleótidos que forman la segunda y la tercera base, o la primera y la segunda base de esos codones que comparten respectivamente la primera y la tercera base.

Además, los casos considerados son los aquellos en los que dichos polinucleótidos están constituidos por desoxirribonucleótidos así como aquel en el que están hechos de ribonucleótidos.

Cuando se utilizan los dinucleótidos correspondientes a la segunda y la tercera base de aquellos codones que comparten la primera base (que corresponde a la estructura B + D, como se ve en la realización preferida), el procedimiento es el que se explica antes extensivamente en las operaciones de a) a i).

En el caso análogo en el que se utilizan los dinucleótidos correspondientes a la primera y segunda base de aquellos codones que comparten la tercera base (correspondientes al esquema D + B) el procedimiento es casi completamente idéntico, pero para una inversión de las operaciones de d) y e).

Ocurren casos particulares cuando dicha síntesis se lleva a cabo en paralelo, y cuando las mezclas están en un número de cuatro, los soportes están constituidos por resina, y los recipientes están constituidos por columnas.

El tema de la presente invención también es el procedimiento que utiliza dinucleótidos que determinan la formación de unidades de trinucleótidos que corresponden a los codones más frecuentes en genomas de E. Coli, eucariotas y levaduras, y específicamente, dinucleótidos TT, TC, TG, CT, CC, CG, AC, AA, AG, GT, GG, dinucleótidos TC, TG, CC, AC, AG, GC, GG y dinucleótidos TT, TC, TG, CT, CA, AC, AA, AG, GT, GA, GC respectivamente.

En cuanto a la primera serie de dinucleótidos, se considera especialmente el caso en el que se mezclan en cuatro mezclas de la manera siguiente: W = TC; TG; CC; AC; AA; X = TG; CG; AC; AG; GT; Y = TT; CT; AC; AA; GT; Z =
TC; CT; AC; GT; GG; y ese en el que los codones se obtienen en las cuatro columnas de resina según las siguientes agrupaciones:

AW_{1} = Isoleucina, metionina, treonina, asparagina, lisina;

CX_{1} = Leucina, prolina, histidina, glutamina, arginina;

GY_{1} = Valina, alanina, ácido aspártico, ácido glutámico, glicina;

TZ_{1} = Fenilalanina, serina, tirosina, cisteína, triptófano.

Finalmente, se considera de la misma relevancia el caso donde los dinucleótidos se mezclan entre ellos en las siguientes proporciones molares: W_{2} [AA] = [CC] = [TG] = [AC] = 1 M, [TC] = 1,5 M; X_{2}: [TG] = [AG] = [GT] = [CG] = 1 M, [AG] = 1,5 mM; Y_{2}: [GT] = [AC] = [CT] = [AA] = 1 M y [TT] = 1,5 M; Z_{2}: [GG] = 2 M, [AC] = [CT] = [GT] = 1 M y [TC] = 1,5 M.

Hasta ahora, sólo se dio una descripción general de la presente invención. Con la ayuda de los ejemplos siguientes en el presente documento, se dará ahora una descripción más detallada de sus realizaciones específicas enfocadas a proporcionar una mejor comprensión de los objetivos, aspectos, ventajas y modalidades de operación de esta invención. Estos ejemplos se dan sólo a modo de ilustración, y no con fines limitantes del alcance de la presente invención, definida por las reivindicaciones adjuntas.

Ejemplo 1 Síntesis de 11 dinucleótidos protegidos según las fórmulas descritas en la fig. 1

Para preparar los dímeros necesarios para la síntesis de un polinucleótido que tiene una secuencia parcialmente aleatoria (pero controlada, para una mejor transcripción en E. coli), a partir del examen de la Tabla IV se tomó la decisión de preparar 11 dinucleótidos mostrados sombreados en la tabla, según el procedimiento descrito por Kumar G. y Poonian (Kumar G. y Poonian M. S. J. Org. Chem. (1984), Vol 49, páginas 4905-4912). Los dímeros obtenidos de este modo están protegidos en su extremo 5' mediante un grupo dimetoxitritilo, mientras que la parte 3' del dímero está derivada con cianoetilfosforamidita. Las bases se protegen con los grupos protectores en uso en la síntesis de oligonucleótidos según el procedimiento de fosforamidita, según se informó en Koomar y Poonian y especificados en la Fig. 1.

La pureza de los dímeros determinada con TLC y RMN-^{31}P se dedujo a partir de la siguiente lista de datos analíticos:

RMN-^{1}H (CDCl_{3}) común a todos los dímeros:

\delta 1,15-1,25 (12 H, m, isopropilo), 2,15-2,50 (4 x 2' -H), 2,80-2,90 (2 H, m, -CH_{2}CN y 2 H, m, OCH_{2} cianoetilo), 3,70-3,90 (13 H, m, 2x5' -H de nucleósido 5', 2 x OCH_{3} de DMTr, POCH_{3} y 2 H, m, -CH-isopropilo), 4,00-4,50 (4 H, 2 x 5' -H de nucleósido 3' y 2 x 4' -H), 5,00-5,35 (2 H, m, 3' -H), 6,20-6,50 (2 H, m, 1'H), 6,80-6,95 (4H, d, J = 8,8 Hz, 3,3', 5,5' -H de DMTr), 7,15-7,30 (9 H de DMTr)

DMTr T/T Phos

^{1}H (CDCl_{3}): \delta 1,90-1,95 (6 H, m, CH_{3} de Tim.), 7,20-7,25 (2 H, m, 6-H de Tim.). ^{31}P (CDCl_{3}): \delta -1,41, -2,26 (2 x P(V)diast.); 147,00, 148,60 (2 x P(III)diast.). EM-ESI: m/z 1085,03 (M + Na^{+}); Rf: 0,44 (5% MeOH/DMC)

DMTr A/A Phos

^{1}H (CDCl_{3}): \delta 7,20-8,05 (10 H, m, bz), 8,10-8,80 (4 H, m, 2-H y 8-H de Ade.). ^{31}P (CDCl_{3}): \delta -1,69, -1,91 (2 x P(V) diast.); 148,10, 148,60 (2 x P(III) diast.). EM-ESI: m/z 1289,5 (M + Na^{+}), Rf: 0,47 (5% MeOH/DCM)

DMTr C/C Phos

^{1}H (CDCl_{3}): \delta 7,25-7,40 (4 H, m, 2x 5,6-H de Cit.), 7,50-8,20 (10 H, m, bz). ^{31}P (CDCl_{3}): \delta -1,19, -1,94 (2 x P(V) diast.); 147,88, 149,07 (2 x P(III) diast.). EM-ESI: m/z 1242,5 (M + H^{+}), Rf: 0,48 (5% MeOH/DCM)

DMTr G/G Phos

^{1}H (CDCl_{3}): \delta 1,20-1,40 (12 H, m, CH_{3} de isobut), 2,40-2,55 (2 H, m, CH de isobut), 7,50-7,60 (2 H, m, 8-H de Gua). ^{31}P (CDCl_{3}): \delta -2,19, -1,51 (2 x P(V)diast.); 147,69, 148,19 (2 x P(III)diast.). EM-ESI: m/z 1253,2 (M + H^{+}); Rf: 0,37 (5% MeOH/DMC)

DMTr T/C Phos

^{1}H (CDCl_{3}): \delta 1,20-1,40 (3 H, m, CH_{3} de Tim.), 7,30-7,40 (3 H, m, 5,6 de Cit. y 6-H de Tim.), 7,45-8,20 (5H, m, bz). ^{31}P (CDCl_{3}): \delta 1,00, -1,98 (2 x P(V)diast.); 147,8, 148,4 (2 x P(III)diast.). EM-ESI: m/z 1152,4 (M + H^{+}); Rf: 0,41 (5% MeOH/DMC)

DMTr T/G Phos

^{1}H (CDCl_{3}): \delta 1,05-1,15 (6 H, m, CH_{3} de isobut), 1,20-1,30 (3 H, m, CH_{3} de Tim.), 2,30-2,45 (1 H, m, CH de isobut), 7,20-7,25 (1 H, m, 6-H de Tim.), 7,40-7,70 (1 H, m, 8-H de Gua.). ^{31}P (CDCl_{3}): \delta -2,20, -3,00 (2 x P(V)diast.); 147,20, 148,20 (2 x P(III)diast.). EM-ESI: m/z 1158,4 (M + H^{+}); Rf: 0,37 (5% MeOH/DMC)

DMTr A/G Phos

^{1}H (CDCl_{3}): \delta 1,05-1,15 (6 H, m, CH_{3} de isobut), 2,30-2,50 (1 H, m, CH de isobut), 7,45-8,70 (8 H, m, 2,3,4,5,6-H di bz, 8-H de Gua y 2,8-H de Ade). ^{31}P (CDCl_{3}): \delta -1,63, -2,20 (2 x P(V)diast.); 147,06, 148,54 (2 x P(III)diast.). EM-ESI: m/z 1271,4 (M + H^{+}); Rf: 0,38 (5% MeOH/DMC)

DMTr A/C Phos.

^{1}H (CDCl_{3}): \delta 7,05-7,15 (2 H, m, 5,6-H de Cit.), 7,50-8,70 (12 H, m, 2 x (2,3,4,5,6-H) de bz y 2,8-H de Ade). ^{31}P (CDCl_{3}): \delta -0,19, -0,29 (2 x P(V)diast.); 147,66, 148,66, 148,85 (2 x P(III)diast.). EM-ESI: m/z 1266,1 (M + H^{+}); Rf: 0,44 (5% MeOH/DMC)

DMTr C/T Phos.

^{1}H (CDCl_{3}): \delta 1,40 (3 H, s, 3 H de Tim.), 7,20-7,40 (3 H, m, 5,6-H de Cit y 6-H de Tim.), 7,50-8,05 (5 H, m, bz.). ^{31}P (CDCl_{3}): \delta -1,53, -1,98 (2 x P(V)diast.); 148,20, 148,45 (2 x P(III)diast.). EM-ESI: m/z 1175 (M + Na^{+})1191 (M + K^{+}) ; Rf: 0,42 (5% MeOH/DMC)

DMTr G/T Phos

^{1}H (CDCl_{3}): \delta 1,1-1,25 (6 H, m, CH_{3} de isobut), 1,30-1,35 (3 H, m, CH_{3} de Tim.), 2,25-2,50 (1 H, m, CH de isobut), 7,15-7,20 (1 H, m, 6-H de Tim.), 7,70-7,75 (1 H, m, 8-H de Gua.). ^{31}P (CDCl_{3}): \delta -0,40, -1,00 (2 x P(V)diast.); 148,00, 148,80 (2 x P(III)diast.). EM-ESI: m/z 1158,5 (M + H^{+}); 1181 (M + Na^{+}) ; 1196,4 (M + K^{+}) ; 0,41 (5% MeOH/DMC)

DMTr C/G Phos.

^{1}H (CDCl_{3}): \delta 1,30 (6 H, m, CH_{3} de isobut), 2,20-2,25 (1 H, m, CH de isobut), 7,15-7,25 (2 H, m, 5,6-H de Cit.), 7,45-8,30 (6 H, m, 5H Bz y 8-H de Gua.). ^{31}P (CDCl_{3}): \delta -2,47, -2,69 (2 x P(V)diast.); 147,75, 148,16 (2 x P(III)diast.). EM-ESI: m/z 1246,5 (M + H^{+}); 0,44 (5% MeOH/DMC)

A partir de estos datos se puede deducir que la pureza de los dímeros sintetizados está entre 85 y 90%.

Ejemplo 2 Síntesis de un oligonucleótido formado por 20 nucleótidos según la fórmula

5' -A CTG GCG [P' P] TCG ACC T- 3'

donde por P' y P se quieren significar trinucleótidos que pueden codificar para cualquiera de los veinte aminoácidos naturales, seleccionados para reflejar la frecuencia de uso para el microorganismo E. coli.

La mezcla resultante de esta síntesis estará formada en realidad por un toral de 400 polinucleótidos diferentes. Con los 11 dinucleótidos preparados como para el ejemplo 1, se preparan entonces cuatro mezclas del siguiente modo:

Mezcla Z

Dímero	TC	0,0225 mmoles
	CT	0,015 mmoles
	AC	0,015 mmoles
	GT	0,015 mmoles
	GG	0,03 mmoles

las cantidades pesadas se disuelven entonces en 1 ml de acetonitrilo para proporcionar una concentración final de 0,0975 mmoles/ml (es decir 0,0975 M)

Mezcla X

Dímero	TG	0,015 mmoles
	CG	0,015 mmoles
	AC	0,015 mmoles
	AG	0,0225 mmoles
	GT	0,015 mmoles

las cantidades pesadas se disuelven entonces en 1 ml de acetonitrilo para proporcionar una concentración final de 0,0825 mmoles/ml (es decir 0,0825 M)

Mezcla W

Dímero	TC	0,0225 mmoles
	TG	0,015 mmoles
	CC	0,015 mmoles
	AC	0,015 mmoles
	AA	0,015 mmoles

Mezcla Y

Dímero	TT	0,0225 mmoles
	CT	0,015 mmoles
	AC	0,015 mmoles
	AA	0,015 mmoles
	GT	0,015 mmoles

las cantidades pesadas se disuelven entonces en 1 ml de acetonitrilo para proporcionar una concentración final de 0,0825 mmoles/ml (es decir 0,0825 M).

Las cuatro mezclas (W, X, Y, Z) se disuelven en acetonitrilo que contiene menos de 30 ppm de agua y en argón, cargado en el sintetizador DNA APPLIED BIOSYSTEM* 394 DNA/RNA respectivamente en las posiciones 5, 6, 7, 8 de la máquina. Todos los reactivos (disolventes, activadores, y columnas de síntesis en escala de 40 nmoles) se adquirieron de PERKIN ELMER, y se usaron de acuerdo con las instrucciones del fabricante.

La síntesis comienza con la síntesis en paralelo en las cuatro columnas de la parte 3' del oligonucleótido:

Columna 1	TCG ACC T	-3'
Columna 2	TCG ACC T	-3'
Columna 3	TCG ACC T	-3'
Columna 4	TCG ACC T	-3'

Entonces se sintetiza la parte degenerada del oligonucleótido según se describe anteriormente.

en las columnas 1, 2, 3 y 4, se adicionan mezclas de dímeros W, X, Y y Z en las concentraciones anteriormente especificadas y la reacción se lleva a cabo dejando un tiempo de acoplamiento de 3 minutos. La reacción de condensación de los dímeros se lleva a cabo normalmente con un rendimiento de 90-95%, medido con liberación de tritilo. En las columnas, se sintetizaron los siguientes oligonucleótidos:

Columna 1	W TCG ACC T	-3'
Columna 2	X TCG ACC T	-3'
Columna 3	Y TCG ACC T	-3'
Columna 4	Z TCG ACC T	-3'

Entonces sigue la adición de bases A, C, G y T, respectivamente en las columnas de reacción 1, 2, 3 y 4:

Columna 1	AW TCG ACC T	-3'
Columna 2	CX TCG ACC T	-3'
Columna 3	GY TCG ACC T	-3'
Columna 4	TZ TCG ACC T	-3'

Tras las reacciones de acetilación y oxidación usuales (de acuerdo con los procedimientos de síntesis clásicos), la síntesis se interrumpe. Las columnas se desmontan, se abren, y se unifica la resina de las cuatro columnas de síntesis (para un total de 40 mg) y se mezcla de manera homogénea.

La mezcla se redivide entonces en cuatro partes iguales (4 x 10 mg) y se redivide entonces de nuevo en cuatro nuevas columnas de síntesis:

Columna 1	P TCG ACC T	-3'
Columna 2	P TCG ACC T	-3'
Columna 3	P TCG ACC T	-3'
Columna 4	P TCG ACC T	-3'

donde P = (AW + CX + GY + TZ).

Se repite el procedimiento para la segunda posición degenerada: P'

Se añaden las mezclas W, X, Y y Z respectivamente a las columnas 1, 2, 3 y 4:

Columna 1	W P TCG ACC T	-3'
Columna 2	X P TCG ACC T	-3'
Columna 3	Y P TCG ACC T	-3'
Columna 4	Z P TCG ACC T	-3'

entonces sigue la adición de la tercera base de codón en las columnas respectivas:

Columna 1	AW P TCG ACC T	-3'
Columna 2	CX P TCG ACC T	-3'
Columna 3	GY P TCG ACC T	-3'
Columna 4	TZ P TCG ACC T	-3'

Entonces se mezcla de manera homogénea la resina de las cuatro columnas y se subdivide en cuatro nuevas columnas de síntesis. En este momento se sintetizó el segundo codón degenerado P', por lo tanto la columnas contienen:

Columna 1	P' P TCG ACC T	-3'
Columna 2	P' P TCG ACC T	-3'
Columna 3	P' P TCG ACC T	-3'
Columna 4	P' P TCG ACC T	-3'

donde P' = P = (AW + CX + GY + TZ).

Tras la síntesis del segundo trinucleótido P' (base + mezcla de dímero), la región 5' que flanquea el oligonucleótido [AGT CGC G] se sintetiza en las cuatro columnas en paralelo, constituyendo por lo tanto la secuencia del oligonucleótido:

5' - AGT CGC C P' P TCG ACC T - 3'

donde P' = P = (AW + CX + GY + TZ) que corresponde a los codones: ATC, ATG, ACC, AAC, AAA, CTG, CCG, CAC, CAG, CGT, GTT, GCT, GAC, GAA, GGT, TTC, TCT, TAC, TGT y TGG.

Cuando se completa la síntesis se retira el oligómero pegado a la resina usada para la síntesis y se desprotege de acuerdo con los procedimientos clásicos adoptados para la construcción de oligonucleótidos sintéticos usando la química de 0-metil fosforamiditas (7).

Ejemplo 3

Análisis funcional y genético del polinucleótido sintetizado en el Ejemplo 2, que tienen la secuencia:

5' - A GTC CGC C [P' P] TCG ACC T - 3'

El polinucleótido degenerado sintetizado en el ejemplo 2 está compuesto por una mezcla de 400 polinucleótidos. En el presente ejemplo esta mezcla se denominó por conveniencia "polinucleótido B". Para analizar su composición real, para verificar en práctica que todas las 400 especies moleculares esperadas de la síntesis están presentes en la mezcla, se siguieron las siguientes etapas:

\Rightarrow se sintetizó el siguiente oligonucleótido con un procedimiento convencional:

oligonucleótido A

14 nucleótidos

secuencia: 5'CGCGACT AGGTCGA3'

La secuencia de este oligonucleótido se diseñó para ser complementaria en su parte del extremo 3' (7 nucleótidos) con la parte del extremo 3' del oligonucleótido B, y su parte del extremo 5' (7 nucleótidos) con la parte del extremo 5' del oligonucleótido B.

Sec. (A) = 5'	CGCGACTA	AGG	TCG	A	3'
Sec. (B) = 5'		TCC	AGC	T [P P']	GCGCTG	A 3'
Sec. (A) = 5'					CGCGAC	T AGGTCGA3'

\Rightarrow Ambos nucleótidos se fosforilaron enzimáticamente en el extremo 5', se mezclaron en cantidades equimolares, se desnaturalizaron a 95ºC y entonces se dejaron anilar y polimerizar disminuyendo la temperatura lentamente a 15ºC.

\Rightarrow La mezcla experimentó entonces una ligación enzimática, y entonces una reacción de finalización al inocular con polimerasa Klenow. La reacción de ligación implica la formación de un fragmento de ADN de doble hélice que contiene repeticiones de "cabeza-cola" de serie de una unidad de ADN constituidas por los dos oligonucleótidos acoplados A y B.

\Rightarrow Los fragmentos generados, que resultan con extremos romos, se clonaron en el sitio EcoRV del plásmido pBSks+. La mezcla de ligación se enriqueció posteriormente para los clones recombinantes con digestión de EcoRV, y se usaron para transformar células bacterianas con azul XL-1 competente.

\Rightarrow Los clones recombinantes se identificaron con selección colorimétrica en placas LB+Amp+Xgal/IPTG.

\Rightarrow Se expandieron 20 clones seleccionados aleatoriamente, y la secuencia recombinante al completo contenida en éstos se amplificó y se clonó con PCR (reacción en cadena de la polimerasa).

\Rightarrow El análisis con electroforesis en gel de agarosa permitió la determinación de la longitud de cada inserción de clon.

\Rightarrow Se secuenciaron insertos de 20 clones, permitiendo de este modo la determinación de 170 partes variables comprendidas en el oligonucleótido B.

La Tabla VIII muestra frecuencias observadas para cada uno de los 20 trinucleótidos proporcionados por el diseño experimental. A partir de la tabla VIII se deduce que están presentes todos los trinucleótidos esperados en el diseño experimental (según la Tabla IV), y que su frecuencia no destaca de un modo significativo de una distribución uniforme.

TABLA VII

Frecuencias de los tripletes observados a partir de la secuenciación de 170 codones presentes en la parte degenerada del ADN de 20 clones seleccionados aleatoriamente en una biblioteca de oligonucleótidos degenerados, sintetizados con el procedimiento de la invención.

Codones	\hskip2,5cm	Frecuencia
AAA		11
AAC		7
ATC		11
ATG		7
AAC		7

CTG		12
CAG		13
CAC		11
CGT		7
CCG		5

GTT		14
GAA		11
GAC		11
GCT		5
GGT		3

TGG		6
TTC		6
TAC		10
TCT		10
TGT		3
		170

Referencias bibliográficas

\bulletGait M. J., Oligonucleotides Synthesis "A Practical Approach Series". (1984) IRL Press Oxford Washington D. C.

\bulletHuang, W y Santi, D. V. (1994) Anal. Biochem. 218 pág. 454-457.

\bulletKayushin A. L., Korosteleva M. D., Miroshnikov A. I., Kosch W., Zubov D. y Piel N. (1995) Nucleic Acid Research vol. 24, Nº 19.

\bulletKumar G. y Poonian M. S. J. Org. Chem. (1984), Vol. 49, pág. 4905-4912.

\bulletLyttle M. H., Napolitano E. W., Calio B. L. y Kauvar L. M., Biotechniques (1995), Vol. 19; N 2, pág. 274-280.

\bulletOno A., Matsuda A., Zhao J. y Santi D. V., Nucleic Acids Research (1994), Vol. 22; N25, pág. 5600-5607.

\bulletSambrook, J., Fritsch, E. F., y Maniatis, T. (1989) en "Molecular Cloning. A Laboratory Manual", Cold Spring Harbor Laboratory, 2ª Edición Cold Spring Harbor, NY.

\bulletVirnekas B., Ge L., Plucksthun A., Schneider K. C., Wellnhofer G. y Moroney S. E., Nucleic Acids Research (1994), Vol. 22; N25, pág. 5600-5607.

Claims

1. Un procedimiento para la síntesis química de un polinucleótido que tiene una secuencia total o parcialmente aleatoria, en el que la producción de dicha parte de secuencia aleatoria comprende ciclos de reacción que combinan alternativamente un mononucleótido y un dinucleótido para formar un trinucleótido que comprende:

(a) un ciclo de reacción en al menos un soporte en el que se añade al menos un dinucleótido a cada soporte;

(b) otro ciclo de reacción en el que se añade un mononucleótido a cada soporte;

(c) aleatorizar opcionalmente el/los producto(s) obtenido(s) al mezclar los soportes y dividir el/los producto(s) entre al menos dos soportes; y

(d) repetir opcionalmente las etapas (a) a (c) tanto como sea necesario hasta que se produce dicha parte de secuencia aleatoria;

en el que la combinación de mononucleótidos y dinucleótidos se elige de tal modo que para la parte de secuencia aleatoria cada unidad de trinucleótido constituye un codón elegido a partir de un número limitado de los codones disponibles, como se muestra en la Tabla II:

TABLA II

Combinación B + D

7

reduciendo por lo tanto la degeneración del código genético.

2. Un procedimiento para la síntesis química de un polinucleótido que tiene una secuencia total o parcialmente aleatoria, en el que la producción de dicha parte de secuencia aleatoria comprende ciclos de reacción que combinan alternativamente un mononucleótido y un dinucleótido para formar un trinucleótido que comprende:

(b) otro ciclo de reacción en el que se añade al menos un dinucleótido a cada soporte;

en el que la combinación de mononucleótidos y dinucleótidos se elige de tal modo que para la parte de secuencia aleatoria cada unidad de trinucleótido constituye un codón elegido a partir de un número limitado de los codones disponibles, como se muestra en la Tabla III:

TABLA III

Combinación D + B

8

reduciendo por lo tanto la degeneración del código genético.

3. El procedimiento según la reivindicación 2, en el que cada trinucleótido se sintetiza al añadir primero un mononucleótido y después un dinucleótido.

4. El procedimiento según la reivindicación 1, en el que cada trinucleótido se sintetiza al añadir primero un dinucleótido y después un mononucleótido.

5. El procedimiento según una cualquiera de las reivindicaciones precedentes, en el que dicha síntesis se lleva a cabo en al menos dos soportes.

6. El procedimiento según una cualquiera de las reivindicaciones precedentes, en el que dicha síntesis se lleva a cabo en paralelo.

7. El procedimiento según una cualquiera de las reivindicaciones precedentes, en el que hay cuatro mezclas de dinucleótidos y soportes de síntesis, un soporte para cada uno de los mononucleótidos convencionales.

8. El procedimiento según una cualquiera de las reivindicaciones precedentes, en el que dichos soportes son soportes de resina.

9. El procedimiento según una cualquiera de las reivindicaciones precedentes, que se lleva a cabo en columnas.

10. Un procedimiento según una cualquiera de las reivindicaciones precedentes en el que los polinucleótidos formados excluyen codones de parada.

11. Un procedimiento según una cualquiera de las reivindicaciones precedentes en el que cada aminoácido codificado por los codones formados está codificado sólo por un codón eliminando por lo tanto la degeneración del código genético.

12. Un procedimiento según una cualquiera de las reivindicaciones precedentes en el que los codones formados se eligen para maximizar la expresión genética en el organismo en el que se traduce el polinucleótido.

13. Un procedimiento según una cualquiera de las reivindicaciones precedentes en el que los codones formados codifican todos los veinte aminoácidos.

14. El procedimiento según cualquiera de las reivindicaciones precedentes exceptuando la 2 o la 3, que comprende las siguientes etapas:

a) preselección de dinucleótidos en grupos, estando formado cada grupo por al menos uno de aquellos dinucleótidos que constituyen la segunda y la tercera base de al menos una de las unidades de trinucleótidos deseadas en la secuencia y que comparten la primera base;

b) preparación de mezclas que contienen dinucleótidos activados y protegidos, estando distribuidos dichos dinucleótidos activados y protegidos según se preseleccionó mediante la etapa a), en una concentración adecuada para obtener homogeneidad en las correspondientes unidades de trinucleótidos;

c) síntesis de un polinucleótido que tiene una secuencia conocida sobre los soportes para síntesis en fase sólida incluida en los recipientes;

d) adición de las mezclas que contienen los dinucleótidos activados y protegidos de la etapa b) a los soportes de síntesis, uno para cada soporte, y llevar a cabo una reacción de unión entre los dinucleótidos activados y protegidos con el extremo 5' del polinucleótido sintetizado de la etapa c);

e) adición de al menos un mononucleótido activado y protegido a al menos uno de los soportes de síntesis, un mononucleótido para cada soporte, y llevar a cabo una reacción de unión entre dicho mononucleótido activado y protegido y el extremo 5' de los dinucleótidos unidos al polinucleótido sintetizado de la etapa c) según la etapa d);

f) apertura de los recipientes y mezcla de los soportes para obtener una mezcla de reacción homogénea;

g) reconstitución de los soportes de síntesis con una cantidad de dicha mezcla de reacción homogénea, igual a una fracción 1/n para cada soporte, donde n es el número de soportes usados;

h) repetición de las etapas d), e), f) y g) tantas veces como requiera el diseño experimental, y;

i) síntesis de un polinucleótido que tiene una secuencia conocida en el extremo 5' del polinucleótido obtenido de este modo.

15. El procedimiento según cualquiera de las reivindicaciones precedentes exceptuando la 1, 4 y 14, que comprende las siguientes etapas:

a_{1}) preselección de los dinucleótidos en grupos, estando compuesto cada grupo por al menos uno de aquellos dinucleótidos que constituyen la primera y la segunda base de al menos una de las unidades de trinucleótido que van a estar presentes en la secuencia, y que comparten la tercera base;

b_{1}) preparación de mezclas que contienen dinucleótidos activados y protegidos, estando distribuidos dichos dinucleótidos activados y protegidos en dichas mezclas, según se preseleccionan mediante la etapa a_{1}), en una concentración adecuada para obtener homogeneidad en las correspondientes unidades de trinucleótidos;

c_{1}) síntesis de un polinucleótido que tiene una secuencia conocida en los soportes de síntesis para síntesis en fase sólida incluida en recipientes;

d_{1}) adición de al menos un mononucleótido activado y protegido a al menos uno de los soportes de síntesis, un mononucleótido para cada soporte, y llevar a cabo la reacción de unión entre dicho mononucleótido activado y protegido y el extremo 5' del polinucleótido sintetizado de la etapa c_{1});

e_{1}) adición de las mezclas que contienen los dinucleótidos activados y protegidos de la etapa b_{1}) a los soportes de síntesis, uno para cada soporte, y llevar a cabo una reacción de unión entre dichos dinucleótidos activados y protegidos y el extremo 5' de los mononucleótidos unidos al polinucleótido sintetizado de la etapa c_{1}) según la etapa d_{1});

f_{1}) apertura de los recipientes y mezcla de los soportes para obtener una mezcla de reacción homogénea;

g_{1}) reconstitución de los recipientes de síntesis con una cantidad de dicha mezcla de reacción homogénea, igual a una fracción 1/n para cada soporte, en la que n es el número de soportes usados;

h_{1}) repetición de las etapas d_{1}), e_{1}), f_{1}) y g_{1}) tantas veces como requiera el diseño experimental; y

i_{1}) síntesis de un polinucleótido que tiene una secuencia conocida en el extremo 5' del polinucleótido obtenido de este modo.

16. El procedimiento según una cualquiera de las reivindicaciones precedentes, en el que dichos mononucleótidos y dinucleótidos son desoxirribonucleótidos.

17. El procedimiento según una cualquiera de las reivindicaciones precedentes, en el que los dinucleótidos se preseleccionan para formar unidades de trinucleótido correspondientes a los codones más frecuentes en el genoma de Escherichia coli.

18. El procedimiento según la reivindicación 17 en el que dichos dinucleótidos son TT, TC, TG, CT, CC, CG, AC, AA, AG, GT, GG.

19. El procedimiento según la reivindicación 18, en el que dichos dinucleótidos se mezclan en cuatro mezclas de la manera siguiente:

W = TC; TG; CC; AC; AA;

X = TG; CG; AC; AG; GT;

Y = AA; AC; CT; GT; TT;

Z = GG; AC; CT; GT; TC.

20. El procedimiento según cualquier reivindicación precedente excluyendo no la reivindicación 15, en el que los codones se obtienen en soportes de síntesis para codificar para aminoácidos según las siguientes agrupaciones:

AW = Isoleucina, metionina, treonina, asparagina, lisina;

CX = Leucina, prolina, histidina, glutamina, arginina;

GY = Valina, alanina, ácido aspártico, ácido glutámico, glicina;

TZ = Fenilalanina, serina, tirosina, cisteína, triptófano.

21. El procedimiento según la reivindicación 20, en el que los dinucleótidos se entremezclan en las siguientes proporciones:

W [AA] = [CC] = [TG] = [AC] = 1 M y [TG] = 1,5 M;

X: [TG] = [AC] = [GT] = [CG] = 1 M y [AG] = 1,5 M;

Y: [GT] = [AC] = [CT] = [AA] = 1 M y [TT] = 1,5 M;

Z: [GC] = 2 M, [AC] = [CT] = [GT] = 1 M y [TC] = 1,5 M.

22. El procedimiento según una cualquiera de las reivindicaciones 1 a 16, en el que los dinucleótidos se preseleccionan para formar unidades de trinucleótido correspondientes a los codones más frecuentes en los genomas de organismos eucarióticos.

23. El procedimiento según la reivindicación 22, en el que dichos dinucleótidos son TC, TG, CC, AC, AG, GC, GG (ver también Tabla VI en el presente documento).

24. El procedimiento según la reivindicación 22, en el que dichos organismos eucarióticos son levaduras.

25. El procedimiento según la reivindicación 24 cuando depende de la reivindicación 14, en el que dichos dinucleótidos son TT, TC, TG, CT, CA, AC, AA, AG, GT, GA, GG.

26. Un procedimiento según una cualquiera de las reivindicaciones 1 a 12 en el que los codones formados se eligen de modo que excluyan uno o más aminoácidos.

27. Un procedimiento según la reivindicación 26 en el que los codones formados se eligen para que excluyan ácido glutámico y aspártico.

28. El procedimiento según una cualquiera de las reivindicaciones 1 a 17 y 22, en el que dichos mononucleótidos y dinucleótidos son ribonucleótidos.

29. Un procedimiento según una cualquiera de las reivindicaciones 1 y 4 a 14 en el que las combinaciones de mononucleótido:dinucleótido son:

T: TT, CT, AT, GT, GG;

C; TT, CT, AT, AA, GT;

A: TT, TG, CT, AT, AA; y

G: TT, CT, AT, AA, GT.

30. Un procedimiento según una cualquiera de las reivindicaciones 2, 3, 5-13 y 15 en el que las combinaciones de dinucleótido:mononucleótido son:

TT, CA, AC, AA, GA : T;

TA, TG, CC, AG, GT : C;

TT, AT, AA, GC, GA : A; y

TG, CA, AT, AG, GG: G.