ES2352987T3

ES2352987T3 - Cartografía física de alto rendimiento utilizando aflp.

Info

Publication number: ES2352987T3
Application number: ES07768906T
Authority: ES
Inventors: Michael Josephus Theresia Van Eijk; Taco Peter Jesse
Original assignee: Keygene NV
Current assignee: Keygene NV
Priority date: 2006-07-12
Filing date: 2007-07-10
Publication date: 2011-02-24
Anticipated expiration: 2027-07-10
Also published as: CN103333949B; EP2821506A1; EP2275576B1; US9284606B2; EP2038425A1; JP2009542256A; CN101484589B; US20120108442A1; ATE481506T1; US20130184166A1; US8685650B2; US20140206551A1; EP2182079A1; DE602007009233D1; EP2038425B1; US20150148241A1; WO2008007951A1; JP2013223502A; US20160251713A1; US20090246780A1

Abstract

Procedimiento para la generación de un mapa físico de por lo menos una parte de un genoma que comprende las etapas de: (a) proporcionar una muestra ADN; (b) generar un banco de clones de un cromosoma artificial (BAC, YAC) en el que cada clon de un cromosoma artificial; (c) combinar los clones de cromosomas artificiales en uno o más agrupaciones, en los que cada clon se encuentra presente en más de una agrupación, para crear una genoteca; (d) digerir el ADN de una o más agrupaciones con una o más endonucleasas de restricción para proporcionar un conjunto de fragmentos de restricción para cada agrupación; (e) ligar los adaptadores a uno o ambos lados de los fragmentos de restricción, en los que por lo menos un adaptador contiene un identificador específico de la agrupación o una sección redundante del identificador, respectivamente, para proporcionar fragmentos de restricción ligados al adaptador; (f) opcionalmente, combinar los fragmentos de restricción ligados al adaptador; (g) opcionalmente, amplificar los fragmentos de restricción ligados al adaptador de etapa (e) con por lo menos un cebador, comprendiendo dicho cebador una sección específica de la agrupación que corresponde a la sección del identificador específica de la agrupación en el adaptador o comprendiendo un identificador específico de la agrupación en la posición de la sección redundante del identificador, respectivamente, para proporcionar fragmentos de restricción ligados al adaptador amplificados etiquetados (amplicones); (h) opcionalmente, combinar los amplicones en un conjunto de amplicones combinados; (i) determinar la secuencia de por lo menos el identificador específico de la agrupación y una parte del fragmento de restricción de los fragmentos de restricción ligados al adaptador, de los amplicones o conjunto de amplicones combinados; (j) asignar las secuencias de fragmentos de restricción determinadas en los fragmentos de restricción ligados al adaptador o amplicones de la etapa (i) a los clones correspondientes utilizando los identificadores específicos de la agrupación; (k) construir un cóntigo basado en el emparejamiento de la secuencia de las secciones obtenidas del fragmento de restricción; (l) ordenar los fragmentos de restricción de la etapa (k) para construir de este modo cóntigo del clon y generar un mapa físico.

Description

Cartografía física de alto rendimiento utilizando AFLP.

Campo de la invención

La presente invención se refiere al campo de la biología molecular y al de la biotecnología. En particular, la presente invención se refiere al campo de la detección e identificación de ácidos nucleicos. Más particularmente, la presente invención se refiere a la generación de un mapa físico de un genoma, o una parte del mismo, utilizando tecnología de secuenciación de alto rendimiento.

Antecedentes de la invención

Los mapas genómicos genéticos y físicos integrados resultan muy valiosos para el aislamiento de genes basándose en la cartografía, análisis comparativos de genomas y como fuentes de clones con la secuencia preparada para proyectos de secuenciación de genomas. El efecto de la disponibilidad de un mapa integrado de marcadores físicos y genéticos de una especie para la investigación del genoma es enorme. Los mapas integrados permiten la realización de una cartografía genética precisa y rápida y una cartografía precisa de locus de microsatélites y marcadores SNP. Se han desarrollado diversos procedimientos para integrar mapas físicos de genomas de complejidad diversa. Uno de los métodos mejor caracterizados utiliza enzimas de restricción para generar un número elevado de fragmentos de ADN a partir de subclones genómicos (Brenner et al., Proc. Natl. Acad. Sci., (1989), 86, 8902-8906; Gregory et al., Genome Res. (1997), 7, 1162-1168; Marra et al., Genome Res. (1997), 7, 1072-1084). Se comparan dichas huellas genéticas para identificar clones relacionados y para integrar clones superpuestos en cóntigos. La utilidad de la obtención de la huella genética para ordenar clones insertos grandes de un genoma complejo es limitada, sin embargo, gracias a la variación de la migración del ADN de gel a gel, la presencia de ADN repetitivos, la distribución anómala de sitios de restricción y la representación sesgada de los clones. La mayoría de mapas físicos de calidad elevada de genomas complejos se han realizado, por lo tanto, utilizando una combinación de obtención de la huella genética y procedimientos basados en la PCR o en la hibridación. Sin embargo, una de las desventajas de las que adolece la utilización de la tecnología de la obtención de la huella genética es que se basa en la compatibilidad fragmento - molde, lo que constituye un procedimiento indirecto.

Se prefiere crear mapas físicos generando los cóntigos basándose en los datos de la secuencia real, es decir, un procedimiento más directo. Un mapa físico basado en la secuencia no es únicamente más preciso, sino que al mismo tiempo contribuye asimismo a la determinación de la secuencia genómica entera de la especie de interés. Recientemente se dispone de procedimientos de secuenciación de alto rendimiento que permiten la determinación de secuencias completas de nucleótidos de clones de un modo más eficiente y rentable.

Sin embargo, la detección por secuenciación del fragmento de restricción completo resulta todavía relativamente poco rentable. Además, el estado actual de la tecnología de secuenciación tal como se da a conocer en las publicaciones (de 454 Life Sciences, www.454.com, Solexa, www.solexa.com, y Helicos, www.helicosbio.com), a pesar de su gran potencia en la secuenciación, únicamente puede proporcionar la secuenciación de fragmentos con una longitud limitada. Asimismo, los procedimientos actuales no permiten el procesamiento simultáneo de diversas muestras en una serie.

Constituye el objetivo de la presente invención diseñar y describir una estrategia que permita la generación de alto rendimiento de un mapa físico basado en una combinación de digestión por restricción, agrupación, amplificación de alta precisión y secuenciación de alto rendimiento. Utilizando dicho procedimiento, se pueden generar, mapas físicos, incluso de genomas complejos.

Definiciones

En la descripción y ejemplos siguientes, se utiliza un cierto número de términos. A fin de proporcionar una comprensión clara y consistente de la presente memoria y reivindicaciones, comprendiendo el alcance a proporcionar a dichos términos, se proporcionan las siguientes definiciones. Excepto si se define de otro modo en la presente memoria, todos los términos técnicos y científicos tienen el mismo significado que les atribuyen habitualmente los expertos en la materia a la que pertenece la presente invención.

Ácido nucleico: un ácido nucleico según la presente invención puede comprender cualquier polímero u oligómero de bases de pirimidina y purina, preferentemente citosina, timina y uracilo, y adenina y guanina, respectivamente (véase Albert L. Lehninger, Principles of Biochemistry ("Principios de Bioquímica"), en 793-800 (Worth Pub. 1982)). La presente invención contempla cualquier desoxirribonucleótido, ribonucleótido o componente peptídico de un ácido nucleico, y cualquier variante química de los mismos, tales como las formas metiladas, hidroximetiladas o glucosiladas de dichas bases y similares. Los polímeros u oligómeros pueden presentar una composición heterogénea u homogénea, y se pueden aislar a partir de fuentes naturales o se pueden producir artificialmente o sintéticamente. Además, los ácidos nucleicos pueden ser ADN o ARN, o una mezcla de los mismos, y pueden existir de un modo permanente o transitorio en forma monocatenaria o bicatenaria, comprendiendo los estados homodúplex, heterodúplex e híbrido.

AFLP: AFLP se refiere a un procedimiento de amplificación selectiva de ácidos nucleicos que se basa en digerir un ácido nucleico con una o más endonucleasas de restricción para proporcionar fragmentos de restricción, ligar adaptadores a los fragmentos de restricción y amplificar los fragmentos de restricción ligados al adaptador con por lo menos un cebador que es (en parte) complementario al adaptador, (en parte) complementario a los restos de la endonucleasa de restricción, y que comprende además por lo menos un nucleótido seleccionado aleatoriamente de entre A, C, T o G (o U si este es el caso). El AFLP no requiere información previa alguna de la secuencia y se puede realizar en cualquier ADN inicial. En general, el AFLP comprende las etapas de:

(a): digerir un ácido nucleico, en particular a ADN, con una o más endonucleasas de restricción específicas, para fragmentar el ADN en la serie correspondiente de fragmentos de restricción;

(b): ligar los fragmentos de restricción obtenidos de este modo con un adaptador de un oligonucleótido sintético bicatenario, siendo un extremo del mismo compatible con uno o ambos extremos de los fragmentos de restricción, para producir de este modo fragmentos de restricción del ADN inicial ligados al adaptador, preferentemente etiquetados;

(c): poner en contacto los fragmentos de restricción ligados al adaptador, preferentemente etiquetados, en unas condiciones de hibridación con uno o más cebadores de oligonucleótidos que contienen nucleótidos selectivos en su extremo 3';

(d): amplificar el fragmento de restricción ligado al adaptador, preferentemente etiquetado, hibridado con los cebadores mediante la PCR o una técnica similar de tal modo que provoque una elongación adicional de los cebadores hibridados a lo largo de los fragmentos de restricción del ADN inicial con los que se hibridan los cebadores; y

(e): detectar, identificar o recuperar el fragmento amplificado o alargado de ADN obtenido de este modo.

\vskip1.000000\baselineskip

El AFLP proporciona de este modo un subconjunto reproducible de fragmentos ligados al adaptador. El AFLP se describe, entre otros, en los documentos EP 534858, US 6045994 y en Vos et al. (Nucleic Acid Research, 1995, 23, 21, 4407-4414). Se hace referencia a dichas publicaciones para los detalles adicionales relacionados con el AFLP. El AFLP se utiliza habitualmente como técnica de reducción de la complejidad y técnica de la obtención de la huella genética del ADN. En el contexto de la utilización del AFLP como técnica de la obtención de la huella genética, se ha desarrollado el concepto de marcador del AFLP.

Base selectiva: localizada en el extremo 3' del cebador que contiene una parte complementaria al adaptador y una parte complementaria a los restos del sitio de restricción, la base selectiva se selecciona aleatoriamente de entre A, C, T o G. Al extender un cebador con una base selectiva, la amplificación posterior producirá únicamente un subconjunto reproducible de fragmentos de restricción ligados al adaptador, es decir, únicamente los fragmentos que se puedan amplificar utilizando el cebador que presenta la base selectiva. Se pueden añadir nucleótidos selectivos al extremo 3' del cebador en un número comprendido entre 1 y 10. Habitualmente de 1 a 4 resultan suficientes y se prefiere de este modo. Ambos cebadores pueden comprender un número variable de bases selectivas. Con cada base selectiva añadida, el número de fragmentos de restricción ligados al adaptador amplificados (amplicones) del subconjunto se reduce en un factor de aproximadamente 4. Habitualmente, el número de bases selectivas utilizado en el AFLP se indica mediante +N+M, en el que cebador presenta N nucleótidos selectivos y los otros cebadores presentan M nucleótidos selectivos. De este modo, un Eco/Mse AFLP +1/+2 es la abreviatura para la digestión del ADN de iniciación con EcoRI y MseI, la ligación de adaptadores apropiados y la amplificación con un cebador dirigido a la posición restringida EcoRI que presenta base selectiva y el otro cebador dirigido al sitio restringido MseI que presenta 2 nucleótidos selectivos. Un cebador utilizado en el AFLP que presenta por lo menos un nucleótido selectivo en su extremo 3' se indica asimismo como cebador AFLP. Los cebadores que no presentan un nucleótido selectivo en su extremo 3' y que de hecho son complementarios al adaptador y los restos del sitio de restricción se indican a veces como cebadores AFLP+0.

Agrupamiento: con el término "agrupamiento" se entiende la comparación de dos o más secuencias de nucleótidos basándose en la presencia de extensiones cortas o largas de nucleótidos idénticos o similares y agrupar entre sí las secuencias con un nivel mínimo determinado de homología en la secuencia basándose en la presencia de extensiones cortas (o más largas) de secuencias idénticas o similares.

Ensamblaje: construcción de un cóntigo basándose en la ordenación de un grupo de secuencias que se superponen (parcialmente), denominado asimismo "construcción de cóntigos".

Alineación: posicionamiento de una pluralidad de secuencias en una presentación tabular para maximizar la posibilidad de obtener regiones con identidad de secuencia en diversas secuencias de la alineación, por ejemplo introduciendo huecos. Se conocen en la técnica diversos procedimientos para la alineación de secuencias de nucleótidos, tal como se describirá posteriormente.

Identificador: secuencia corta que se puede añadir a un adaptador o un cebador o incluir en su secuencia o utilizar de algún otro modo como etiqueta para proporcionar un identificador único. Dicho identificador de la secuencia (etiqueta) puede ser una secuencia de bases única con una longitud variable pero definida utilizada únicamente para identificar una muestra específica de ácido nucleico. Por ejemplo, las etiquetas de 4 pares de bases permiten 4(elevado a la 4) = 256 etiquetas distintas. Los ejemplos típicos son las secuencias ZIP, conocidas en la técnica como etiquetas utilizadas habitualmente para una detección única por hibridación (Iannone et al. Cytometry 39: 131-140, 2000). Al utilizar dicho identificador, se puede determinar el origen de una muestra de PCR con un procesamiento adicional. En el caso de la combinación de productos procesados que proceden de distintas muestras de ácidos nucleicos, las distintas muestras de ácidos nucleicos se identifican generalmente utilizando distintos identificadores.

Secuenciación: el término secuenciación se refiere a la determinación del orden de nucleótidos (secuencias de bases) en una muestra de ácido nucleico, por ejemplo ADN o ARN.

Técnicas de alta capacidad de identificación: las técnicas de alta capacidad de identificación, con frecuencia abreviadas como HTS, consisten en un procedimiento de experimentación científica especialmente adecuado para los campos de la biología y la química. Mediante una combinación de robótica actual y otro hardware especializado para laboratorios, permite al investigador identificar simultáneamente con efectividad grandes cantidades de muestras.

Endonucleasa de restricción: una endonucleasa de restricción o enzima de restricción es un enzima que reconoce unas secuencias específicas de nucleótidos (sitio seleccionado) en una molécula de ADN bicatenario y separará ambas cadenas de la molécula de ADN en cada sitio seleccionado.

Fragmentos de restricción: moléculas de ADN producidas mediante la digestión con una endonucleasa de restricción como fragmentos de restricción. Cualquier genoma determinado (o ácido nucleico, con independencia de su origen) se digerirá mediante una endonucleasa de restricción particular en un conjunto descrito de fragmentos de restricción. Los fragmentos de ADN que se obtienen a partir de la escisión mediante la endonucleasa de restricción se pueden continuar utilizando en diversas técnicas y, por ejemplo, se pueden detectar mediante electroforesis en gel.

Ligación: reacción enzimática catalizada por un enzima ligasa en la que dos moléculas de ADN bicatenario se unen entre sí con un enlace covalente como ligación. En general, ambas cadenas de ADN se unen entre sí con un enlace covalente, pero es asimismo posible evitar la ligación de una de las dos cadenas mediante la modificación química o enzimática de uno de los extremos de las cadenas. En dicho caso, el enlace covalente se producirá en únicamente en una de las dos cadenas de ADN.

Oligonucleótido sintético: moléculas de ADN monocatenario que presentan preferentemente entre aproximadamente 10 y aproximadamente 50 bases, que se pueden sintetizar químicamente como oligonucleótidos sintéticos. En general, dichas moléculas sintéticas de ADN se diseñan para que presenten una secuencia de nucleótidos única o pretendida, aunque resulta posible sintetizar familias de moléculas que presenten secuencias relacionadas y que presenten unas composiciones distintas en los nucleótidos en unas posiciones específicas de la secuencia de nucleótidos. El término oligonucleótido sintético se utilizará para hacer referencia a moléculas de ADN que presenten una secuencia de nucleótidos diseñada o pretendida.

Adaptadores: moléculas cortas de ADN bicatenario con un número limitado de pares de bases, por ejemplo entre aproximadamente 10 y aproximadamente 50 pares de bases en longitud, que se diseñan de tal modo que se puedan ligar a los extremos de fragmentos de restricción. Los adaptadores están compuestos generalmente de dos oligonucleótidos sintéticos que presentan unas secuencias de nucleótidos que son parcialmente complementarias entre sí. Cuando se mezclan dos oligonucleótidos sintéticos en disolución con unas condiciones apropiadas, se aparearán entre sí formando una estructura bicatenaria. Tras el apareamiento, un extremo de la molécula adaptadora se diseña de tal modo que sea compatible con el extremo de un fragmento de restricción y se pueda ligar al mismo; el otro extremo del adaptador se puede diseñar de tal modo que no se pueda ligar, pero esta necesidad no constituye el caso (adaptadores con doble ligación).

Fragmentos de restricción ligados al adaptador: fragmentos de restricción que se han rematado con adaptadores como resultado de la ligación.

Cebadores: en general, el término cebadores se refiere a una cadena de ADN que puede iniciar la síntesis de ADN. La ADN polimerasa no puede sintetizar ADN de novo sin cebadores: únicamente puede extender una cadena existente de ADN en una reacción en la que la cadena complementaria se utiliza como molde para dirigir el orden de nucleótidos a ensamblar. Nos referiremos a las moléculas de oligonucleótidos sintéticos que se utilizan en la reacción en cadena de la polimerasa (PCR) como cebadores.

Amplificación del ADN: el término amplificación del ADN se utilizará habitualmente para indicar la síntesis in vitro de moléculas de ADN bicatenario utilizando la PCR. Se ha de indicar que existen otros procedimientos de amplificación y que se pueden utilizar en la presente invención sin apartarse del alcance de la misma.

Resumen de la invención

Los presentes inventores han descubierto que utilizando una combinación de digestión con enzimas de restricción de clones en una genoteca, ligación con adaptadores, amplificación (selectiva), secuenciación de alto rendimiento y deconvolución de las secuencias resultantes se obtienen cóntigos que se pueden utilizar para integrar mapas físicos, incluso de genomas grandes y complejos.

Descripción detallada de la invención

En un aspecto, la presente invención se refiere a un procedimiento la generación de un mapa físico de por lo menos una parte de un genoma que comprende las etapas de:

(a): proporcionar una muestra ADN;

(b): generar un banco de clones de un cromosoma artificial (BAC, YAC) en el que cada clon de un cromosoma artificial;

(c): combinar los clones de cromosomas artificiales en uno o más agrupaciones, en los que cada clon se encuentra presente en más de una agrupación, para crear una genoteca;

(d): digerir el ADN de una o más agrupaciones con una o más endonucleasas de restricción para proporcionar un conjunto de fragmentos de restricción para cada agrupación;

(e): ligar los adaptadores a uno o ambos lados de los fragmentos de restricción, en los que por lo menos un adaptador contiene un identificador específico de la agrupación o una sección redundante del identificador, respectivamente, para proporcionar fragmentos de restricción ligados al adaptador;

(f): opcionalmente, combinar los fragmentos de restricción ligados al adaptador;

(g): opcionalmente, amplificar los fragmentos de restricción ligados al adaptador de etapa (e) con por lo menos un cebador, comprendiendo dicho cebador una sección específica de la agrupación que corresponde a la sección del identificador específica de la agrupación en el adaptador o comprendiendo un identificador específico de la agrupación en la posición de la sección redundante del identificador, respectivamente, para proporcionar fragmentos de restricción ligados al adaptador amplificados etiquetados (amplicones);

(h): opcionalmente, combinar los amplicones en un conjunto de amplicones combinados;

(i): determinar la secuencia de por lo menos el identificador específico de la agrupación y una parte del fragmento de restricción de los fragmentos de restricción ligados al adaptador, de los amplicones o conjunto de amplicones combinados;

(j): asignar las secuencias de fragmentos de restricción determinadas en los fragmentos de restricción ligados al adaptador o amplicones de la etapa (i) a los clones correspondientes utilizando los identificadores específicos de la agrupación;

(k): construir un cóntigo basado en el emparejamiento de la secuencia de las secciones obtenidas del fragmento de restricción;

(l): ordenar los fragmentos de restricción de la etapa (k) para construir de este modo cóntigo del clon y generar un mapa físico.

\vskip1.000000\baselineskip

En etapa (a) del procedimiento se proporciona una muestra ADN. Ello se puede realizar mediante cualquier medio de la técnica tal como se describe, por ejemplo, en Sambrook et al. (Sambrook y Russell (2001) Molecular Cloning: A Laboratory Manual ["Clonación molecular: manual de laboratorio"] (3ª edición), Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press). El ADN de la muestra puede ser de cualquier especie, en particular de origen humano, vegetal o animal. Resulta posible utilizar únicamente una parte de un genoma, pero ello no es necesario ya que la presente invención proporciona asimismo procedimientos para adaptarse a genomas de cualquier tamaño, por ejemplo mediante la creación de subconjuntos reproducibles por amplificación selectiva basándose en el AFLP, tal como se describe en otras partes de la presente memoria. De este modo, habitualmente, el presente procedimiento utiliza el genoma entero.

En etapa (b) se genera un banco de clones artificiales. La genoteca puede ser una genoteca de cromosomas artificiales bacterianos (BAC) o basados en levaduras (YAC). Resultan asimismo posibles otras genotecas de este tipo que se basan en cósmidos, PAC, TAC o MAC. Se prefiere la genoteca BAC. La genoteca es preferentemente de una calidad elevada y preferentemente es una genoteca genómica con un tamaño de inserción elevado. Ello significa que la BAC individual contiene un inserto grande del ADN genómico que se está investigando (habitualmente > 125 kpb). El tamaño del inserto grande preferido depende de la especie. A lo largo de la presente solicitud se hace referencia a los BAC como ejemplos de cromosomas artificiales. Sin embargo, se ha de indicar que la presente invención no se limita a los mismos y que se pueden utilizar otros cromosomas artificiales can be sin apartarse del alcance de la presente invención. Preferentemente, las genotecas comprenden por lo menos cinco equivalentes genómicos, más preferentemente por lo menos 7, aún más preferentemente por lo menos 8. Se prefiere en particular por lo menos 10. Cuanto mayor sea el número de equivalentes genómicos de la genoteca, más fiables serán los cóntigos resultantes y el mapa físico.

Los clones individuales de la genoteca se agrupan para formar agrupaciones que contengan una pluralidad de cromosomas artificiales o clones. La agrupación puede ser la simple combinación de un cierto número de clones individuales en una muestra (por ejemplo, 100 clones en 10 agrupaciones, comprendiendo cada uno 10 clones), pero se pueden utilizar estrategias de agrupación más elaboradas. La distribución de los clones en las agrupaciones es preferentemente de tal modo que cada clon se encuentra presente en por lo menos dos o más de las agrupaciones. Preferentemente, las agrupaciones comprenden entre 10 y 10000 clones por agrupación, preferentemente entre 100 y 1000, más preferentemente entre 250 y 750. Se observa que el número de clones por agrupación puede variar ampliamente, y dicha variación se refiere, por ejemplo, al tamaño del genoma que se está investigando. Habitualmente, el tamaño máximo de una agrupación o subagrupación viene determinado por la capacidad para identificar específicamente un clon en una agrupación mediante un conjunto de identificadores. Tal como se describirá adicionalmente a continuación en la presente memoria, un intervalo habitual para un equivalente genómico de una agrupación es aproximadamente de 0,2 a 0,3 y ello puede variar de nuevo por genoma. Las agrupaciones se generan basándose en estrategias muy conocidas en la técnica. Los expertos en la materia pueden seleccionar la estrategia de agrupación óptima basándose en factores tales como el tamaño del genoma etc. La estrategia de agrupación resultante dependerá de las circunstancias y constituyen ejemplos de las mismas la agrupación en placa, las agrupaciones N-dimensionales tales como la agrupación 2D, la agrupación 3D, la agrupación 6D o la agrupación compleja. Para facilitar la manipulación de grandes números de agrupaciones, las agrupaciones se pueden, a su vez, combinar en superagrupaciones (es decir, las superagrupaciones son agrupaciones de agrupaciones de clones) o dividirse en subagrupaciones, tal como se representa a título de ejemplo en la figura adjunta 1 en al que se ilustra una agrupación 3D. Otros ejemplos de estrategias de agrupación y su deconvolución (es decir, la identificación correcta del individual clon en una genoteca mediante la detección de la presencia de un indicador asociado conocido (es decir, etiqueta o identificador) del clon en uno o más agrupaciones o subagrupaciones) se describen, por ejemplo, en el documento US n.º 6975943 o en Klein et al. en Genome Research, (2000), 10, 798-807. La estrategia de agrupación es preferentemente tal que cada clon en la genoteca se distribuye de tal modo en los grupos que se realiza una única combinación de grupos para cada clon. El resultado de ello es que una determinada combinación de (sub)agrupaciones identifica específicamente un clon.

Las agrupaciones se digieren con endonucleasas de restricción para proporcionar fragmentos de restricción. Cada agrupación se somete preferentemente por separado a digestión con endonucleasas. Cada agrupación se trata con la misma (combinación de) endonucleasa(s). En principio, se puede utilizar cualquier endonucleasa de restricción. Las endonucleasas de restricción pueden ser cortadoras frecuentes (4 ó 5 cortadoras, tales como MseI o PstI) o cortadoras inusuales (6 y más cortadoras tales como EcoRI, HindIII). Habitualmente, se seleccionan las endonucleasas de restricción de tal modo que los fragmentos de restricción que se obtienen se encuentran presentes, en promedio, en una cierta cantidad o presentan una cierta distribución de longitud adecuada para las etapas posteriores. En determinadas formas de realización, se pueden utilizar dos o más endonucleasas de restricción y en determinadas formas de realización, se pueden utilizar combinaciones de cortadoras inusuales y frecuentes. En el caso de genomas grandes, puede resultar ventajosa la utilización de, por ejemplo, tres o más endonucleasas de restricción.

En uno o ambos extremos de los fragmentos de restricción, los adaptadores se ligan en la etapa (e) para proporcionar fragmentos de restricción ligados al adaptador. Habitualmente, los adaptadores son oligonucleótidos sintéticos tal como se definen en otras partes de la presente memoria. Los adaptadores utilizados en la presente invención comprenden preferentemente una sección del identificador, en esencia tal como se define en otras partes de la presente memoria. En determinadas formas de realización, el adaptador comprende un identificador específico de la agrupación, es decir, para cada agrupación, se utiliza un adaptador que comprende un identificador único que indica inequívocamente la agrupación. En determinadas formas de realización, el adaptador contiene una sección redundante del identificador que se utiliza en combinación con un cebador que contiene un identificador específico de la agrupación.

En determinadas formas de realización, los fragmentos de restricción ligados al adaptador se pueden combinar en grupos más grandes, en particular cuando los adaptadores contienen un identificador específico de la agrupación. Dicha combinación en grupos más grandes puede ayudar a reducir el número de amplificaciones paralelas de cada conjunto de fragmentos de restricción ligados al adaptador obtenidos a partir de una agrupación.

Los fragmentos de restricción ligados al adaptador se pueden amplificar utilizando un conjunto de cebadores de los que por lo menos un cebador contiene un identificador específico de la agrupación en la posición del identificador específico de la agrupación o redundante en el adaptador. Dicha forma de realización permite asimismo la agrupación de fragmentos de restricción ligados al adaptador antes de la amplificación tal como se ha indicado anteriormente. En una forma de realización alternativa, cada agrupación de fragmentos de restricción ligados al adaptador, en los que el adaptador comprende una sección redundante del identificador, se amplifica por separado utilizando un conjunto de cebadores de los que por lo menos un cebador contiene una sección específica de la agrupación, con lo que se identifica específicamente la agrupación.

De cualquier modo, el resultado es un conjunto de fragmentos de restricción amplificados ligados al adaptador, indicados asimismo como amplicones, que se enlazan con la agrupación a partir del que se originan mediante la presencia en el amplicón del identificador específico de la agrupación. En determinadas formas de realización, se pueden crear subconjuntos de amplicones mediante amplificación selectiva utilizando cebadores que presentan nucleótidos selectivos en su extremo 3', sustancialmente tal como se describe en otras partes de la presente memoria.

Los amplicones se pueden combinar en determinadas formas de realización, en un conjunto de amplicones combinados o una denominada genoteca de secuencias.

En etapa (i) del procedimiento, los amplicones se someten a secuenciación, preferentemente una secuenciación de alto rendimiento tal como se describirá posteriormente en la presente memoria. Durante la secuenciación, se determina por lo menos una parte de la secuencia de nucleótidos de los amplicones. Preferentemente, se determina por lo menos la secuencia del identificador específico de la agrupación y una parte del fragmento de restricción de los amplicones. Preferentemente, se determina una secuencia de por lo menos 10 nucleótidos del fragmento de restricción. En determinadas formas de realización, se determinan por lo menos 11, 12, 13, 14 ó 15 nucleótidos del fragmento de restricción. El número de nucleótidos a determinar como mínimo dependerá, de nuevo, del genoma. Por ejemplo, en los vegetales se encuentran secuencias más repetitivas, por lo tanto, se han de determinar secuencias más largas (25-30 pares de bases). Por ejemplo, los cálculos en el genoma conocido de Arabidopsis han demostrado que, cuando se comprende un sitio de restricción de 6 pares de bases en la etapa de secuenciación, resulta necesario determinar aproximadamente 20 pares de bases por fragmento de restricción. Resulta posible determinar la secuencia del fragmento de restricción completo, pero ello no resulta en absoluto necesario para la construcción de cóntigos de un clon BAC.

En la etapa de secuenciación, para proporcionar una mayor precisión, la genoteca de secuencias se puede secuenciar con una cobertura de por lo menos 5. Ello significa que se determina la secuencia de por lo menos 5 amplicones obtenida a partir de la amplificación de un fragmento de restricción específico ligado al adaptador. En otras palabras: cada fragmento de restricción se secuencia (estadísticamente) por lo menos cinco veces. Se prefiere una cobertura aumentada ya que mejora la precisión aún más, de tal modo que preferentemente la cobertura es de por lo menos 7, más preferentemente de por lo menos 10. Se utiliza cobertura aumentada para compensar el fenómeno conocido como "variación del muestreo".

En la etapa siguiente, los amplicones (parcialmente) secuenciados se correlacionan con el clon correspondiente, habitualmente informáticamente utilizando ordenadores. Los amplicones se seleccionan de tal modo que comprendan secciones idénticas de nucleótidos en la parte obtenida a partir del fragmento de restricción. Posteriormente, se identifican los distintos identificadores específicos de la agrupación que son presentes en dichos amplicones. La combinación de los distintos identificadores específicos de la agrupación y, por lo tanto, la secuencia del fragmento de restricción se puede asignar específicamente a un clon específico (un procedimiento que se ha descrito anteriormente como 'deconvolución'). Por ejemplo, en el case de una estrategia de agrupación 3D (X, Y, Z), cada agrupación de la genoteca se trata específicamente mediante una combinación de 3 identificadores específicos de la agrupación. Cada clon aparece más de una vez en la genoteca, de tal modo que cada vez que aparece un clon en la genoteca, se puede realizar una combinación de 3 identificadores específicos de la agrupación en combinación con la misma sección obtenida a partir de un fragmento de restricción. Dicho en otras palabras: una sección obtenida a partir de un fragmento de restricción que se origina a partir de un clon se etiquetará con 3 identificadores distintos. Las secciones específicas obtenidas a partir de un fragmento de restricción, cuando se observan en combinación con los 3 identificadores se pueden asignar a un clon BAC simple. Ello se puede repetir para cada amplicón que contenga otras secciones específicas de nucleótidos en la parte obtenida a partir del fragmento de restricción. Dicho procedimiento de deconvolución se puede realizar con mayor facilidad manteniendo el equivalente genómico por agrupación relativamente bajo (< 0.3, preferentemente 0,2), reduciendo de este modo la probabilidad de que el mismo fragmento se encuentre presente dos veces en la misma agrupación obtenido a partir de distintos clones.

Una representación de ejemplo del concepto de agrupación se proporciona en la figura 1. Un ADN de muestra se convierte en una genoteca BAC. La genoteca BAC se agrupa en un conjunto de agrupaciones (M) (se representan 3 agrupaciones, comprendiendo cada uno de los mismos aproximadamente 0,3 GE,). Cada agrupación se divide en
(X + Y + Z) subagrupaciones (habitualmente una pluralidad de placas de microvaloración).

Los amplicones secuenciados que se enlazan ahora con un clon particular de la genoteca se utilizan en la construcción de un cóntigo basándose en correspondencia de la secuencia de las secciones obtenidas a partir de un fragmento de restricción. Los cóntigos de cada clon se alienan a continuación para generar un mapa físico.

Las ventajas del presente procedimiento radican, entre otras, en la mayor precisión para la construcción de cóntigos BAC en comparación con las tecnología convencional de construcción de cóntigos BAC. Además, la construcción del mapa físico basado basada en la información de la secuencia es más precisa, ya que es un modo directo de construcción del mapa físico basado y contribuye a la determinación de la secuencia genómica y aporta además información de la secuencia apta para el desarrollo de STS (sitios de secuencia identificada) y para la cartografía comparativa.

La secuenciación de alto rendimiento que se utiliza en la presente invención constituye un procedimiento de experimentación científica especialmente adecuado para los campos de la biología y la química. Mediante una combinación de la robótica actual y otro hardware especializado de laboratorio, el investigador puede identificar efectivamente grandes cantidades de muestras simultáneamente.

Se prefiere que la secuenciación se realice utilizando procedimientos de secuenciación de alto rendimiento, tales como los procedimientos que se dan a conocer en los documentos WO 03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007, y WO 2005/003375 (todos ellos a nombre de 454 Life Sciences), en Seo et al. (2004) Proc. Natl. Acad. Sci. EE. UU. 101: 5488-93, y las tecnologías de Helicos, Solexa, US Genomics.

\vskip1.000000\baselineskip

Tecnología de 454 Life Sciences

En determinadas formas de realización, se prefiere que la secuenciación se realice utilizando el aparato y/o el procedimiento descrito en los documentos WO 03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007 y WO 2005/003375 (todos ellos a nombre de 454 Life Sciences). La tecnología descrita permite la secuenciación de 40 millones bases en una serie simple y es 100 veces más rápida y económica que la tecnología alternativa. La tecnología de secuenciación consiste aproximadamente en 5 etapas: 1) fragmentación de ADN y ligación de un adaptador específico para crear una genoteca de ADN monocatenario (ADNmc); 2) apareamiento del ADNmc con perlas, emulsificación de las perlas en microrreactores de agua en aceite y realizar la PCR en emulsión para amplificar las moléculas individuales de ADNmc en las perlas; 3) selección de/enriquecimiento de las perlas que contienen moléculas ADNmc amplificado en su superficie 4) sedimentación del ADN que transporta las en una PicoTiter^{TM}Plate; y 5) secuenciación simultánea en 100.000 pocillos mediante la generación de una señal óptica de pirofosfato. El procedimiento se explicará posteriormente con mayor detalle.

En una forma de realización preferida, la secuenciación comprende las etapas de:

a.: aparear los fragmentos adaptados a las perlas, apareándose cada perla con un fragmento adaptado simple;

b.: emulsionar las perlas en microrreactores de agua en aceite, comprendiendo cada microrreactor de agua en aceite una perla simple;

c.: cargar las perlas en pocillos, comprendiendo cada pocillo una perla simple; y generar una señal de pirofosfato.

\quad: En la primera etapa (a), los adaptadores de la secuenciación se enlazan con fragmentos en la genoteca de la combinación. Dicho adaptador de la secuenciación comprende por lo menos una región "clave" para aparearse con una perla, una región del cebador de la secuenciación y una región del cebador de la PCR. De este modo se obtienen los fragmentos adaptados.

\vskip1.000000\baselineskip

En la primera etapa, los fragmentos adaptados se aparean con las perlas, apareándose cada perla con un fragmento adaptado simple. A la agrupación de fragmentos adaptados, se añaden las perlas en exceso para garantizar el apareamiento de un fragmento adaptado simple por perla en el caso de la mayoría de las perlas (distribución de Poisson). En la presente invención, los adaptadores que se ligan a los fragmentos de restricción obtenidos a partir de clones pueden comprender una sección capaz de aparearse con una perla.

En una etapa posterior, se emulsionan las perlas en microrreactores de agua en aceite, comprendiendo cada microrreactor de agua en aceite una perla simple. Los reactivos de la PCR se encuentran presentes en los microrreactores de agua en aceite permitiendo que se produzca una reacción de la PCR en los microrreactores. Posteriormente, se rompen los microrreactores y se enriquecen las perlas que comprenden ADN (perlas positivas en ADN), es decir, se separan de las perlas que no contienen fragmentos amplificados.

En una etapa posterior, se cargan las perlas en pocillos, comprendiendo cada pocillo una perla simple. Los pocillos forman parte preferentemente de una PicoTiter^{TM}Plate que permite la secuenciación simultánea de una gran cantidad de fragmentos.

Tras la adición de perlas que transportan enzimas, se determina la secuencia de los fragmentos utilizando la pirosecuenciación. En etapas sucesivas, la PicoTiter^{TM}Plate y las perlas así como las los enzimas de las mismas se someten a distintos desoxirribonucleótidos en presencia de reactivos convencionales de la secuenciación y, mediante la incorporación de un desoxirribonucleótido, se genera una señal óptica que se registra. La incorporación del nucleótido correcto generará una señal de pirosecuenciación que se puede detectar.

La propia pirosecuenciación resulta conocida en la técnica y se describe, entre otros, en www.biotagebio.com; www.pyrosecuencing.com/sección tecnología. La tecnología se aplica además en, por ejemplo, los documentos WO 03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007 y WO 2005/003375 (todos ellos a nombre de 454 Life Sciences) y en Margulieset et al. Nature 2005, 437, 376-380.

En la presente invención, las perlas están provistas preferentemente de secuencias cebadoras o partes de las mismas con capacidad para extenderse mediante polimerización para proporcionar amplicones enlazados a perlas. En otras formas de realización, los cebadores utilizados en la amplificación están provistos de secuencias, por ejemplo en su extremo 5', que permiten el enlace de los amplicones con las perlas a fin de permitir la posterior polimerización y emulsión, y a continuación la secuenciación. Alternativamente, los amplicones se pueden ligar con adaptadores de la secuenciación antes de la ligación con las perlas o la superficie. Los amplicones secuenciados revelarán la identidad del identificador y, por lo tanto, la combinación de identificadores revela la identidad del clon.

\vskip1.000000\baselineskip

Tecnologías Solexa

Uno de los procedimientos de secuenciación de alto rendimiento se encuentra disponible en Solexa, Reino Unido (www.solexa.co.uk) y se describe, entre otros, en los documentos WO0006770, WO0027521, WO0058507,
WO0123610, WO0157248, WO0157249, WO02061127, WO03016565, WO03048387, WO2004018497,
WO2004018493, WO2004050915, WO2004076692, WO2005021786, WO2005047301, WO2005065814,
WO2005068656, WO2005068089, WO2005078130. Básicamente, el procedimiento se inicia con fragmentos de ADN ligados al adaptador, en este caso particular agrupaciones de fragmentos de restricción ligados al adaptador del cromosoma artificial tal como se describe en otras partes de la presente memoria. El ADN ligado al adaptador se une aleatoriamente a una capa densa de cebadores que se unen a una superficie sólida, habitualmente en un flujo celular. El otro extremo del fragmento ligado al adaptador se hibrida con un cebador complementario en la superficie. Los cebadores se extienden en presencia de nucleótidos y polimerasas en la denominada amplificación intermedia en fase sólida para proporcionar fragmentos bicatenarios. Dicha amplificación intermedia en fase sólida puede ser una amplificación selectiva. La desnaturalización y la repetición de la amplificación intermedia en fase sólida tienen como resultado la formación de agrupaciones densas de fragmentos amplificados distribuidos por la superficie. La secuenciación se inicia añadiendo cuatro nucleótidos finalizadores reversibles marcados de un modo distinto, los cebadores y la polimerasa al flujo celular. Tras la primera serie de extensión del cebador, se detectan las etiquetas, se registra la identidad de las primeras bases incorporadas y se retiran el extremo 3' y el fluoróforo de la base incorporada. A continuación se determina del mismo modo la identidad de la segunda base y se continúa la secuenciación de este modo.

En la presente invención, los fragmentos de restricción ligados al adaptador o los amplicones son se enlazan con la superficie mediante la secuencia de enlace con el cebador o la secuencia cebadora. La secuencia se determina tal como se ha descrito, comprendiendo la secuencia identificadora y (parte de) el fragmento de restricción. La tecnología Solexa disponible actualmente permite la secuenciación de fragmentos de aproximadamente 25 pares de bases. Mediante el diseño económico de los adaptadores y los cebadores de enlace con la superficie, la etapa de secuenciación lee a través del identificador de la muestra los restos de la secuencia de reconocimiento de la endonucleasa de restricción y cualquier base selectiva opcional. Cuando se utiliza un identificador de la muestra con 6 pares de bases, los restos son de la cortadora inusual EcoRI (AACCT), la utilización de dos bases selectivas proporciona una secuencia interna del fragmento de restricción de 12 pares de bases que se puede utilizar para identificar específicamente el fragmento de restricción en la muestra.

En una forma de realización preferida basada en la tecnología de secuenciación anterior de Solexa, la amplificación de los fragmentos de restricción ligados al adaptador se realiza con un cebador que contiene como máximo nucleótido selectivo en su extremo 3', preferentemente sin nucleótidos selectivos en su extremo 3', es decir, el cebador es únicamente complementario al adaptador (un cebador +0).

En los procedimientos de secuenciación descritos en la presente memoria, los cebadores utilizados en la amplificación pueden comprender secciones específicas (como alternativa al cebador o a las secuencias de enlace con el cebador descritos en la presente memoria) que se utilizan en la etapa de secuenciación posterior para enlazar los fragmentos de restricción cubiertos con el adaptador o los amplicones con la superficie. Éstas se indican generalmente como la región clave o secuencia compatible con el cebador 5'.

\vskip1.000000\baselineskip

Descripción de las figuras

Figura 1: representación esquemática de estrategias de agrupación.

Figura 2: cuatro cóntigos BAC continuos en una estrategia de agrupación del cromosoma 4 de Arabidopsis.

Figura 3: Sin superposiciones en el grupo, una red de colocación con alternancia mínima.

Figura 4: secuencia de reconocimiento dirigida a agrupaciones BAC - producto amplificado en gel de agarosa.

Figura 5: red de colocación con reensamblaje mínimo - parte del cóntigo de 1,9 Mb alargado.

\vskip1.000000\baselineskip

Ejemplos Construcción de novo del mapa físico basado en BAC de Arabidopsis thaliana basándose en una técnica de secuenciación por síntesis (SBS)

El presente ejemplo se basa en las generalizaciones siguientes.

El genoma total de Arabidopsis thaliana es de \sim125 Mbp. Un cromosoma artificial bacteriano (BAC) presenta un inserto genómico de \sim100 kb en promedio. Un equivalente genómico (GE) de BAC para una cobertura física 1x del genoma de Arabidopsis comprende \sim1250 BAC. Para unos resultados óptimos, se prefiere que la construcción de las agrupaciones BAC se realice de tal modo que una agrupación BAC no contenga más de 0,34 GE (\sim384 BAC). El análisis estadístico predice que en 0,34 GE la probabilidad de encontrar 2 BAC idénticos (es decir, 2 BAC que se cartografiarían exactamente en la misma posición física) es < 5%. Un GE' inferior en una agrupación BAC reduce aún más la probabilidad de encontrar dos BAC cartografiados en la misma posición. Se utiliza un sistema de agrupación 3D directo para realizar los cálculos. Un total de 10 GE de BAC de 2 genotecas distintas BAC de alta calidad (2 enzimas de clonación distintos, por ejemplo, EcoRI y HindIII) resultan suficientes para la construcción de un mapa físico de alta calidad. 10 GE de BAC para Arabidopsis son \sim12.500 BAC.

Las etiquetas de la secuencia (la combinación de una parte del fragmento de restricción y el identificador) se generan a partir de un sitio de restricción de una cortadora inusual, por ejemplo fragmentos AFLP tales como EcoRI/MseI, o HindIII/MseI o una combinación de diversas combinaciones enzimáticas (EC).

En el presente ejemplo, se utiliza la combinación enzimática HindIII/MseI. Se estima que la distribución de fragmentos HindIII/MseI en el genoma de Arabidopsis se encuentra comprendida entre 50 y 120 fragmentos por 100 kb.

\vskip1.000000\baselineskip

Preparación de la secuenciación de alto rendimiento

Véase asimismo la figura 1. 0,3 GE corresponde a 384 BAC. La agrupación 3D de 384 BAC, con unas dimensiones X + Y + Z produce 8 + 12 + 4 = 24 subagrupaciones. Para 10 GE : M (X + Y + Z) = 30 (8 + 12 + 4) = 720 subagrupaciones.

Se pretende generar para cada subagrupación:

-: 100 etiquetas secuenciadas BAC

-: 10 veces de repetición de la secuencia por etiqueta

-: agrupación tridimensional (cada fragmento BAC se secuencia en cada dimensión (X, Y, Z)).

\vskip1.000000\baselineskip

Ello significa que para la formación de puentes en la secuenciación de alto rendimiento basada en la amplificación de una agrupación de 0,34 GE, un conjunto de secuenciación lee: 8 subagrupaciones x (12 x 4 x 100 x 10) + 12 subagrupaciones x (8 x 4 x 100 x 10) + 4 subagrupaciones x (12 x 8 x 100 x 10) = 1.152.000 lecturas resultan necesarias. Ello significa que para un GE se necesitan 3 * 1.152.000 = 3.456.000 lecturas por GE y 10 x 3.456.000 lecturas por 10 GE = 34.560.000 lecturas.

Un BAC simple genera un potencial de \sim100 etiquetas de secuencia únicas de \sim20 pares de bases (comprendiendo el sitio de restricción). El número de secuencias dependerá de la selección y/o combinación de combinaciones enzimáticas.

Se pueden deducir las coordenadas de las etiquetas y las secuencias que acompañan los BAC individuales a partir de las secuencias de la subagrupación localizadas mediante la etapa de "deconvolución". Por consiguiente, mediante la deconvolución cada etiqueta de secuencia se puede asignar al BAC individual correspondiente. Las etiquetas de secuencia repetitivas se ignoran. El proceso de deconvolución tendrá como resultado una cadena de 100 etiquetas por BAC y posteriormente se realiza el ensamblaje de un mapa físico de novo mediante un procedimiento de tipo FPC (FingerPrintedContigs [Obtención de la huella genética de cóntigos]), tal como describió Cari Soderlund para fragmentos BAC analizados en geles de agarosa (Soderlund et al. 2000 - Genome Research 10; 1772-1787). Por último, la relación del mapa físico con el mapa genético se realiza informáticamente. En el caso de genomas grandes puede resultar necesario utilizar otras estrategias de agrupación.

\vskip1.000000\baselineskip

Construcción de un mapa físico de novo basado en BAC de Cucumis sativus basándose en la técnica de secuenciación por síntesis (SBS)

El presente ejemplo se basa en las generalizaciones siguientes.

El genoma total de Cucumis sativus es de \sim350 Mbp. Un cromosoma artificial bacteriano (BAC) presenta un inserto genómico de \sim100 kb en promedio. Un equivalente genómico (GE) de BAC para una cobertura física 1x del genoma de \sim3500 BAC. Para unos resultados óptimos, se prefiere que la construcción de las agrupaciones BAC se realice de tal modo que una agrupación BAC no contenga más de 0,34 GE (\sim384 BAC). El análisis estadístico predice que en 0,34 GE la probabilidad de encontrar 2 BAC idénticos (que es 2 BAC que se cartografiarían exactamente en la misma posición física) es < 5%. Un GE' inferior en una agrupación BAC reduce aún más la probabilidad de encontrar dos BAC cartografiados en la misma posición. Se utiliza un sistema de agrupación 3D directo para realizar los cálculos. Un total de 10 GE de BAC de 2 genotecas distintas BAC de alta calidad (2 distintos enzimas de clonación, por ejemplo, EcoRI y HindIII) resultan suficientes para la construcción de un mapa físico de alta calidad. 10 GE de BAC para Arabidopsis son \sim35.000 BAC.

En el presente ejemplo, se utiliza la combinación enzimática HindIII/MseI. Se estima que la distribución de fragmentos HindIII/MseI en el genoma de Cucumis sativus se encuentra comprendida entre 50 y 120 fragmentos por cada 100 kb.

\vskip1.000000\baselineskip

Preparación de la secuenciación de alto rendimiento

Véase asimismo la figura 1. 0.3 GE corresponde a 1152 BAC. La agrupación 3D de 1152 BAC, con unas dimensiones X + Y + Z produce 8 + 12 + 12 = 32 subagrupaciones. Para 10 GE : M (X + Y + Z) = 30 (8 + 12 + 12) = 960 subagrupaciones.

Se pretende generar para cada subagrupación:

-: 100 etiquetas secuenciadas BAC

-: 10 veces de repetición de la secuencia por etiqueta

\vskip1.000000\baselineskip

Ello significa que para la formación de puentes en la secuenciación de alto rendimiento basada en la amplificación de una agrupación de 0,34 GE, un conjunto de secuenciación lee: 8 subagrupaciones x (12 x 12 x 100 x 10) + 12 subagrupaciones x (8 x 12 x 100 x 10) + 12 subagrupaciones x (12 x 8 x 100 x 10) = 3.456.000 lecturas resultan necesarias. Ello significa que para un GE se necesitan 3 * 3.456.000 = 10.368.000 lecturas por GE y 10 x 10.368.000 lecturas por 10 GE = 103.680.000 lecturas.

Las plantillas de AFLP (EcoRI/MseI o HindIII/MseI) se preparan a partir de BAC agrupados. Se realiza la amplificación AFLP utilizando una combinación de 2 HindIII + 1 cebador y un MseI +0 cebadores (lo mismo en el caso de EcoRI). La utilización de dos +1 cebadores garantiza la amplificación de aproximadamente 50% de los fragmentos H/M (o E/M) de las agrupaciones, es decir, se amplifican una media de 70/2 = 35 fragmentos de restricción por cada combinación enzimática. Las reacciones de amplificación AFLP se realizan con cebadores AFLP que contienen etiquetas identificadoras únicas en el extremo 5' para cada uno de las agrupaciones BAC. De este modo, se necesitan por lo menos 74 secuencias identificadoras. Ello se puede conseguir con 4 etiquetas de bases (4^{4} = 256 posibilidades). Las secuencias identificadoras se necesitan únicamente para el cebador HindIII, ya que en este ejemplo se realizará la secuenciación unidireccional.

Las mezclas de la reacción de AFLP de todos las agrupaciones se mezclan en cantidades iguales, creando una genoteca de fragmentos. La genoteca de fragmentos se utiliza para construir una genoteca de secuencias.

Dada una estrategia 3D de agrupación, ello significa que se obtienen muestras de cada fragmento una pluralidad de veces de media en cada dimensión. Los resultados son 100 pares de secuencias de bases obtenidas del sitio HindIII (o EcoRI) de los fragmentos de restricción. Tal como se ha comentado, para cada clon BAC, se obtiene una media de 35 secuencias. Las secuencias constituyen la base del ensamblaje de cóntigos utilizando un procedimiento similar al FPC (Paquete de software de Soderlund que se puede obtener en http://www.agcol.arizona.edu/software/fpc/) pero que se basa en la correspondencia de la secuencia (más detallada).

La ventaja de la utilización de una reducción de la complejidad reproducible es que se necesitan menos fragmentos para la construcción de una cartografía física. Una reducción de la complejidad del 50% en el ejemplo anterior con Cucumis produce 51.840.000 lecturas en vez de 103.680.000. Una ventaja adicional de la presente invención consiste en que, utilizando la reducción de la complejidad tal como se describe en la presente memoria, se pueden generar mapas físicos con una calidad controlable. Ello significa que al reducir la complejidad de una agrupación BAC en +1 de amplificación AFLP, por ejemplo una combinación de cebadores con +C, se obtiene una cartografía física de aproximadamente un 25% de calidad (cobertura) en comparación con una amplificación +1 con las cuatro combinaciones de cebadores (A, C, T, G). Sin embargo, cuando se utilizan dos o tres combinaciones de cebadores, se obtiene una mayor cobertura, es decir, por ejemplo un 55 % o un 90%, respectivamente, en comparación con la cobertura obtenida con una amplificación +1 con las cuatro combinaciones de cebadores (A, C, T, G).

\vskip1.000000\baselineskip

Localizaciones de los clones BAC

Los fragmentos obtenidos a partir el mismo clon BAC se amplifican con 3 cebadores etiquetados distintos. De este modo, se asignan unas secuencias únicas observadas en combinación con 3 etiquetas a un clon BAC simple de la genoteca. Se observan secuencias repetidas en combinaciones con una pluralidad de etiquetas y, por lo tanto, no se pueden conectar con un clon BAC simple. Ello afecta a una proporción considerable de fragmentos, pero entre 35 fragmentos/clon BAC, por lo menos un subconjunto es único.

Una secuencia con 10 veces de cobertura de las agrupaciones BAC (3,3 veces/dimensión) significa que no se observan todos los fragmentos esperados (debido a diferencias en la concentración de clones individuales y a la variación del muestreo, etc.). De este modo, se observa únicamente una fracción de las secuencias (únicas) en combinación con 1 ó 2 etiquetas (o ninguna), lo que impide asignar las mismas a un clon BAC simple. Sin embargo, el grado en que ello se produce se debe a la variación del muestreo entre los fragmentos de restricción obtenidos a partir el mismo clon, el hecho de que se obtienen muestras de 35 fragmentos significa que la combinación de etiquetas proporciona la localización correcta del BAC: véase a continuación.

1

El esquema anterior ilustra como la construcción de cóntigos agrupa los fragmentos entre sí en un cóntigo; el fragmento 5, que presenta una secuencia única y del que se obtuvo la muestra junto con 3 etiquetas define la localización del BAC en la genoteca, de la que probablemente derivan asimismo los fragmentos 1 a 4 (+35).

De este modo, la ventaja de la técnica es que la información de la secuencia en un número de fragmentos de restricción suficientemente grande (35 en el ejemplo anterior) se utiliza para construir cóntigos precisos, mientras que la utilización de un sistema de etiquetado tridimensional permite la identificación directa de la mayoría de BAC, aunque la localización del no se pueda obtener a partir de cada secuencia de fragmento individual (debido a la variación experimental). Sin embargo, la combinación de etiquetas de los fragmentos obtenidos a partir el mismo BAC proporcionará la localización del BAC.

De este modo, la información obtenida de la formación de cóntigos BAC basada en la secuencia es la misma que para las técnicas convencionales (es decir, cóntigo + localización BAC). Se observa que para las técnicas de obtención de la huella genética de clones individuales, se conocerá la localización BAC por definición.

\vskip1.000000\baselineskip

Ejemplo 2 Procedimiento de cartografía física de alto rendimiento mediante la cartografía de la etiqueta de secuencia BAC

Se seleccionó un total de 72 BAC (BAC = cromosoma artificial bacteriano) que cartografían el cromosoma 4 de Arabidopsis y que abarcan una extensión física total de 5.4 Mb en 4 cóntigos BAC (1,8 Mb, 1,2 Mb, 0,5 Mb y 1,9 Mb) a partir de TAIR y otras bases de datos. El vegetal donador de las genotecas BAC es Arabidopsis thaliana ecotipo Colombia. Los 72 BAC, con un tamaño comprendido entre 70 kb y 150 kb, se separaron en 2 grupos de 36 BAC, el grupo "AB" y el grupo "XY". En los 2 grupos, los 36 BAC no presentaban superposición interna, mientras que los BAC del grupo AB y del grupo XY combinados se podían ensamblar en 4 redes de colocación cóntigos mínimas continuas con BAC alternantes de los grupos AB y XY (véanse las figuras 2 a 5).

\vskip1.000000\baselineskip

Estrategia de agrupación para 72 BAC de Arabidopsis, 36 del grupo AB y 36 del grupo XY

2

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

3

\newpage

Se procedió al crecimiento de los 72 BAC durante la noche como clones individuales en 200 microlitros de medio TY estándar que comprendía cloranfenicol (clones BAC TAMU) o kanamicina (clones BAC IGF). Se desarrollaron todos los clones en un formato 6 x 6 para facilitar el procedimiento de agrupación. Por la mañana, se procedió a la agrupación del cultivo líquido en 2 dimensiones (6 x 6) de tal modo que se generaron 12 agrupaciones por grupo. Cada agrupación contenía 600 microlitros de medio con BAC desarrollados (100 microlitros por BAC individual). Se aisló el ADN a partir de las 24 agrupaciones BAC siguiendo un procedimiento de minipreparación alcalina estándar según Sambrook et al. (2001).

Se digirieron 50 ng ADN de cada agrupación BAC con enzimas de restricción EcoRI y MseI, y posteriormente se ligaron los adaptadores EcoRI y MseI AFLP, según el procedimiento estándar AFLP descrito por Vos et al. (1995). Se diluyó la mezcla de restricción/ligación 10x en MilliQ-agua y se utilizaron 5 microlitros en la etapa de amplificación. Los cebadores utilizados en la amplificación etapa se indicaron con una secuencia de reconocimiento de 4 nucleótidos, de tal modo que cada agrupación se etiquetó con una secuencia de localización específica de 4 nucleótidos. Dicha secuencia de reconocimiento resulta necesaria para facilitar la deconvolución de todas las secuencias a una coordenada de un BAC individual.

Los dos cebadores utilizados, EcoRI+0 y MseI+0, eran cebadores fosforilados en la posición 5' compatibles con el adaptador que presentaban secuencias de reconocimiento 5' y distintos para la coordenada de la agrupación (véase la figura 4). La fosforilación de la posición 5' resulta necesaria para la ligación de los adaptadores de la pirosecuenciación. Se realizó la amplificación para 30 ciclos con el perfil: 94ºC (30 seg.), 56ºC (60 seg.), 72ºC (60 seg.). Tras la amplificación, se verificaron los productos en gel de agarosa (figura 4) y los 12 productos de agrupación amplificada de cada grupo se agruparon en un grupo-agrupación (AB cq. XY) y se cuantificaron. Cinco microgramos de ADN de cada grupo-agrupación se procesaron inmediatamente en unas etapas adicionales de preparación para la secuenciación con la técnica 454. Se realizó la pirosecuenciación con la técnica 454 en la plataforma GS20 según Margulies et al. (2005).

\vskip1.000000\baselineskip

Análisis del conjunto de datos y ensamblaje de los cóntigos BAC

El listado de las lecturas de la secuencia de ADN generado mediante la máquina de pirosecuenciación GS20 se analizó en 3 etapas:

Etapa 1): Se identificaron los códigos los 4 primeros nucleótidos que consisten en la muestra de la agrupación y se asignaron las etiquetas de las agrupaciones correspondientes. Si se desconocía el código, se retiró la lectura del conjunto.

Etapa 2): Se identificaron los siguientes 16 ó 17 nucleótidos (en función del enzima de restricción) que contenían la secuencia cebadora. Cuando eran un 100% idénticos a la secuencia cebadora, se admitieron las lecturas y se añadieron al conjunto de datos y de lo contrario se retiraron.

Etapa 3): Todas las lecturas de la etapa 2 se recortaron a 14 nucleótidos después de la secuencia cebadora.

\vskip1.000000\baselineskip

Posteriormente se agruparon todas las lecturas correctas de la secuencia recortada: se identificaron las lecturas un 100% idénticas y se asignaron a la agrupación correspondiente. Cada grupo de lecturas único se denominó "etiqueta". Las etiquetas que se encontraron en exactamente 2 agrupaciones, una para la coordenada X y una para la coordenada Y, se vincularon aun BAC específico: dicho procedimiento se denomina deconvolución.

Se realizó la lista de todas las etiquetas únicas para los BAC sometidos a deconvolución para todos los grupos BAC grupos. Se identificaron los pares de BAC con una o más etiquetas comunes. Posteriormente, se pudieron ensamblar los cóntigos BAC cóntigos tal como se representa en la tabla 1.

TABLA 1 Vínculos BAC de todas las etiquetas de secuencia, comunes entre pares de BAC (por ejemplo X1Y1 y A1B1) y que aparecen por lo menos 2 veces en cada agrupación. Se numeran los cóntigos

4

Se demostró que las 4 redes de colocación mínimas de BAC de 1,8 Mb, 1,2 Mb, 0,5 Mb y 1,9 Mb se podían reensamblar de un modo directo tras la deconvolución de las etiquetas de secuencia en los BAC individuales (tabla 1 y figura 4). La comparación de las etiquetas GS20 generadas con los fragmentos predichos informáticamente demostró que se secuenció entre el 70 y el 80% de los fragmentos EcoRI/MseI. Por lo tanto, en el reensamblaje de los 4 cóntigos BAC, no se pudieron detectar algunas de las superposiciones físicas más pequeñas entre 2 BAC.

El hecho de que las lecturas cortas (14 pares de bases) resultan suficientes para reensamblar las redes de colocación BAC indica que las plataformas de secuenciación de alto rendimiento con una longitud de lectura corta (tal como la Illumina Genome Analyser y SOliD (ABI)) permiten el montaje de un mapa físico de alto rendimiento siguiendo el procedimiento propuesto.

Claims

1. Procedimiento para la generación de un mapa físico de por lo menos una parte de un genoma que comprende las etapas de:

(a): proporcionar una muestra ADN;

\vskip1.000000\baselineskip

2. Procedimiento según la reivindicación 1, en el que los fragmentos de restricción se asignan al clon correspondiente mediante el agrupamiento de fragmentos de restricción ligados al adaptador que contienen secuencias idénticas en (parte de los) fragmentos de restricción pero que presentan distintos identificadores específicos de la agrupación.

3. Procedimiento según la reivindicación 1, en el que la secuenciación se realiza mediante secuenciación de alto rendimiento.

4. Procedimiento según la reivindicación 3, en el que la secuenciación de alto rendimiento se realiza en un soporte sólido.

5. Procedimiento según la reivindicación 3, en el que la secuenciación de alto rendimiento se basa en la secuenciación por síntesis.

6. Procedimiento según la reivindicación 3, en el que la secuenciación de alto rendimiento comprende las etapas de:

\bullet: aparear los amplicones o fragmentos de restricción ligados al adaptador con perlas, apareándose cada perla con unos fragmentos de restricción simples ligados al adaptador o amplicón;

\bullet: emulsionar las perlas en microrreactores de agua en aceite, comprendiendo cada microrreactor de agua en aceite una perla simple;

\bullet: realizar la PCR por emulsión para amplificar los fragmentos de restricción ligados al adaptador o amplicones en la superficie de la perlas;

\bullet: opcionalmente, seleccionar/enriquecer las perlas que contienen los amplicones amplificados;

\bullet: cargar las perlas en pocillos, comprendiendo cada pocillo una perla simple; y

\bullet: generar una señal de pirofosfato.

\vskip1.000000\baselineskip

7. Procedimiento según la reivindicación 3, en el que la secuenciación de alto rendimiento comprende las etapas de:

\bullet: aparear los fragmentos de restricción ligados al adaptador o amplicones con una superficie que contiene los cebadores primero y segundo o las secuencias de enlace con el cebador primero y segundo respectivamente,

\bullet: realizar la amplificación intermedia para proporcionar agrupamientos de fragmentos de restricción amplificados ligados al adaptador o amplicones amplificados,

\bullet: determinar la secuencia de nucleótidos de los fragmentos de restricción amplificados ligados al adaptador o amplicones amplificados utilizando nucleótidos finalizadores marcados de un modo reversible.

\vskip1.000000\baselineskip

8. Procedimiento según la reivindicación 1, en el que el identificador presenta entre 4 y 16 pares de bases, preferentemente entre 4 y 10, más preferentemente entre 4 y 8, aún más preferentemente entre 4 y 6 pares de bases.

9. Procedimiento según la reivindicación 8, en el que el identificador no contiene 2 o más bases consecutivas idénticas.

10. Procedimiento según la reivindicación 8, en el que para dos o más clones, los identificadores correspondientes contienen por lo menos dos nucleótidos distintos.

11. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que por lo menos un cebador presenta entre 1 y 10 nucleótidos selectivos en su extremo 3', preferentemente entre 1 y 4, para proporcionar subconjunto aleatorio de amplicones.