ES2391837T3

ES2391837T3 - Método para la detección de polimorfismos basados en AFLP de alto rendimiento

Info

Publication number: ES2391837T3
Application number: ES06835670T
Authority: ES
Inventors: Michael Josephus Theresia Van Eijk; Anker Preben SØRENSEN; Marco Gerardus Maria Van Schriek
Original assignee: Keygene NV
Current assignee: Keygene NV
Priority date: 2005-12-22
Filing date: 2006-12-20
Publication date: 2012-11-30
Anticipated expiration: 2026-12-20
Also published as: PL2789696T3; CN101374963B; US9062348B1; US20170356042A1; US9702004B2; US20150344946A1; EP2789696B1; US20200181698A1; EP2789696A1; US20150159217A1; US11008615B2; US20130059739A1; US9328383B2; US20160258013A1; EP1966393B1; HK1200497A1; CN101374963A; EP3045544A1; US20140315728A1; CN103937899B

Abstract

Método para el descubrimiento, la detección y el genotipado de alto rendimiento de uno o más marcadoresgenéticos en una o más muestras, que comprende las etapas de:(a) proporcionar ADN de una o más muestras;(b) cortar el ADN con al menos una endonucleasa de restricción para producir fragmentos de restricción;(c) ligar adaptadores a los fragmentos de restricción para producir fragmentos de restricción ligados a adaptador;(d) amplificar los fragmentos de restricción ligados a adaptador con un par de cebadores que es complementario alos adaptadores para producir fragmentos de restricción ligados a adaptador preamplificados;(e) amplificar los fragmentos de restricción ligados a adaptador preamplificados con un par de cebadores,conteniendo al menos uno de los cebadores desde uno hasta 10 nucleótidos selectivos en su extremo 3' yconteniendo al menos uno de los cebadores una etiqueta identificadora en el extremo 5' del cebador para produciruna biblioteca de subconjuntos amplificados etiquetados de fragmentos de restricción ligados a adaptador para cadamuestra;(f) opcionalmente, agrupar las bibliotecas;(g) secuenciar las bibliotecas, comprendiendo la secuenciación las etapas de:- aparear los fragmentos de restricción ligados a adaptador con perlas, apareándose cada perla con un únicofragmento ligado a adaptador;- emulsionar las perlas en microrreactores de agua en aceite, comprendiendo cada microrreactor de agua en aceiteuna única perla;- realizar una PCR en emulsión para amplificar los fragmentos de restricción ligados a adaptador en la superficie delas perlas;- cargar las perlas en pocillos, comprendiendo cada pocillo una única perla; y- generar una señal de pirofosfato;(h) agrupar las secuencias por biblioteca, usando la etiqueta identificadora;(i) identificar marcadores genéticos dentro de la biblioteca y/o entre bibliotecas(j) determinar genotipos (co)dominantes de los marcadores genéticos en una o más bibliotecas.

Description

Método para la detección de polimorfismos basados en AFLP de alto rendimiento

Campo técnico

La presente invención se refiere a los campos de la biología molecular y la genética. La invención se refiere al descubrimiento, detección y genotipado a gran escala rápidos de polimorfismos en una muestra de ácido nucleico o entre muestras. Los polimorfismos identificados pueden usarse como marcadores genéticos.

Antecedentes de la invención

La exploración del ADN genómico ha sido largamente deseada por la comunidad científica, en particular médica. El ADN genómico tiene la clave para la identificación, el diagnóstico y el tratamiento de enfermedades tales como cáncer y enfermedad de Alzheimer. Además de la identificación y el tratamiento de enfermedades, la exploración del ADN genómico puede proporcionar ventajas significativas en esfuerzos de cría de animales y plantas, lo que puede proporcionar respuestas a problemas de alimentación y nutrición en el mundo.

Se sabe que muchas enfermedades están asociadas con componentes genéticos específicos, en particular con polimorfismos en genes específicos. La identificación de polimorfismos en muestras grandes tales como genomas es en la actualidad una tarea laboriosa y que requiere mucho tiempo. Sin embargo, tal identificación es de gran valor en áreas tales como la investigación biomédica, el desarrollo de productos farmacológicos, la tipificación de tejidos, el genotipado y los estudios poblacionales.

Los marcadores, es decir, los marcadores genéticos, se han usado durante mucho tiempo como método de tipificación genética, es decir para conectar un rasgo fenotípico con la presencia, ausencia o cantidad de una parte particular de ADN (gen). Una de las tecnologías de tipificación genética más versátiles es AFLP, ya presente desde hace muchos años y ampliamente aplicable a cualquier organismo (para revisiones, véase Savelkoul et al. J. Clin. Microbiol, 1999, 37(10), 3083-3091; Bensch et al. Molecular Ecology, 2005, 14, 2899-2914)

La tecnología de AFLP (Zabeau & Vos, 1993; Vos et al., 1995) ha encontrado un uso generalizado en el cultivo de plantas y otros campos desde su invención a principios de los años 1990. Esto se debe a varias características de AFLP, siendo la más importante que no se necesita información de secuencia previa para generar grandes números de marcadores genéticos de manera reproducible. Además, el principio de amplificación selectiva, la piedra angular de AFLP, garantiza que el número de fragmentos amplificados pueda hacerse corresponder con la resolución del sistema de detección, independientemente del origen o el tamaño del genoma.

La detección de fragmentos de AFLP se lleva a cabo comúnmente mediante electroforesis en geles planos (Vos et al., 1995) o electroforesis capilar (van der Meulen et al., 2002). La mayoría de los marcadores de AFLP puntuados de esta forma representan polimorfismos (de un solo nucleótido) que se producen o bien en los sitios de reconocimiento de enzimas de restricción usados para la preparación de moldes para AFLP o bien en sus nucleótidos flanqueantes cubiertos por cebadores selectivos de AFLP. El resto de los marcadores de AFLP son polimorfismos de inserción/deleción que se producen en las secuencias internas de los fragmentos de restricción y una fracción muy pequeña de sustituciones de un solo nucleótido que se producen en pequeños fragmentos de restricción (< aproximadamente 100 pb), que para estos fragmentos producen variaciones de movilidad reproducibles entre ambos alelos; estos marcadores de AFLP pueden puntuarse de manera codominante sin tener que basarse en intensidades de banda.

En una huella genética de AFLP típica, los marcadores de AFLP constituyen por tanto la minoría de los fragmentos amplificados (menos del 50 por ciento pero a menudo menos del 20 por ciento), mientras que el resto se denomina comúnmente fragmentos de AFLP constantes. Estos últimos son útiles no obstante en el procedimiento de puntuación en gel, ya que sirven como puntos de anclaje para calcular movilidades de fragmentos de marcadores de AFLP y para ayudar a cuantificar los marcadores para la puntuación codominante. La puntuación codominante (puntuación para homo o heterocigosidad) de marcadores de AFLP está restringida actualmente al contexto de obtener la huella genética de una población segregante. En un panel de líneas no relacionadas, sólo es posible la puntuación dominante.

Aunque el rendimiento de AFLP es muy alto debido a los altos niveles de multiplexación en las etapas de amplificación y detección, la etapa limitante de la velocidad es el poder de resolución de la electroforesis. La electroforesis permite la identificación única de la mayoría de los fragmentos amplificados basándose en la combinación de combinaciones de enzimas de restricción (EC), combinaciones de cebadores (PC) y movilidad, pero de manera ideal, el sistema de detección debe poder determinar toda la secuencia de los fragmentos amplificados para capturar todos los polimorfismos.

La detección mediante secuenciación en lugar de la determinación de la movilidad aumentará el rendimiento porque: 1) Se detectará el polimorfismo ubicado en las secuencias internas en la mayoría de (o en todos) los fragmentos amplificados; esto aumentará el número de marcadores por PC considerablemente.

2) No hay pérdida de marcadores de AFLP debido a la co-migración de marcadores de AFLP y a las bandas constantes.

3) La puntuación codominante no se basa en la cuantificación de intensidades de banda y es independiente del parentesco de los individuos de los que se obtiene la huella genética. Hasta ahora, la detección de secuencias/marcadores de AFLP mediante secuenciación no ha sido económicamente factible debido a, entre otras limitaciones, limitaciones de coste de la tecnología de secuenciación didesoxi de Sanger y de otras tecnologías de secuenciación convencionales.

Por consiguiente, uno de los objetivos de la presente invención es proporcionar métodos económicamente factibles para la detección de marcadores de AFLP u otros marcadores genéticos tales como marcadores de SNP basándose en secuenciación.

Un problema importante asociado adicionalmente con la detección de un conjunto de fragmentos que contienen AFLP o SNP a través de secuenciación para fines de genotipado (es decir diagnóstico) es el de la variación de las muestras.

Específicamente, esto significa que cuando se analiza un conjunto de fragmentos y no se observan fragmentos particulares, ha de estarse seguro de que esto no se debe al hecho de que los fragmentos implicados no se tomaron como muestra en la etapa de detección, aunque estén presentes en la mezcla de fragmentos, porque esto conduciría a una puntuación falsa-negativa del marcador. Esta limitación no se aplica a la detección mediante electroforesis porque se dispone de la información de posición en el gel. Por consiguiente, uno de los objetivos adicionales de la presente invención es proporcionar un método que resuelva el problema de la variación de la muestra o que al menos reduzca los errores producidos por la variación de la muestra hasta un mínimo aceptable. El documento WO2005003375 describe un método de secuenciación de alto rendimiento basado en fragmentación de ADN, ligamiento de adaptador, PCR en emulsión y pirosecuenciación.

Sumario de la invención

Los presentes inventores han encontrado que la secuenciación está al alcance para la detección de marcadores de AFLP y SNP con el uso de AFLP en determinados procedimientos adaptados para la secuenciación de alto rendimiento. La invención proporciona por tanto un método o estrategia que combina la potencia y la aplicabilidad genérica de AFLP con determinadas tecnologías de secuenciación de alto rendimiento para establecer un sistema de puntuación de polimorfismo aplicable genéricamente. En esta estrategia, en la cuestión de la toma de muestras, tal como se define en las reivindicaciones, la variación también se refiere a garantizar el genotipado con alta exactitud y maximizando las posibilidades de conjuntos de datos con números mínimos de genotipos que falten.

Definiciones

En la siguiente descripción y ejemplos se usan varios términos. Con el fin de proporcionar una comprensión clara y constante de la memoria descriptiva y las reivindicaciones, incluyendo el alcance que va a darse a tales términos, se proporcionan las siguientes definiciones. A menos que se defina otra cosa en el presente documento, todos los términos técnicos y científicos usados tienen el mismo significado que el entendido comúnmente por un experto habitual en la técnica a la que pertenece esta invención.

Polimorfismo: polimorfismo se refiere a la presencia de dos o más variantes de una secuencia nucleotídica en una población. Un polimorfismo puede comprender uno o más cambios de bases, una inserción, una repetición, o una deleción. Un polimorfismo incluye por ejemplo una repetición de secuencia única (SSR) y un polimorfismo de un único nucleótido (SNP), que es una variación, que se produce cuando se altera un único nucleótido: adenina (A), timina (T), citosina (C) o guanina (G). Una variación debe producirse generalmente en al menos el 1% de la población para que se considere un SNP. Los SNP constituyen por ejemplo el 90% de todas las variaciones genéticas humanas, y se producen cada de 100 a 300 bases a lo largo del genoma humano. Dos de cada tres SNP sustituyen citosina (C) por timina (T). Las variaciones en las secuencias de ADN de por ejemplo seres humanos o plantas pueden afectar a cómo controlan enfermedades, bacterias, virus, productos químicos, fármacos, etc.

Ácido nucleico: un ácido nucleico según la presente invención puede incluir cualquier polímero u oligómero de bases de pirimidina y purina, preferiblemente citosina, timina y uracilo, y adenina y guanina, respectivamente (véase Albert

L. Lehninger, Principles of Biochemistry, en 793-800 (Worth Pub. 1982) que se incorpora al presente documento como referencia en su totalidad para todos los fines). La presente invención contempla cualquier componente de ácido nucleico de péptido, ribonucleótido o desoxirribonucleótido, y cualquier variante química de los mismos, tal como formas metiladas, hidroximetiladas o glicosiladas de estas bases y similares. Los polímeros u oligómeros pueden ser de composición heterogénea u homogénea y pueden aislarse a partir de fuentes que se producen de manera natural o pueden producirse de manera artificial o sintética. Además, los ácidos nucleicos pueden ser ADN o ARN, o una mezcla de los mismos y pueden existir de manera permanente o transitoria en forma monocatenaria o bicatenaria, incluyendo homodúplex, heterodúplex y estados híbridos.

Reducción de la complejidad: el término reducción de la complejidad se usa para indicar un método en el que se reduce la complejidad de una muestra de ácido nucleico, tal como ADN genómico, mediante la generación de un subconjunto de la muestra. Este subconjunto puede ser representativo para toda la muestra (es decir complejo) y preferiblemente es un subconjunto reproducible. Reproducible significa en este contexto que cuando la misma muestra se reduce en complejidad usando el mismo método, se obtiene el mismo subconjunto, o al menos uno comparable. El método usado para la reducción de la complejidad puede ser cualquier método para la reducción de la complejidad conocido en la técnica. Un ejemplo preferido de un método para la reducción de la complejidad incluye por ejemplo AFLP® (Keygene N.V., los Países Bajos; véase por ejemplo el documento EP 0 534 858, US6045994), los métodos descritos por Dong (véanse por ejemplo los documentos WO 03/012118, WO 00/24939), ligamiento indexado (Unrau et al., véase más adelante), ligador-PCR (documento WO90/008821), y SALSA-PCR (documento WO00/23620) Schouten et al.), etc. Los métodos de reducción de la complejidad usados en la presente invención tienen en común que son reproducibles. Reproducibles en el sentido de que cuando se reduce la complejidad de la misma muestra de la misma manera, se obtiene el mismo subconjunto de la muestra, en contraposición a una reducción de complejidad más aleatoria tal como microdisección o uso de ARNm (ADNc) que representa una parte del genoma transcrito en un tejido seleccionado y para su reproducibilidad depende de la selección del tejido, el tiempo de aislamiento, etc.

AFLP: AFLP se refiere a un método para la amplificación selectiva de ADN basado en digerir un ácido nucleico con una o más endonucleasas de restricción para dar fragmentos de restricción, ligar adaptadores a los fragmentos de restricción y amplificar los fragmentos de restricción ligados a adaptador con al menos un cebador que es (parte) complementario al adaptador, (parte) complementario al resto de la endonucleasa de restricción, y que contiene además al menos un nucleótido seleccionado aleatoriamente de entre A, C, T o G (o U según sea el caso). AFLP no requiere ninguna información de secuencia previa y puede realizarse en cualquier ADN de partida. En general, AFLP comprende las etapas de:

(a): digerir un ácido nucleico, en particular un ADN o ADNc, con una o más endonucleasas de restricción específicas, para fragmentar el ADN en una serie correspondiente de fragmentos de restricción;

(b): ligar los fragmentos de restricción así obtenidos con un adaptador de oligonucleótido sintético bicatenario, siendo un extremo compatible con uno o ambos extremos de los fragmentos de restricción, para producir de ese modo fragmentos de restricción ligados a adaptador, preferiblemente etiquetados, del ADN de partida;

(c): poner en contacto los fragmentos de restricción ligados a adaptador, preferiblemente etiquetados, en condiciones de hibridación con uno o más cebadores oligonucleotídicos que contienen nucleótidos selectivos en su extremo 3’;

(d): amplificar el fragmento de restricción ligado a adaptador, preferiblemente etiquetado, hibridado con los cebadores mediante PCR o una técnica similar para producir la elongación adicional de los cebadores hibridados a lo largo de los fragmentos de restricción del ADN de partida a los que se hibridan los cebadores; y

(e): detectar, identificar o recuperar el fragmento de ADN amplificado o elongado así obtenido.

AFLP proporciona por tanto un subconjunto reproducible de fragmentos ligados a adaptador. AFLP se describe en los documentos EP 534858, US 6045994 y en Vos et al. Se hace referencia a estas publicaciones para detalles adicionales con respecto a AFLP. El AFLP se usa comúnmente como una técnica de reducción de la complejidad y una tecnología de obtención de huella genética de ADN. Dentro del contexto del uso de AFLP como una tecnología de obtención de huella genética, se ha desarrollado el concepto de un marcador de AFLP.

Marcador de AFLP: Un marcador de AFLP es un fragmento de restricción ligado a adaptador amplificado que es diferente entre dos muestras que se han amplificado usando AFLP (obtención de huella genética), usando el mismo conjunto de cebadores. Como tal, la presencia o ausencia de este fragmento de restricción ligado a adaptador amplificado puede usarse como un marcador que está vinculado a un rasgo o fenotipo. En la tecnología en gel convencional, un marcador de AFLP se presentará como una banda en el gel ubicada con cierta movilidad. Otras técnicas electroforéticas tales como la electroforesis capilar pueden no denominar a esto banda, pero el concepto sigue siendo el mismo, es decir un ácido nucleico con una determinada longitud y movilidad. La ausencia o presencia de la banda puede ser indicativa de (o estar asociada con) la presencia o ausencia del fenotipo. Los marcadores de AFLP normalmente implican SNP en el sitio de restricción de la endonucleasa o los nucleótidos selectivos. Ocasionalmente, los marcadores de AFLP pueden implicar indels en el fragmento de selección.

Marcador de SNP: un marcador de SNP es un marcador que se basa en un polimorfismo de un único nucleótido identificado en una posición determinada. Los marcadores de SNP pueden estar ubicados en posiciones idénticas a los marcadores de AFLP, pero los marcadores de SNP también pueden estar ubicados en el propio fragmento de restricción. Como tales, los marcadores de SNP de género engloban por tanto los marcadores de AFLP de especie.

Banda constante: una banda constante en la tecnología de AFLP es un fragmento de restricción ligado a adaptador amplificado que es relativamente invariable entre muestras. Por tanto, una banda constante en la tecnología de AFZP se presentará, en un intervalo de muestras, en aproximadamente la misma posición en el gel, es decir tiene la misma longitud/movilidad. En el AFLP convencional éstas se usan normalmente para anclar los carriles correspondientes a las muestras en un gel o electroferogramas de múltiples muestras de AFLP detectadas mediante electroforesis capilar. Normalmente, una banda constante resulta menos informativa que un marcador de AFLP. No obstante, puesto que los marcadores de AFLP habituales implican SNP en los nucleótidos selectivos o el sitio de restricción, las bandas constantes pueden comprender SNP en los propios fragmentos de restricción, convirtiendo las bandas constantes en una fuente alternativa interesante de información genética que es complementaria a los marcadores de AFLP.

Base selectiva: Ubicada en el extremo 3’ del cebador que contiene una parte que es complementaria al adaptador y una parte que es complementaria al resto del sitio de restricción, la base selectiva se selecciona aleatoriamente de entre A, C, T o G. Al extender un cebador con una base selectiva, la amplificación posterior producirá sólo un subconjunto reproducible de los fragmentos de restricción ligados a adaptador, es decir sólo los fragmentos que pueden amplificarse usando el cebador que porta la base selectiva. Pueden añadirse nucleótidos selectivos al extremo 3’ del cebador en un número que varía entre 1 y 10. Normalmente basta con 1-4. Ambos cebadores pueden contener un número variable de bases selectivas. Con cada base selectiva añadida, el subconjunto reduce la cantidad de fragmentos de restricción ligados a adaptador amplificados en el subconjunto en un factor de aproximadamente 4. Normalmente, el número de bases selectivas usadas en AFLP está indicado por +N+M, en el que un cebador porta N nucleótidos selectivos y los otros cebadores portan M nucleótidos selectivos. Por tanto, es conveniente un AFLP Eco/Mse +1/+2 para la digestión del ADN de partida con EcoRI y MseI, el ligamiento de adaptadores apropiados y la amplificación con un cebador dirigido a la posición de restricción de EcoRI que porta una base selectiva y el otro cebador dirigido al sitio de restricción de MseI que porta 2 nucleótidos selectivos.

Agrupación: con el término “agrupación” se quiere decir la comparación de dos o más secuencias nucleotídicas basándose en la presencia de tramos cortos o largos de nucleótidos idénticos o similares. Se conocen en la técnica varios métodos para el alineamiento de secuencias nucleotídicas, tal como se explicará adicionalmente más adelante. En ocasiones los términos “unión” o “alineamiento” se usan como sinónimos.

Etiqueta: una secuencia corta que puede añadirse a un cebador o incluirse en su secuencia o usarse de otro modo como marcador para proporcionar un identificador único. Un identificador de secuencia de este tipo puede ser una secuencia de bases única de longitud variable pero definida usada únicamente para identificar una muestra de ácido nucleico específica. Por ejemplo, las etiquetas de 4 pb permiten 4 (exp4) = 256 etiquetas diferentes. Los ejemplos típicos son secuencias ZIP, conocidas en la técnica como etiquetas usadas comúnmente para la detección única mediante hibridación (Iannone et al. Cytometry 39:131-140, 2000). Usando una etiqueta de este tipo, puede determinarse el origen de una muestra de PCR con procesamiento adicional. En el caso de combinar productos procesados que se originan a partir de muestras de ácido nucleico diferentes, las muestras de ácido nucleico diferentes se identifican generalmente usando etiquetas diferentes. En el caso de la presente invención, la adición de una única etiqueta de secuencia sirve para identificar las coordenadas de la planta individual en el conjunto de productos de amplificación de secuencia. Pueden usarse múltiples etiquetas.

Marcaje con etiqueta: el término marcaje con etiqueta se refiere a la adición de una etiqueta a una muestra de ácido nucleico con el fin de poder distinguirla de una segunda muestra de ácido nucleico o adicional. El marcaje con etiqueta puede llevarse a cabo por ejemplo mediante la adición de un identificador de secuencia durante la reducción de la complejidad o mediante cualquier otro medio conocido en la técnica. Un identificador de secuencia de este tipo puede ser por ejemplo una secuencia de bases única de longitud variable pero definida usada únicamente para identificar una muestra de ácido nucleico específica. Los ejemplos típicos del mismo son por ejemplo las secuencias ZIP. Usando una etiqueta de este tipo, puede determinarse el origen de una muestra con procesamiento adicional. En el caso de combinar productos procesados que se originan a partir de muestras de ácido nucleico diferentes, las muestras de ácido nucleico diferentes deben identificarse usando etiquetas diferentes.

Biblioteca etiquetada: el término biblioteca etiquetada se refiere a una biblioteca de ácidos nucleicos etiquetados.

Secuenciación: El término secuenciación se refiere a determinar el orden de los nucleótidos (secuencias de bases) en una muestra de ácido nucleico, por ejemplo ADN o ARN.

Análisis de alto rendimiento: El análisis de alto rendimiento, a menudo abreviado HTS, es un método para la experimentación científica especialmente relevante para los campos de biología y química. A través de una combinación de robótica moderna y otro hardware de laboratorio especializado, permite a un investigador analizar de manera eficaz una gran cantidad de muestras simultáneamente.

Endonucleasa de restricción: una endonucleasa de restricción o enzima de restricción es una enzima que reconoce una secuencia nucleotídica específica (sitio diana) en una molécula de ADN bicatenario y que escindirá ambas cadenas de la molécula de ADN en cada sitio diana.

Fragmentos de restricción: las moléculas de ADN producidas por la digestión con una endonucleasa de restricción se denominan fragmentos de restricción. Cualquier genoma dado (o ácido nucleico, independientemente de su origen) se digerirá por una endonucleasa de restricción particular en un conjunto diferenciado de fragmentos de restricción. Los fragmentos de ADN que resultan de la escisión por la endonucleasa de restricción pueden usarse adicionalmente en una variedad de técnicas y pueden detectarse por ejemplo mediante electroforesis en gel.

Electroforesis en gel: con el fin de detectar fragmentos de restricción, puede requerirse un método analítico para fraccionar moléculas de ADN bicatenario basándose en el tamaño. La técnica usada más comúnmente para lograr un fraccionamiento de este tipo es la electroforesis en gel (capilar). La velocidad a la que se mueven los fragmentos de ADN en tales geles depende de su peso molecular; por tanto, las distancias recorridas disminuyen a medida que aumentan las longitudes del fragmento. Los fragmentos de ADN fraccionados por electroforesis en gel pueden visualizarse directamente mediante un procedimiento de tinción, por ejemplo tinción con plata o tinción usando bromuro de etidio, si el número de fragmentos incluidos en el patrón es suficientemente pequeño. Alternativamente el tratamiento adicional de los fragmentos de ADN puede incorporar etiquetas detectable en los fragmentos, tales como fluoróforos o marcadores radiactivos.

Ligamiento: la reacción enzimática catalizada por una enzima ligasa en la que dos moléculas de ADN bicatenario se unen covalentemente entre sí se denomina ligamiento. En general, ambas cadenas de ADN se unen entre sí covalentemente, pero también es posible evitar el ligamiento de una de las dos cadenas a través de modificación química o enzimática de uno de los extremos de las cadenas. En este caso, la unión covalente se producirá en sólo una de las dos cadenas de ADN.

Oligonucleótido sintético: las moléculas de ADN monocatenario que tienen preferiblemente desde aproximadamente 10 hasta aproximadamente 50 bases, que pueden sintetizarse químicamente se denominan oligonucleótidos sintéticos. En general, estas moléculas de ADN sintéticas se diseñan para que tengan una secuencia nucleotídica única o deseada, aunque es posible sintetizar familias de moléculas que tengan secuencias relacionadas y que tengan composiciones nucleotídicas diferentes en posiciones específicas dentro de la secuencia nucleotídica. El término oligonucleótido sintético se usará para referirse a moléculas de ADN que tienen una secuencia nucleotídica diseñada o deseada.

Adaptadores: moléculas de ADN bicatenario cortas con un número limitado de pares de bases, por ejemplo de aproximadamente 10 a aproximadamente 30 pares de bases de longitud, que se diseñan de manera que pueden ligarse a los extremos de fragmentos de restricción. Los adaptadores están compuestos generalmente por dos oligonucleótidos sintéticos que tienen secuencias nucleotídicas que son parcialmente complementarias entre sí. Cuando se mezclan los dos oligonucleótidos sintéticos en disolución en condiciones apropiadas, se hibridan entre sí formando una estructura bicatenaria. Tras la hibridación, un extremo de la molécula de adaptador se diseña de manera que sea compatible con el extremo de un fragmento de restricción y puede ligarse al mismo; el otro extremo del adaptador puede diseñarse de manera que no pueda ligarse, pero esto no es necesario (adaptadores ligados dobles).

Fragmentos de restricción ligados a adaptador: fragmentos de restricción que tienen los extremos ocupados por adaptadores.

Cebadores: en general, el término cebadores se refiere a cadenas de ADN que pueden cebar la síntesis de ADN. La ADN polimerasa no puede sintetizar ADN de novo sin cebadores: sólo puede extender una cadena de ADN existente en una reacción en la que se usa la cadena complementaria como molde para dirigir el orden de los nucleótidos que van a unirse. A las moléculas de oligonucleótido sintético que se usan en una reacción en cadena de la polimerasa (PCR) se las denominará cebadores.

Amplificación de ADN: el término amplificación de ADN se usará normalmente para indicar la síntesis in vitro de moléculas de ADN bicatenario usando PCR. Debe observarse que existen otros métodos de amplificación y pueden usarse en la presente invención sin apartarse de la esencia.

Hibridación selectiva: se refiere a hibridación, en condiciones de hibridación rigurosas, de una secuencia de ácido nucleico con una secuencia diana de ácido nucleico especificado en un grado detectablemente mayor (por ejemplo, al menos 2 veces con respecto al origen) que su hibridación con secuencias de ácido nucleico no diana y la exclusión sustancial de ácidos nucleicos no diana. Los términos “condiciones rigurosas” o “condiciones de hibridación rigurosas” incluyen referencia a condiciones en las que una sonda hibridará con su secuencia diana, en un grado detectablemente mayor que otra secuencia (por ejemplo, al menos 2 veces con respecto al origen). Las condiciones rigurosas dependen de la secuencia y serán diferentes en diferentes circunstancias. Mediante el control de la rigurosidad de las condiciones de hibridación y/o lavado, puede identificarse que las secuencias diana son complementarias en un 100% a la sonda (sondaje homólogo). Alternativamente, las condiciones de rigurosidad pueden ajustarse para permitir cierto apareamiento erróneo en las secuencias de modo que se detecten grados inferiores de similitud (sondaje heterólogo). Generalmente, una sonda tiene una longitud inferior a aproximadamente 100 nucleótidos, opcionalmente una longitud no superior a 50 ó 25 nucleótidos. Normalmente, las condiciones rigurosas serán aquellas en las que la concentración de sal es inferior a aproximadamente 1,5 M de iones Na, normalmente una concentración de aproximadamente 0,01 a 1,0 M de iones Na (u otras sales) a pH de 7,0 a 8,3 y la temperatura es de al menos aproximadamente 30ºC para las sondas cortas (por ejemplo, de 10 a 50 nucleótidos) y de al menos aproximadamente 60ºC para las sondas largas (por ejemplo, mayores de 50 nucleótidos). Las condiciones rigurosas también pueden lograrse con la adición de agentes de desestabilización tales como formamida. Las condiciones de rigurosidad baja a modo de ejemplo incluyen hibridación con una disolución tampón de formamida a del 30 al 35%, NaCl 1 M, SDS (dodecilsulfato sódico) al 1% a 37ºC, y un lavado en SSC de 1x a 2x (SSC 20x = NaCl 3,0 M/citrato de trisodio 0,3 M) a de 50 a 55ºC. Las condiciones de rigurosidad moderada a modo de ejemplo incluyen hibridación en formamida a del 40 al 45%, NaCl 1 M, SDS al 1% a 37ºC, y un lavado en SSC de 0,5x a 1x a de 55 a 60ºC. Las condiciones de rigurosidad alta a modo de ejemplo incluyen hibridación en formamida al 50%, NaCl 1 M, SDS al 1% a 37ºC, y un lavado en SSC 0,1x a de 60 a 65ºC. La especificidad normalmente es función de los lavados tras la hibridación, siendo los factores críticos la fuerza iónica y la temperatura de la disolución de lavado final. Para los híbridos de ADN-ADN, la Tm puede aproximarse a partir de la ecuación de Meinkoth y Wahl, Anal. Biochem., 138:267-284 (1984): Tm=81,5ºC.+16,6 (log M) + 0,41 (% de GC) – 0,61 (% de form.) - 500/L; donde M es la molaridad de cationes monovalentes, % de GC es el porcentaje de nucleótidos de guanosina y citosina en el ADN, % de form. es el porcentaje de formamida en la disolución de hibridación, y L es la longitud del híbrido en pares de bases. La Tm es la temperatura (con fuerza iónica y pH definidos) a la que el 50% de una secuencia diana complementaria hibrida con una sonda perfectamente apareada. La Tm se reduce en aproximadamente 1ºC por cada 1% de apareamientos erróneos; por tanto, pueden ajustarse las condiciones de Tm, hibridación y/o lavado para hibridar con secuencias de la identidad deseada. Por ejemplo, si se buscan secuencias con una identidad >90%, puede disminuirse la Tm 10ºC. Generalmente, se seleccionan condiciones rigurosas para que estén 5ºC por debajo del punto de fusión térmico (Tm) para la secuencia específica y su complemento a una fuerza iónica y un pH definidos. Sin embargo, las condiciones muy rigurosas pueden utilizar una hibridación y/o lavado a 1, 2, 3 ó 4ºC por debajo del punto de fusión térmico (Tm); las condiciones moderadamente rigurosas pueden utilizar una hibridación y/o lavado a 6, 7, 8, 9 ó 10ºC por debajo del punto de fusión térmico (Tm); las condiciones de rigurosidad baja pueden utilizar una hibridación y/o lavado a 11, 12, 13, 14, 15 ó 20ºC por debajo del punto de fusión térmico (Tm). Mediante el uso de la ecuación, las composiciones de hibridación y lavado y la Tm deseada, los expertos habituales entenderán que se describen de forma inherente variaciones en la rigurosidad de las disoluciones de hibridación y/o lavado. Si el grado deseado de apareamientos erróneos da como resultado una Tm inferior a 45ºC (disolución acuosa) o 32ºC (disolución de formamida) se prefiere aumentar la concentración de SSC de modo que pueda usarse una temperatura superior. Se encuentra una guía extensa para la hibridación de ácidos nucleicos en Tijssen, Laboratory Techniques in Biochemistry and Molecular Biology-Hybridisation with Nucleic Acid Probes, parte 1, capítulo 2 “Overview of principles of hybridisation and the strategy of nucleic acid probe assays”, Elsevier, N.Y. (1993); y Current Protocols in Molecular Biology, capítulo 2, Ausubel, et al., Eds., Greene Publishing y Wiley-Interscience, Nueva York (1995).

Descripción detallada de la invención

En un primer aspecto, la presente invención se refiere a un método para el descubrimiento, la detección y el genotipado a gran escala de alto rendimiento de uno o más marcadores genéticos en una o más muestras, que comprende las etapas de:

(a): proporcionar ADN de una o más muestras;

(b): cortar el ADN con al menos una endonucleasa de restricción para producir fragmentos de restricción;

(c): ligar adaptadores a los fragmentos de restricción para producir fragmentos de restricción ligados a adaptador;

(d): amplificar los fragmentos de restricción ligados a adaptador con un par de cebadores que es al menos complementario a los adaptadores para producir fragmentos de restricción ligados a adaptador preamplificados;

(e): amplificar los fragmentos de restricción ligados a adaptador preamplificados con un par de cebadores, en el que al menos uno de los cebadores contiene desde uno hasta 10 nucleótidos selectivos en su extremo 3’, y en el que al menos uno de los cebadores contiene una etiqueta identificadora en el extremo 5’ del cebador para producir una biblioteca de subconjuntos amplificados etiquetados de fragmentos de restricción ligados a adaptador para cada muestra;

(f): opcionalmente, agrupar las bibliotecas derivadas de múltiples muestras;

(g): secuenciar las bibliotecas usando tecnología de secuenciación de alto rendimiento;

(h): agrupar las secuencias por biblioteca, usando la etiqueta identificadora;

(i): identificar marcadores genéticos comparando secuencias agrupadas dentro de una biblioteca y/o entre las bibliotecas;

(j): determinar genotipos (co)dominantes de los marcadores genéticos en una o más bibliotecas, preferiblemente para todas las muestras y para todos los marcadores identificados.

El método se refiere al descubrimiento, la detección y el genotipado de uno o más marcadores genéticos en una o más muestras. En determinadas realizaciones, los métodos se refieren a la puntuación de la presencia/ausencia de los marcadores genéticos de interés. En determinadas realizaciones, el método se refiere a la determinación de genotipos (co)dominantes de una o más muestras para uno o más marcadores genéticos. Esto puede requerir la normalización del número observado de secuencias marcadoras o de alelo marcador entre muestras.

En la primera etapa (a) del método, ha de proporcionarse el ADN. Esto puede realizarse mediante métodos conocidos en la técnica per se. El aislamiento del ADN se logra generalmente usando métodos comunes en la técnica tales como la recogida de tejido de un miembro de la población, la extracción del ADN (por ejemplo usando el kit FastDNA de Q-Biogene), la cuantificación y normalización para obtener cantidades iguales de ADN por muestra. El ADN puede proceder de una variedad de fuentes (genómico, ARN, ADNc, BAc, YAC, etc.) y organismos (ser humano, mamífero, planta, microorganismos, etc.). El ADN aislado puede ponerse en común.

El ADN se corta en la etapa (b) usando al menos una endonucleasa de restricción. Dependiendo del caso, es decir del tamaño del genoma, pueden usarse más endonucleasas. En determinadas realizaciones, pueden usarse 2 o más endonucleasas. Para la mayoría de los genomas, son suficientes 2 endonucleasas y por tanto esto es lo más preferido. En determinadas realizaciones, especialmente para genomas grandes o complejos, pueden usarse más endonucleasas. Preferiblemente, la endonucleasa proporciona fragmentos de restricción relativamente cortos del orden de 250-500 pb, pero esto no es esencial. Normalmente, se prefiere al menos una endonucleasa de corte frecuente, es decir, endonucleasas que tienen una secuencia de reconocimiento de 4 ó 5 pares de bases. Una de tales enzimas es MseI, pero otras muchas están comercialmente disponibles y pueden usarse. También pueden usarse enzimas que cortan fuera de su secuencia de reconocimiento (tipo IIs) o enzimas que proporcionan fragmentos de restricción de extremos romos. Una combinación preferida usa un sitio de reconocimiento poco frecuente (secuencia de reconocimiento de 6 y más pares de bases, por ejemplo EcoRI) y un sitio de reconocimiento frecuente.

Tras el corte de los ADN agrupados, o simultáneamente con ello, se ligan adaptadores a los fragmentos de restricción para proporcionar fragmentos de restricción ligados a adaptador. Pueden usarse uno o más adaptadores diferentes, por ejemplo dos adaptadores, un adaptador directo y uno inverso. Alternativamente, puede usarse un adaptador para todos los fragmentos o pueden usarse conjuntos de adaptadores que en el extremo saliente del adaptador contienen permutaciones de nucleótidos tales como para proporcionar ligadores de indexación que pueden permitir una etapa de preselección (Unrau et al., Gene, 1994, 145, 163-169). Alternativamente, pueden usarse adaptadores de extremos romos, en el caso de fragmentos de restricción de extremos romos. El ligamiento del adaptador se conoce bien en la técnica y se describe entre otros en el documento EP 534858. Una variante útil de la tecnología de AFLP no usa nucleótidos selectivos (es decir, cebadores +0/+0) y en ocasiones se denomina ligador-PCR. Como con Salsa-PCR, la etapa de selección se proporciona mediante el uso de enzimas de restricción, dando las enzimas de restricción diferentes subconjuntos diferentes. Esto se denomina también algunas veces preamplificación en la que se usan cebadores que son al menos complementarios con los adaptadores y opcionalmente también con los restos de la secuencia de reconocimiento de la endonucleasa de restricción. La preamplificación puede servir para normalizar (adicionalmente) la cantidad de ADN de cada muestra, o para aumentar la cantidad total de ADN para permitir un análisis múltiple (es decir, separar muestras) y para potenciar la razón de señal con respecto a ruido. La preamplificación puede usarse también para introducir etiquetas que permiten agrupar antes de la amplificación selectiva. Mediante la introducción de etiquetas de nucleótidos (por ejemplo 4 pb) en el extremo 5’ del cebador, pueden etiquetarse fragmentos de restricción para una muestra distinta y al final del procedimiento pueden retirarse usando la etiqueta.

Los fragmentos de restricción ligados a adaptador, después de la preamplificación opcional, se amplifican en la etapa (d) del método de la invención con un par de cebadores. Uno de los cebadores es complementario a al menos parte del adaptador y puede ser además complementario a parte del resto de la secuencia de reconocimiento de la endonucleasa y puede contener además nucleótidos selectivos (seleccionados al azar) en su extremo 3’, similar a lo que se describe en el documento EP534858. Preferiblemente, los cebadores pueden hibridarse selectivamente en condiciones de hibridación rigurosas. La amplificación selectiva también puede realizarse con cebadores que portan una etiqueta en 5’ para identificar el origen de la muestra, similar a lo anterior. El resultado es una biblioteca de subconjuntos (etiquetados) de fragmentos de restricción ligados a adaptador amplificados.

Los fragmentos amplificados selectivamente en las bibliotecas preparadas a partir de múltiples muestras pueden agruparse opcionalmente en este momento. Esto puede ser útil en el caso de que se busquen marcadores que sean específicos para determinados grupos de muestras, tales como los que comparten determinadas características fenotípicas. La selección de muestras agrupadas se denomina comúnmente análisis de segregantes agrupados (BSA; Michelmore, Paran y Kesseli, 1991). En determinadas realizaciones, el agrupamiento también puede realizarse antes de la extracción de ADN en la etapa de muestreo, reduciendo el número de preparaciones de ADN. El agrupamiento del ADN sirve además para normalizar los ADN antes de la amplificación por PCR para proporcionar una representación más igualitaria en las bibliotecas para la secuenciación.

Las bibliotecas opcionalmente agrupadas de fragmentos de restricción ligados a adaptador amplificados selectivamente se secuencian ahora usando tecnología de secuenciación de alto rendimiento.

La secuenciación puede realizarse en principio mediante cualquier medio conocido en la técnica, tal como el método de terminación de la cadena didesoxi (secuenciación de Sanger). Sin embargo, se prefiere y es más ventajoso que la secuenciación se realice usando métodos de secuenciación de alto rendimiento, tales como los métodos dados a conocer en los documentos WO 03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007 y WO 2005/003375 (todos a nombre de 454 Life Sciences), por Seo et al. (2004) Proc. Natl. Acad. Sci. USA 101:5488-93, y tecnologías de Helios, Solexa, US Genomics. Lo más preferido es que la secuenciación se realice usando el aparato y/o método dado a conocer en los documentos WO 03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007 y WO 2005/003375 (todos a nombre de 454 Life Sciences). La tecnología descrita en el presente documento permite la secuenciación de hasta 40 millones de bases en una única ronda y es 100 veces más rápida y barata que la tecnología de la competencia basada en la secuenciación de Sanger y usando instrumentos de electroforesis capilar disponibles actualmente tales como MegaBACE (GE Healthcare) o ABI3700(x1) (Applied Biosystems). Esto aumentará con la longitud de lectura creciente por reacción y/o números crecientes de reacciones paralelas. La tecnología de secuenciación consiste en líneas generales en 5 etapas: 1) fragmentación del ADN y ligamiento de un adaptador específico para crear una biblioteca de ADN monocatenario (ADNmc); 2) apareamiento de ADNmc a perlas, emulsificación de las perlas en microrreactores de agua en aceite y realización de PCR en emulsión para amplificar las moléculas de ADNmc individuales en las perlas; 3) selección de/enriquecimiento de perlas que contienen moléculas de ADNmc amplificadas en su superficie; 4) deposición de perlas que portan ADN en una placa PicoTiter®; y 5) secuenciación simultánea en 100.000 pocillos mediante generación de una señal luminosa de pirofosfato.

La etapa de secuenciación (g) de la invención comprende las etapas de:

(1): aparear fragmentos ligados a adaptador de secuenciación a perlas, apareándose cada perla con un único fragmento;

(2): emulsionar las perlas en microrreactores de agua en aceite, comprendiendo cada microrreactor de agua en aceite una única perla;

(3): realizar PCR en emulsión para amplificar fragmentos ligados a adaptador en la superficie de las perlas;

(4): seleccionar / enriquecer perlas que contienen fragmentos ligados a adaptador amplificados;

(5): cargar las perlas en pocillos, comprendiendo cada pocillo una única perla; y

(6): generar una señal de pirofosfato.

En la primera etapa (1), se aparean los adaptadores que están presentes en los fragmentos de restricción ligados a adaptador con las perlas. Tal como se explicó resumidamente anteriormente en el presente documento, el adaptador de secuenciación incluye al menos una región “clave” para aparearse a una perla, una región de cebador de secuenciación y una región de cebador de PCR. En particular, los fragmentos de restricción ligados a adaptador amplificados contienen ahora en uno de los extremos la siguiente secuencia 5’-sitio de unión de cebador de secuenciación---etiqueta---secuencia de cebador de PCR-3’, mientras que en el otro extremo está presente un segmento que puede ser tal como sigue: 5’-secuencia de apareamiento con perla---etiqueta---secuencia específica de adaptador---secuencia específica de sitio de restricción (opcional)---secuencia selectiva (al azar) (opcional)-3’. Puede estar claro que el sitio de unión de cebador de secuenciación y la secuencia de apareamiento con perla puede intercambiarse. Esta secuencia de apareamiento con perla puede usarse ahora para aparear los fragmentos a la perla, portando la perla una secuencia de nucleótidos en ese extremo.

Por tanto, se aparean fragmentos adaptados con perlas, apareándose cada perla con un único fragmento adaptado. Al grupo de fragmentos adaptados, se le añaden perlas en exceso para garantizar el apareamiento de un único fragmento adaptado por perla para la mayoría de las perlas (distribución de Poisson).

En una realización preferida, para aumentar la eficacia de la selección adicionalmente, es beneficioso amplificar el producto de PCR direccionalmente sobre la perla para la secuenciación. Esto puede lograrse para realizar la PCR con cebadores de PCR con cola de adaptador de los cuales una hebra del adaptador en el lado de MseI (u otra enzima de restricción) es complementaria al oligonucleótido acoplado a las perlas de secuenciación.

En una etapa posterior, se emulsionan las perlas en microrreactores de agua en aceite, comprendiendo cada microrreactor de agua en aceite una única perla. Están presentes reactivos de PCR en los microrreactores de agua en aceite que permiten que tenga lugar una reacción de PCR dentro de los microrreactores. Posteriormente, se rompen los microrreactores, y se enriquecen las perlas que comprenden ADN (perlas positivas para ADN).

En una siguiente etapa, se cargan las perlas en pocillos, comprendiendo cada pocillo una única perla. Los pocillos son preferiblemente parte de una placa PicoTiter™ que permite la secuenciación simultánea de una gran cantidad de fragmentos.

Tras la adición de perlas que portan enzimas, se determina la secuencia de los fragmentos usando pirosecuenciación. En etapas sucesivas, se someten la placa PicoTiter™ y las perlas así como las perlas de enzimas en la misma a diferentes desoxirribonucleótidos en presencia de reactivos de secuenciación convencionales, y tras la incorporación de un desoxirribonucleótido se genera una señal luminosa que se registra. La incorporación del nucleótido correcto generará una señal de pirosecuenciación que puede detectarse.

Se conoce por sí misma la pirosecuenciación en la técnica y se describe entre otros en www.biotagebio.com; www.pyrosequencing.com/section technology. La tecnología se aplica además en por ejemplo los documentos WO 03/004690, WO 03/054142, WO 2004/069849, WO 2004/070005, WO 2004/070007 y WO 2005/003375 (todos a nombre de 454 Life Sciences).

Tras la secuenciación, las secuencias de los fragmentos que se obtienen directamente de la etapa de secuenciación pueden recortarse, preferiblemente in silico, para eliminar cualquier secuencia de apareamiento con perlas, cebador de secuenciación, adaptador o información de secuencia relacionada con cebadores.

Normalmente, la alineación o agrupamiento se realiza sobre datos de secuencias que se han recortado para cualquier secuencia de adaptador/cebador añadida, es decir, usando sólo los datos de secuencias a partir de los fragmentos que se originan a partir de la muestra de ácido nucleico, junto con la etiqueta identificadora opcional.

Se conocen bien en la técnica métodos de alineación de secuencias para fines de comparación. Se describen diversos programas y algoritmos de alineación en: Smith y Waterman (1981) Adv. Appl. Math. 2:482; Needleman y Wunsch (1970) J. Mol. Biol. 48:443; Pearson y Lipman (1988) Proc. Natl. Acad. Sci. USA 85:2444; Higgins y Sharp (1988) Gene 73:237-244; Higgins y Sharp (1989) CABIOS 5:151-153; Corpet et al. (1988) Nucl. Acids Res. 16:10881-90; Huang et al. (1992) Computer Appl. In the Biosci. 8:155-65; y Pearson et al. (1994) Meth. Mol. Biol. 24:307-31. Altschul et al. (1994) Nature Genet. 6:119-29 (incorporado en el presente documento como referencia) presentan una consideración detallada de métodos de alineación de secuencias y cálculos de homología.

La herramienta de búsqueda de alineación local básica del NCBI (“NCBI Basic Local Alignment Search Tool”) (BLAST) (Altschul et al., 1990) está disponible de varias fuentes, incluyendo el National Center for Biological Information (NCBI, Bethesda, Md.) y en Internet, para su uso conjuntamente con los programas de análisis de secuencias blastp, blastn, blastx, tblastn y tblastx. Puede accederse a la misma en <http://www.ncbi. nlm.nih.gov/BLAST/>. Está disponible una descripción de cómo determinar la identidad de secuencia usando este programa en <http: //www.ncbi.nlm.nih.gov/BLAST/blasthelp.html>. La base de datos comprende preferiblemente secuencias de EST, secuencias genómicas de la especie de interés y/o la base de datos de secuencias no redundante de GenBank o bases de datos de secuencias similares.

Pueden usarse métodos de secuenciación de alto rendimiento tal como se describe en Shendure et al. Science, vol. 309, tema 5741, 1728-1732. Ejemplos de los mismos son secuenciación microelectroforética, secuenciación por hibridación/secuenciación mediante hibridación (SBH), secuenciación de alineamiento cíclico sobre moléculas amplificadas, secuenciación de alineamiento cíclico sobre moléculas únicas, métodos no cíclicos, de molécula única, en tiempo real, tales como secuenciación con polimerasa, secuenciación con exonucleasa, secuenciación con nanoporos.

Dentro de la biblioteca, puede determinarse ahora la presencia de un marcador genético y/o el genotipo de la muestra para un marcador genético.

El método de la presente invención puede usarse para la identificación, detección de marcadores de AFLP de determinación del genotipo, pero también para la identificación, la detección y el genotipado de marcadores de SNP contenidos en bandas constantes.

Para proporcionar una solución al problema de la variación de muestreo que afecta a la precisión de los marcadores genéticos de genotipado mediante la secuenciación de fragmentos alélicos (marcadores) contenidos en una biblioteca de múltiples fragmentos, los presentes inventores han encontrado también que la detección de marcadores de AFLP mediante secuenciación se realiza preferiblemente con suficiente redundancia (profundidad) para muestrear todos los fragmentos amplificados al menos una vez y acompañada por medios estadísticos que abordan el problema de la variación de muestreo en relación con la precisión de los genotipos determinados. Además, como con la puntuación de AFLP, en el contexto de una población de segregación, la puntuación simultánea de los individuos originales en un experimento ayudará en la determinación del umbral estadístico, porque todos los posibles alelos en la muestra se puntuarán en o bien original 1 o bien original 2. Obsérvese que se sugiere muestrear individuos originales con redundancia superior que individuos de poblaciones de segregación.

Por tanto, en determinadas realizaciones, la redundancia de los fragmentos de restricción ligados a adaptador amplificados etiquetados es de al menos 6, preferiblemente al menos 7, más preferiblemente al menos 8 y lo más preferiblemente al menos 9. En determinadas realizaciones, la secuencia de cada fragmento de restricción ligado a adaptador se determina al menos 6, preferiblemente al menos 7, más preferiblemente al menos 8 y lo más preferiblemente al menos 9 veces. En determinadas realizaciones, la redundancia se selecciona de manera que, suponiendo una probabilidad global 50/50 de identificación del locus correctamente como homocigoto, la probabilidad de identificación correcta del locus es de más del 95%, 96%, 97%, 98%, 99%, 99,5%.

En determinadas realizaciones, el número de muestras puede variarse entre 1 y 100.000, esto depende en gran medida del tamaño del genoma que va a analizarse y del número de fragmentos amplificados selectivamente. De manera habitual, la capacidad de la tecnología de secuenciación empleada proporciona el factor más limitante en este sentido.

Breve descripción de los dibujos

La figura 1A muestra un fragmento según la presente invención apareado sobre una perla (“perla 454”) y la secuencia de cebador usado para la amplificación previa de las dos líneas de pimiento. “Fragmento de ADN” indica el fragmento obtenido tras la digestión con una endonucleasa de restricción, “adaptador de Keygene” indica un adaptador que proporciona un sitio de apareamiento para los cebadores oligonucleotídicos (fosforilados) usados para generar una biblioteca, “KRS” indica una secuencia identificadora (etiqueta), “adaptador de SEQ. de 454” indica un adaptador de secuenciación y “adaptador de PCR de 454” indica un adaptador para permitir la amplificación en emulsión del fragmento de ADN. El adaptador de PCR permite el apareamiento de la perla y la amplificación y puede contener una proyección 3’-T.

La figura 1B muestra un cebador esquemático usado en la etapa de reducción de la complejidad. Un cebador de este tipo comprende generalmente una región de sitio de reconocimiento indicada como (2), una región constante que puede incluir una sección de etiqueta indicada como (1) y uno o más nucleótidos selectivos en una región selectiva indicada como (3) en el extremo 3’ del mismo).

La figura 2 muestra una estimación de la concentración de ADN usando electroforesis en gel de agarosa al 2%. S1 indica PSP11; S2 indica PI201234. 50, 100, 250 y 500 ng indican respectivamente 50 ng, 100 ng, 250 ng y 500 ng para estimar las cantidades de ADN de S1 y S2. Las figuras 2C y 2D muestran la determinación de la concentración de ADN usando espectrofotometría Nanodrop.

La figura 3 muestra los resultados de evaluaciones de la calidad intermedias del ejemplo 3.

La figura 4 muestra diagramas de flujo del sistema de procesamiento de datos de secuencia, es decir, las etapas tomadas desde la generación de los datos de secuenciación hasta la identificación de los supuestos SNP, SSR e indels, mediante las etapas de la eliminación de información de secuencias conocidas en el recorte y etiquetado que dan como resultado datos de secuencias recortadas que se agrupan y ensamblan para producir cóntigos y singletons (fragmentos que no pueden ensamblarse en un cóntigo) tras lo cual pueden identificarse y evaluarse supuestos polimorfismos. La figura 4B explica en mayor detalle el proceso de prospección de polimorfismos.

Figura 5: Alineación múltiple “10037 C1a989contig2” de secuencias de fragmentos AFLP de pimiento, que contienen un supuesto polimorfismo de nucleótido único (SNP). Obsérvese que el SNP (indicado mediante la flecha negra) está definido por un alelo A presente en ambas lecturas de la muestra 1 (PSP11), indicado por la presencia de la etiqueta MS1 en el nombre de las dos lecturas superiores, y un alelo G presente en la muestra 2 (PI201234), indicado por la presencia de la etiqueta MS2 en el nombre de las dos lecturas inferiores. Los nombres de las lecturas se muestran a la izquierda. La secuencia consenso de esta alineación múltiple es (5’- 3’):

Figura 6: Representación gráfica de la probabilidad de clasificación correcta del genotipo basándose en el número de lecturas observadas por locus.

Ejemplos

El método se muestra a modo de ejemplo tal como sigue:

1) Se preparan moldes de AFLP según un protocolo modificado de Vos et al. que implica una etapa de desnaturalización con calor durante 20 min. a 80ºC entre las etapas de restricción y ligamiento. Tras la incubación durante 20 min. a 80ºC, se enfría el digesto de enzimas de restricción hasta temperatura ambiente y se añade ADN ligasa. La etapa de desnaturalización conduce a disociación de las hebras complementarias de fragmentos de restricción hasta 120 pb de manera que no se ligarán adaptadores a los extremos. Como resultado, no se amplificarán fragmentos menores de 120 pb, se logra por tanto una selección por tamaño.

2) Se realizan reacciones de preamplificación, si es aplicable, como en AFLP convencional.

3) La última etapa de amplificación (selectiva) se realiza usando cebadores de AFLP con etiquetas identificadoras únicas para cada muestra en la población/experimento (usando una secuencia identificadora de 4 pb única; KIS). Las KIS están ubicadas en el extremo 5’ de los cebadores de AFLP selectivos. Se usará un nucleótido selectivo adicional en comparación con el número de bases selectivas usadas en la detección de AFLP convencional mediante electroforesis, por ejemplo +4/+3 para una huella de EcoRI/MseI en pimiento (detección en gel +3/+3) y +4/+4 para una huella de EcoRI/MseI en maíz (detección en gel +4/+3). Es necesario determinar empíricamente el número de nucleótidos selectivos que se aplican; puede ser que pueda aplicarse el mismo número de nucleótidos selectivos que se usa para la detección en gel. Este número depende adicionalmente del número de muestras incluidas en el experimento, puesto que los números de trazas de secuencias se supone que está fijado en 200.000 en el estado actual de la tecnología de secuenciación, aunque esto puede aumentar y probablemente lo hará. El punto de partida preferido es lograr un muestreo de 10 veces de fragmentos de AFLP por biblioteca de muestra.

4) Se somete la colección de muestras preparadas según las etapas 1-4 a secuenciación mediante la tecnología de 454 Life Sciences. Esto significa que se clonan fragmentos de AFLP individuales en perlas, se amplifican por PCR y se secuencian. Se espera un resultado de 200.000 secuencias de 100 pb de longitud. Para una colección de 100 muestras, esto es igual a un promedio de 2000 trazas de secuencias/muestra, trazables al n.º de muestra mediante la etiqueta en 5’.

5) Suponiendo la amplificación de 100 fragmentos de AFLP por PC cuando se usa un 1 nucleótido selectivo adicional en comparación con el número usado con la detección en gel, de los que el 90 por ciento son bandas constantes, se muestrean los fragmentos de AFLP con una redundancia promedio de 20 veces por fragmento. Sin embargo, puesto que la secuenciación es no direccional y la mayoría de las bandas tienen > 200 pb, la redundancia de secuenciación estará ligeramente por encima de 10 veces para cada extremo de fragmento.

6) Todas las secuencias se agrupan por muestra usando la etiqueta KRS. Dado un sobremuestreo de 10 veces, esto significa que se esperan 200 trazas de secuencias diferentes por muestra, que representan 200 x 100 pb = 20 kb de secuencia/muestra. Cuando el 10 por ciento de estas secuencias se derivan de marcadores de AFLP (es decir, 1 alelo se amplifica y el otro está ausente en la reacción de PCR), el 90 por ciento (18 kb) de las secuencias se derivan de bandas constantes.

7) Se puntúan dos tipos de marcadores genéticos:

A) Marcadores de AFLP: éstos son secuencias que se observan en algunas muestras, pero están ausentes en otras. La inspección de la frecuencia de secuencias en la colección de muestras revelará esta categoría. Se realiza la puntuación dominante dependiendo de la observación de presencia/ausencia de estas secuencias en cada muestra. La puntuación fiable de marcadores de AFLP requiere que se fije un umbral estadístico referente a la frecuencia con la que se observan otras secuencias de AFLP en el experimento. Es decir, un marcador de AFLP puede puntuarse como presente (dominante) si la secuencia de marcador de AFLP se observa en la muestra, pero la fiabilidad de la puntuación ausente depende de la frecuencia (promedio) de fragmentos de AFLP (constantes). Se requieren niveles de umbral estadístico de manera que la puntuación de presencia/ausencia se realice con preferiblemente al menos una precisión del 99,5%, dependiendo del nivel aceptable necesario para la aplicación específica. Si se analiza una población segregante y sus progenitores, estos marcadores pueden puntuarse posiblemente de manera codominante así como definiendo categorías de frecuencia de las secuencias marcadoras. Esto último puede ser realmente complicado por la influencia de la variación de muestreo del marcador de AFLP que difiere entre muestras.

B) Polimorfismos (SN) en fragmentos de AFLP constantes.

Ésta es la categoría más interesante (y abundante) de marcadores genéticos. La esencia es que los

5 marcadores de SNP contenidos en las secuencias internas de fragmentos de AFLP constantes se puntúan como marcadores de SNP codominantes. De nuevo, esto requiere preferiblemente aplicar un nivel de umbral estadístico para una detección precisa de la presencia o ausencia de un alelo. Se espera que una redundancia de secuenciación de 10 veces de la biblioteca de fragmentos sea suficiente, aunque es necesario un método de análisis estadístico para determinar la precisión de los genotipos de

10 marcadores de SNP dependiendo del número de cada secuencia de alelo que se observa. El fundamento es que cuando una banda constante contiene un SNP y se observa un alelo por ejemplo 5 veces mientras que (la secuencia que contiene el) otro alelo no se observa, es altamente probable que la muestra sea homocigota para el alelo observado. En consecuencia, cuando se observan ambos alelos, la muestra se puntúa como heterocigota para el marcador de SNP independientemente de sus frecuencias.

15 8) El resultado será una tabla de genotipado que contiene los genotipos de marcadores de AFLP puntuados de manera (co)dominante y SNP puntuados de manera codominante, junto con probabilidades para la exactitud de los genotipos para todos los marcadores. Alternativamente, se genera un conjunto de datos que contiene genotipos que han superado el nivel de umbral estadístico del conjunto.

20 El enfoque supone un sobremuestreo de 10 veces de fragmentos de AFLP por muestra, produciendo 18 kb de secuencia constante/muestra y 2 kb de secuencias marcadoras de AFLP.

Los números de marcadores genéticos observados dependen de la tasa de SNP en el germoplasma investigado. A

25 continuación, se proporcionan estimaciones de los números de marcadores genéticos a diferentes tasas de SNP de germoplasma, cuando se muestrean 20 kb de secuencia. La longitud promedio de marcadores/fragmentos de AFLP se supone que es de 200 pb:

Tabla 1. Números esperados de marcadores genéticos puntuados mediante secuenciación de fragmentos de AFLP 30 usando la tecnología de 454 Life sciences suponiendo un sobremuestreo de 10 veces, trazas de 200.000 secuencias, 90 por ciento de bandas constantes / 10 por ciento de marcadores de AFLP a diversas tasas de SNP

Tasa de SNP: Marcadores de AFLP (2 kb) SNP en bandas constantes (18 kb) *

1/ 250 pb: 8 72

1/ 1000 pb: 2 18

1/ 2000 pb: 1 9

1/ 5000 pb: 0,4 3,6

* Como los fragmentos de AFLP pueden secuenciarse a partir de ambos extremos, una proporción de los SNP observados puede derivarse de los mismos locus.

Es importante observar que los números proporcionados en la tabla 1 son promedios, que pueden diferir entre

35 combinaciones de diferentes cebadores. De manera análoga a la tipificación de AFLP convencional, la identificación de combinaciones de cebadores (“primer combinations”, PC) de primera calidad puede producir números superiores de marcadores por PC. Además, los números presentados en la tabla 1 pueden cambiar dependiendo del nivel requerido de sobremuestreo necesario con el fin de alcanzar el nivel de precisión requerido.

40 El cálculo de la clasificación correcta del genotipo es tal como sigue:

P (correcto) = P(aa) + P(AA) + P(Aa) * [1-0,5*exp(n-1))]

en el que P(aa) es la fracción de la población con genotipo aa (en el gráfico adjunto, figura 9, fijado a 0,25). P(AA) es 45 la fracción de la población con genotipo AA (fijado a 0,25). P(Aa) es la fracción de la población con genotipo Aa (en la figura 6 y tabla a continuación, fijado a 0,5. n es igual al número de individuos.

Tabla

n P

1 0,5 2 0,75 3 0,875 4 0,9375 5 0,96875 6 0,984375 7 0,992188 8 0,996094 9 0,998047 10 0,999023

Ejemplo 1 PIMIENTO

Se usó ADN de las líneas de pimiento PSP-11 y PI201234 para generar producto de AFLP mediante el uso de

5 cebadores específicos de sitios de reconocimiento Keygene de AFLP. (Estos cebadores de AFLP son esencialmente iguales que los cebadores de AFLP convencionales, por ejemplo descritos en el documento EP 0 534 858, y contendrán generalmente una región de sitio de reconocimiento, una región constante y uno o más nucleótidos selectivos en una región selectiva).

10 A partir de las líneas de pepino PSP-11 o PI201234, se digirieron 150 ng de ADN con las endonucleasas de restricción EcoRI (5U/reacción) y MseI (2U/reacción) durante 1 hora a 37ºC seguido por inactivación durante 10 minutos a 80ºC. Se ligaron los fragmentos de restricción obtenidos con adaptador oligonucleotídico sintético bicatenario, un extremo del cual es compatible con uno o ambos de los extremos de los fragmentos de restricción de EcoRI y/o MseI. Se diluyó 10 veces la mezcla de ligamiento por restricción y se preamplificaron 5 microlitros de cada

15 muestra (2) con cebadores de EcoRI +1(A) y MseI+1(C) (conjunto I). Tras la amplificación, se comprobó la calidad del producto de preamplificación de las dos muestras de pimiento en un gel de agarosa al 1%. Se diluyeron 20 veces los productos de preamplificación, seguido por una preamplificación de KRSEcoRI +1(A) y KRSMseI +2(CA) AFLP. Las secciones de KRS (identificador) están subrayadas y los nucleótidos selectivos están en negrita en el extremo 3’ en la secuencia de cebador SEQ ID 1-4 a continuación. Tras la amplificación, se comprobó la calidad del producto

20 de preamplificación de las dos muestras de pimiento en un gel de agarosa al 1% y mediante la huella de EcoRI +3(A) y MseI +3(C) (3) AFLP (4). Se purificaron por separado los productos de preamplificación de las dos líneas de pimiento en una columna de QuiagenPCR (5). Se midió la concentración de las muestras en un espectrofotómetro NanoDrop® ND-1000. Se mezclaron y secuenciaron un total de 5 microgramos de productos de PCR de PSP-11 y 5 microgramos de productos de PCR de PI201234.

25 Conjunto I de cebadores usados para la preamplificación de PSP-11

E01LKRS1 5’-CGTCAGACTGCGTACCAATTCA-3’ [SEQ ID 1]

30 M15KKRS1 5’-TGGTGATGAGTCCTGAGTAACA-3’ [SEQ ID 2]

Conjunto II de cebadores usados para la preamplificación de PI201234

E01LKRS2 5’-CAAGAGACTGCGTACCAATTCA-3’ [SEQ ID 3]

35 M15KKRS2 5’-AGCCGATGAGTCCTGAGTAACA-3’ [SEQ ID 4]

(1) Mezcla de ligamiento por restricción con EcoRI/MseI

40 Mezcla de restricción (40 ul/muestra)

ADN 6 ul (±300 ng) ECoRI (5 U) 0,1 ul MseI (2 U) 0,05 ul

5xRL 8 ul MQ 25,85 ul Total 40 ul

Incubación durante 1 h a 37ºC.

45 Adición de: Mezcla de ligamiento (10 ul/muestra)

ATP 10 mM 1 ul ADN ligasa de T4 1 ul

Adapt. ECoRI (5 pmol/ul) 1 ul Adapt. MseI (50 pmol/ul) 1 ul 5xRL 2 ul MQ 4 ul Total 10 ul

Incubación durante 3 h a 37ºC.

Adaptador de EcoRI

5 91M35/91M36: *-CTCGTAGACTGCGTACC :91M35 [SEQ ID 5] ± bio CATCTGACGCATGGTTAA :91M36 [SEQ ID 6]

Adaptador de MseI

92A18/92A19: 5-GACGATGAGTCCTGAG-3 :92A18 [SEQ ID 7] 3-TACTCAGGACTCAT-5 :92A19 [SEQ ID 8]

10 (2) Preamplificación

Preamplificación (A/C):

Mezcla de RL (10x) 5 ul

EcoRI-pr E01L(50 ng/ul) 0,6 ul MseI-pr M02K(50 ng/ul) 0,6 ul dNTP (25 mM) 0,16 ul Taq.pol. (5 U) 0,08 ul

10XPCR 2,0 ul MQ 11,56 ul Total 20 ul/reacción

15 Perfil térmico de la preamplificación

Se realizó la preamplificación selectiva en un volumen de reacción de 50 ul. Se realizó la PCR en un instrumento PE GeneAmp PCR System 9700 y se inició un perfil de 20 ciclos con una etapa de desnaturalización de 94ºC durante 30 segundos, seguido por una etapa de apareamiento de 56ºC durante 60 segundos y una etapa de extensión de

20 72ºC durante 60 segundos.

EcoRI +1(A)1

E01 L 92R11: 5-AGACTGCGTACCAATTCA-3 [SEQ ID 9] MseI +1(C)1

25 M02k 93E42: 5-GATGAGTCCTGAGTAAC-3 [SEQ ID 10]

Preamplificación A/CA:

Mezcla de PA+1/+1 (20x) :5 ul EcoRI-pr :1,5 ul MseI-pr; :1,5 ul dNTP (25mM) :0,4 ul Taq.pol. (5 U) :0,2 ul

10XPCR :5 ul MQ :36,3 ul Total :50 ul

30 Se realizó la preamplificación selectiva en un volumen de reacción de 50 ul. Se realizó la PCR en un instrumento PE GeneAmp PCR System 9700 y se inició un perfil de 30 ciclos con una etapa de desnaturalización de 94ºC durante 30 segundos, seguido por una etapa de apareamiento de 56ºC durante 60 segundos y una etapa de extensión de 72ºC durante 60 segundos.

(3) KRSEcoRI +1 (A) y KRSMseI +2(CA)2

05F212 E01LKRS1 CGTCAGACTGCGTACCAATTCA -3’ [SEQ ID 11] 05F213 E01LKRS2 CAAGAGACTGCGTACCAATTCA -3’ [SEQ ID 12] 05F214 M15KKRS1 TGGTGATGAGTCCTGAGTAACA -3’ [SEQ ID 13] 05F215 M15KKRS2 AGCCGATGAGTCCTGAGTAACA -3’ [SEQ ID 14]

nucleótidos selectivos en negrita y etiquetas (KRS) subrayadas

Muestra PSP11: E01LKRS1/M15KKRS1

Muestra PI120234: E01LKRS2/M15KKRS2

(4) Protocolo de AFLP

Se realizó la amplificación selectiva en un volumen de reacción de 20 ul. Se realizó la PCR en un instrumento PE GeneAmp PCR System 9700. Se inició un perfil de 13 ciclos con una etapa de desnaturalización de 94ºC durante 30 segundos, seguido por una etapa de apareamiento de 65ºC durante 30 segundos, con una fase de descenso en la que la temperatura de apareamiento se redujo 0,7ºC en cada ciclo, y una etapa de extensión de 72ºC durante 60 segundos. A este perfil le siguió un perfil de 23 ciclos con una etapa de desnaturalización de 94ºC durante 30 segundos, seguido por una etapa de apareamiento de 56ºC durante 30 segundos y una etapa de extensión de 72ºC durante 60 segundos.

EcoRI +3(AAC) y MseI +3(CAG)

E32 92S02: 5-GACTGCGTACCAATTCAAC-3 [SEQ ID 15]

M49 92G23: 5-GATGAGTCCTGAGTAACAG-3 [SEQ ID 16]

(5) Columna Qiagen

Se purificó el producto de AFLP usando el kit de purificación de PCR QIAquick (QIAGEN) siguiendo el manual QIAquick® Spin 07/2002 página 18 y se midió la concentración con un espectrofotómetro NanoDrop® ND-1000. Se reunió un total de 5 ug de producto de AFLP +1/+2 PSP-11 y 5 ug de producto de AFLP +1/+2 PI201234 y se solubilizó en 23,3 ul de TE. Finalmente, se obtuvo una mezcla con una concentración de producto de AFLP +1/+2 de 430 ng/ul.

Preparación de la biblioteca de secuencias y secuenciación de alto rendimiento

Se sometieron productos de amplificación mezclados de ambas líneas de pimiento a secuenciación de alto rendimiento usando la tecnología de secuenciación de 454 Life Sciences tal como se describe por Margulies et al., (Margulies et al., Nature 437, págs. 376-380 y suplementos en Internet). Específicamente, en primer lugar se pulieron los extremos de los productos de PCR de AFLP y posteriormente se ligaron a adaptadores para facilitar la amplificación por PCR en emulsión y la secuenciación de fragmentos posterior tal como se describe por Margulies y colaboradores. Las secuencias de adaptadores de 454, los cebadores de PCR en emulsión, la secuencia-cebadores y las condiciones de rondas de secuenciación se describen todos por Margulies y colaboradores. El orden lineal de elementos funcionales en un fragmento de PCR en emulsión amplificado en perlas de Sepharose en el procedimiento de secuenciación de 454 fue tal como sigue tal como se muestra a modo de ejemplo en la figura 1A:

Adaptador de PCR de 454 – adaptador de secuencia de 454 – etiqueta 1 de cebador de AFLP de 4 pb – secuencia 1 de cebador de AFLP incluyendo nucleótido(s) selectivo(s) – secuencia interna de fragmento de AFLP – secuencia 2 de cebador de AFLP incluyendo nucleótido(s) selectivo(s), etiqueta 2 de cebadores de AFLP de 4 pb – adaptador de secuencia de 454 – adaptador de PCR de 454 – perla de Sepharose

Se realizaron dos rondas de secuenciación de 454 de alto rendimiento por 454 Life Sciences (Branford, CT; Estados Unidos de América).

Procesamiento de datos de secuenciación de 454.

Se procesaron datos de secuencias que resultan de una ronda de secuenciación de 454 usando un sistema bioinformático (Keygene N.V.). Específicamente, se convirtieron lecturas de secuencias con lectura automática de bases 454 sin procesar en formato FASTA y se inspeccionaron para determinar la presencia de secuencias de adaptadores de AFLP etiquetados usando un algoritmo BLAST. Con coincidencias de alta confianza con las secuencias de cebadores de AFLP etiquetados conocidos, se recortaron las secuencias, se restauraron los sitios de endonucleasas de restricción y se asignaron las etiquetas apropiadas (muestra 1 EcoRI (ES1), muestra 1 MseI (MS1), muestra 2 EcoRI (ES2) o muestra 2 MseI (MQ2), respectivamente). A continuación, se agruparon todas las secuencias recortadas mayores de 33 bases usando un procedimiento megaBLAST basándose en homologías de secuencia global. A continuación, se ensamblaron agrupaciones en uno o más cóntigos y/o singletons por

5 agrupación, usando un algoritmo de alineación múltiple CAP3. Se inspeccionaron cóntigos que contenían más de una secuencia para detectar los apareamientos erróneos de secuencias, que representan supuestos polimorfismos. Se asignaron a los apareamientos erróneos de secuencias puntuaciones de calidad basándose en los siguientes criterios:

10 * los números de lecturas en un cóntigo

* la distribución de alelos observada

Los dos criterios anteriores forman la base para la denominada puntuación Q asignada a cada supuesto SNP/indel. Las puntuaciones Q oscilan entre 0 y 1; una puntuación Q de 0,3 sólo puede alcanzarse en el caso de que ambos

15 alelos se observen al menos dos veces.

* ubicación en homopolímeros de una determinada longitud (ajustable; parámetro por defecto para evitar polimorfismos ubicados en homopolímeros de 3 bases o mayores).

20 * número de cóntigos en la agrupación.

* distancia hasta los apareamientos erróneos de secuencias vecinas más cercanos (ajustable; importante para determinados tipos de ensayos de genotipado que estudian con sonda secuencias flanqueantes).

25 * el nivel de asociación de alelos observados con la muestra 1 o la muestra 2; en el caso de una asociación perfecta, constante entre los alelos de un supuesto polimorfismo y las muestras 1 y 2, el polimorfismo (SNP) se indica como un supuesto polimorfismo (SNP) de “élite”. Se cree que un polimorfismo de élite tiene una alta probabilidad de estar ubicado en una secuencia del genoma de copia única o con bajo número de copias en el caso de que se hayan usado dos líneas homocigotas en el procedimiento de descubrimiento. A la inversa,

30 una asociación débil de un polimorfismo con un origen de muestra conlleva un alto riesgo de haber descubierto polimorfismos falsos que surgen de la alineación de secuencias no alélicas en un cóntigo.

Se identificaron secuencias que contienen motivos SSR usando la herramienta de búsqueda MISA (herramienta de identificación de MIcroSatélites; disponible de http://pgrc.ipk-gatersleben.de/misa/. Se muestra la estadística global 35 de la ronda en la tabla a continuación.

Tabla. Estadística global de una ronda de secuenciación de 454 para el descubrimiento de SNP en pimiento Sin polimorfismos vecinos con puntuación Q mayor de 0,1 dentro de 12 bases en cualquier lado, no presentes en homopolímeros de 3 o más bases. Los criterios de prospección no tuvieron en cuenta la asociación constante con la muestra 1 y 2, es decir, los SNP e indels no son necesariamente supuestos SNP/indels de élite.

Combinación de enzimas: Ronda

Recorte

Todas las lecturas: 254308

Erróneas: 5293 (2%)

Correctas: 249015 (98%)

Concatámeros: 2156 (8,5%)

Etiquetas mixtas: 1120 (0,4%)

Lecturas correctas

Recortado un extremo: 240817 (97%)

Recortados ambos extremos: 8198 (3%)

Número de lecturas de la muestra 1: 136990 (55%)

Número de lecturas de la muestra 2: 112025 (45%)

Agrupamiento

Número de cóntigos: 21918

Lecturas en cóntigos: 190861

Número promedio de lecturas por cóntigo: 8,7

Prospección de SNP

SNP con puntuación Q � 0,3 *: 1483

Indel con puntuación Q � 0,3 *: 3300

Prospección de SSR

Número total de motivos SSR identificados: 359

Número de lecturas que contienen uno o más motivos SSR: 353

Número de motivos SSR con tamaño unitario 1 (homopolímero): 0

Número de motivos SSR con tamaño unitario 2: 102

Número de motivos SSR con tamaño unitario 3: 240

Número de motivos SSR con tamaño unitario 4: 17

* Los criterios de prospección de SNP / indels fueron los siguientes:

5 En la figura 5 se muestra un ejemplo de una alineación múltiple que contiene un supuesto y único polimorfismo de nucleótidos de élite.

Ejemplo 2: Maíz

10 Se usó ADN de las líneas de maíz B73 y M017 para generar producto de AFLP mediante el uso de cebadores específicos de sitios de reconocimiento Keygene de AFLP. (Estos cebadores de AFLP son esencialmente iguales a cebadores de AFLP convencionales, por ejemplo descritos en el documento EP 0 534 858, y contendrán generalmente una región de sitio de reconocimiento, una región constante y uno o más nucleótidos selectivos en el

15 extremo 3’ de los mismos).

Se digirió ADN las líneas de pimiento B73 o M017 con las endonucleasas de restricción TaqI (5 U/reacción) durante 1 hora a 65ºC y MseI (2 U/reacción) durante 1 hora a 37ºC seguido por inactivación durante 10 minutos a 80ºC. Se ligaron los fragmentos de restricción obtenidos con adaptador oligonucleotídico sintético bicatenario, un extremo del

20 cual es compatible con uno o ambos de los extremos de los fragmentos de restricción de TaqI y/o MseI.

Se realizaron reacciones de preamplificación de AFLP (20 ul/reacción) con cebadores de AFLP +1/+1 sobre una mezcla de ligamiento por restricción diluida 10 veces. Perfil de PCR: 20*(30 s a 94ºC + 60 s a 56ºC + 120 s a 72ºC). Se realizaron reacciones de AFLP adicionales (50 ul/reacción) con diferentes cebadores de sitios de reconocimiento 25 Keygene de AFLP +2 TaqI y MseI (tabla a continuación, las etiquetas están en negrita, los nucleótidos selectivos están subrayados) sobre un producto de preamplificación de AFLP +1/+1 TaqI/MseI diluido 20 veces. Perfil de PCR: 30*(30 s a 94ºC + 60 s a 56ºC + 120 s a 72ºC). Se purificó el producto de AFLP usando el kit de purificación de PCR QIAquick (QIAGEN) siguiendo el manual de QIAquick® Spin 07/2002 página 18 y se midió la concentración con un espectrofotómetro NanoDrop® ND-1000. Se reunió un total de 1,25 ug de cada producto de AFLP B73 +2/+2

30 diferente y 1,25 ug de cada producto de AFLP M017 +2/+2 diferente y se solubilizó en 30 ul de TE. Finalmente, se obtuvo una mezcla con una concentración de producto de AFLP +2/+2 de 333 ng/ul.

Tabla

SEQ ID: Cebador de PCR Secuencia de cebador Maíz Reacción de AFLP

[SEQ ID 17]: 05G360 ACGTGTAGACTGCGTACCGAAA B73 1

[SEQ ID 18]: 05G368 ACGTGATGAGTCCTGAGTAACA B73 1

[SEQ ID 19]: 05G362 CGTAGTAGACTGCGTACCGAAC B73 2

[SEQ ID 20]: 05G370 CGTAGATGAGTCCTGAGTAACA B73 2

[SEQ ID 21]: 05G364 GTACGTAGACTGCGTACCGAAG B73 3

[SEQ ID 22]: 05G372 GTACGATGAGTCCTGAGTAACA B73 3

[SEQ ID 23]: 05G366 TACGGTAGACTGCGTACCGAAT B73 4

[SEQ ID 24]: 05G374 TACGGATGAGTCCTGAGTAACA B73 4

[SEQ ID.25]: 05G361 AGTCGTAGACTGCGTACCGAAA M017 5

[SEQ ID 26]: 05G369 AGTCGATGAGTCCTGAGTAACA M017 5

[SEQ ID 27]: 05G363 CATGGTAGACTGCGTACCGAAC M017 6

[SEQ ID 28]: 05G371 CATGGATGAGTCCTGAGTAACA M017 6

[SEQ ID 29]: 05G365 GAGCGTAGACTGCGTACCGAAG M017 7

[SEQ ID 30]: 05G373 GAGCGATGAGTCCTGAGTAACA M017 7

[SEQ ID 31]: 05G367 TGATGTAGACTGCGTACCGAAT M017 8

[SEQ ID 32]: 05G375 TGATGATGAGTCCTGAGTAACA M017 8

Finalmente, se agruparon las 4 muestras P1 y las 4 muestras P2 y se concentraron. Se obtuvo una cantidad total de 25 ul de producto de ADN y una concentración final de 400 ng/ul (total de 10 ug). Se proporcionan evaluaciones de la calidad intermedias en la figura 3.

SECUENCIACIÓN POR 454

Se procesaron muestras de fragmentos de AFLP de pimiento y maíz preparadas tal como se describió anteriormente por 454 Life Sciences tal como se describe (Margulies et al., 2005. Genome sequencing in microfabricated high10 density picolitre reactors. Nature 437 (7057):376-80. Epub 31 de julio de 2005).

PROCESAMIENTO DE DATOS

Sistema de procesamiento: Datos de entrada:

Se recibieron datos de secuencias sin procesar para cada ronda:

20 - 200.000 – 400.000 lecturas

-: puntuaciones de calidad de la lectura automática de bases

Recorte y etiquetado

25 Se analizaron estos datos de secuencias para detectar la presencia de sitios de reconocimiento Keygene (KRS) al comienzo y al final de la lectura. Estas secuencias de KRS consisten tanto en una secuencia de adaptador de AFLP como en una secuencia de marcador de muestra y son específicas para una determinada combinación de cebadores de AFLP en una determinada muestra. Las secuencias de KRS se identifican mediante BLAST y se

30 recortan y se restauran los sitios de restricción. Las lecturas se marcan con una etiqueta para la identificación del origen del KRS. Se seleccionan secuencias recortadas según su longitud (mínimo de 33 nt) para que participen en el procesamiento adicional.

Agrupación y ensamblaje

35 Se realiza un análisis MegaBlast sobre todas las lecturas recortadas, seleccionadas por tamaño para obtener agrupaciones de secuencias homólogas. Consecutivamente, se ensamblan todas las agrupaciones con CAP3 para dar como resultado cóntigos ensamblados. A partir de ambas etapas, se identifican lecturas de secuencias únicas que no coinciden con ninguna otra lectura. Estas lecturas se marcan como singletons.

40 El sistema de procesamiento que lleva a cabo las etapas descritas en el presente documento anteriormente se muestra en la figura 4A

Prospección de polimorfismos y evaluación de la calidad

45 Los cóntigos resultantes del análisis de ensamblaje forman la base de la detección de polimorfismos. Cada “apareamiento erróneo” en la alineación de cada agrupación es un posible polimorfismo. Se definen criterios de selección para obtener una puntuación de calidad:

-: número de lecturas por cóntigo

- frecuencia de “alelos” por muestra 5 - aparición de secuencia de homopolímero

-: aparición de polimorfismos vecinos

Se identifican SNP e indels con una puntuación de calidad por encima del umbral como supuestos polimorfismos.

10 Para la prospección de SSR, se usa la herramienta MISA (identificación de MIcroSatélites) (http://pgrc.ipkgatersleben.de/misa). Esta herramienta identifica di, tri, tetranucleótidos y motivos SSR de compuestos con criterios predefinidos y resume las apariciones de estas SSR.

La prospección de polimorfismos y el procedimiento de asignación de calidad se muestran en la figura 4B. 15

Resultados

La tabla a continuación resume los resultados del análisis combinado de secuencias obtenidas a partir de 2 rondas de secuenciación de 454 para las muestras de pimiento combinadas y 2 rondas para las muestras de maíz

20 combinadas.

Pimiento: Maíz

Número total de lecturas: 457178 492145

Número de lecturas recortadas: 399623 411008

Número de singletons: 105253 313280

Número de cóntigos: 31863 14588

Número de lecturas en cóntigos: 294370 97728

Número total de secuencias que contienen SSR: 611 202

Número de secuencias que contienen SSR diferentes: 104 65

Número de motivos SSR diferentes (di, tri, tetra y compuesto): 49 40

Número de SNP con puntuación Q 0,3 *: 1636 782

Número de indels *: 4090 943

* ambos con selección frente a SNP vecinos, secuencia flanqueante de al menos 12 pb y sin producirse en secuencias de homopolímeros mayores a 3 nucleótidos.

Ejemplo 3. Validación de SNP mediante amplificación por PCR y secuenciación de Sanger

25 Con el fin de validar el supuesto SNP A/G identificado en el ejemplo 1, se diseñó un ensayo de sitio etiquetado de secuencia (STS) para este SNP usando cebadores de PCR flanqueantes. Las secuencias de los cebadores de PCR eran las siguientes:

cebador_1.2f: 5’-AAACCCAAACTCCCCCAATC-3’, [SEQ ID 33] y

30 cebador_1.2r: 5’-AGCGGATAACAATTTCACACAGGACATCAGTAGTCACACTGGTA CAAAAATAGAGCAAAACAGTAGTG-3’ [SEQ ID 34]

Obsérvese que el cebador 1.2r contenía un sitio de unión a cebador de secuencia M13 y un fragmento de relleno de

35 longitud en su extremo 5 prima. Se llevó a cabo la amplificación por PCR usando productos de amplificación de AFLP +A/+CA de PSP11 y PI210234 preparados tal como se describe en el ejemplo 4 como molde. Las condiciones de PCR fueron las siguientes:

Durante 1 reacción de PCR se mezclaron los siguientes componentes:

40 5 ul de mezcla de AFLP diluida 1/10 (aprox. 10 ng/ul)

5 ul de cebador 1.2f 1 pmol/ul (diluido directamente a partir de una disolución madre 500 uM)

5 ul de cebador 1.2r 1 pmol/ul (diluido directamente a partir de una disolución madre 500 uM)

5 ul de mezcla de PCR - 2 ul de tampón de PCR 10 x 5 - 1 ul de dNTP 5 mM

-: 1,5 ul de MgCl2 5 mM

-: 0,5 ul de H2O

5 ul de mezcla de enzimas - 0,5 ul de tampón de PCR 10 x (Applied Biosystems) 10 - 0,1 ul de ADN polimerasa AmpliTaq 5 U/ul (Applied Biosystems)

-: 4,4 ul de H2O

Se usó el siguiente perfil de PCR: Ciclo 1 2’; 94ºC Ciclo 2-34 20’’; 94ºC

30’’; 56ºC 2’30’’; 72ºC Ciclo 35 7’; 72ºC 0; 4ºC

15 Se clonaron los productos de PCR en el vector pCR2.1 (kit de clonación TA; Invitrogen) usando el método de clonación TA y se transformaron en células de E. coli competentes INVaF’. Se sometieron los transformantes a selección azul/blanca. Se seleccionaron tres transformantes blancos independientes cada uno para PSP11 y PI201234 y se hicieron crecer durante la noche en medio líquido selectivo para el aislamiento de plásmidos.

20 Se aislaron plásmidos usando el kit QIAprep Spin Miniprep (QIAGEN). Posteriormente, se secuenciaron los insertos de estos plásmidos según el protocolo a continuación y se resolvieron en el instrumento MegaBACE 1000 (Amersham). Se inspeccionaron las secuencias obtenidas para detectar la presencia del alelo de SNP. Dos plásmidos independientes que contenían el inserto PI-201234 y 1 plásmido que contenía el inserto PSP11 contenían la secuencia consenso esperada que flanquea al SNP. La secuencia derivada del fragmento PSP11 contenía el alelo

25 A esperado (subrayado) y la secuencia derivada del fragmento PI-201234 contenía el alelo G esperado (doblemente subrayado):

PSP11 (secuencia 1): (5’-3’)

PI-201234 (secuencia 1): (5’-3’)

PI-201234 (secuencia 2): (5’-3’)

40 Este resultado indica que el supuesto SNP A/G de pimiento representa un polimorfismo genético verdadero detectable usando el ensayo de STS diseñado.

Bibliografía

: 45 1. Zabeau, M. y Vos, P. (1993) Selective restriction fragment amplification; a general method for DNA fingerprinting. Documento EP 0534858-A1, B1, B2; patente estadounidense 6045994.

2. Vos, P., Hogers, R., Bleeker, M., Reijans, M., van de Lee, T., Hornes, M., Frijters, A., Pot, J., Peleman, J., Kuiper,

M.: et al. (1995) AFLP: a new technique for DNA fingerprinting. Nucl. Acids Res., 21, 4407-4414. 50

3. M. van der Meulen, J. Buntjer, M. J. T. van Eijk, P. Vos, y R. van Schaik. (2002). Highly automated AFZP® fingerprint analysis on the MegaBACE capillary sequencer. Plant, Animal and Microbial Genome X, San Diego, CA, 12-16 de enero, P228, p. 135.

4. Margulies et al., 2005. Genome sequencing in microfabricated high-density picolitre reactions. Nature advanced 5 online publication 03959, 1 de agosto.

5. R.W. Michelmore, I. Paran, y R.V. Kesseli. (1991). Identification of markers linked to disease-resistance genes by bulked segregant analysis: a rapid method to detect markers in specific genomic regions by using segregating populations. Proc. Natl. Acad. Sci USA 88(21):9828-32.

6. Shendure et al., 2005. Accurate multiplex polony sequencing of an evolved bacterial genome. Scienceexpress Report, 4 de agosto.

Claims

REIVINDICACIONES

1. Método para el descubrimiento, la detección y el genotipado de alto rendimiento de uno o más marcadores genéticos en una o más muestras, que comprende las etapas de:

(a)

proporcionar ADN de una o más muestras;

(b)

cortar el ADN con al menos una endonucleasa de restricción para producir fragmentos de restricción;

(c)

ligar adaptadores a los fragmentos de restricción para producir fragmentos de restricción ligados a adaptador;

(d)

amplificar los fragmentos de restricción ligados a adaptador con un par de cebadores que es complementario a los adaptadores para producir fragmentos de restricción ligados a adaptador preamplificados;

(e)

amplificar los fragmentos de restricción ligados a adaptador preamplificados con un par de cebadores, conteniendo al menos uno de los cebadores desde uno hasta 10 nucleótidos selectivos en su extremo 3’ y conteniendo al menos uno de los cebadores una etiqueta identificadora en el extremo 5’ del cebador para producir una biblioteca de subconjuntos amplificados etiquetados de fragmentos de restricción ligados a adaptador para cada muestra;

(f)

opcionalmente, agrupar las bibliotecas;

(g)

secuenciar las bibliotecas, comprendiendo la secuenciación las etapas de:

-

aparear los fragmentos de restricción ligados a adaptador con perlas, apareándose cada perla con un único fragmento ligado a adaptador;

-

emulsionar las perlas en microrreactores de agua en aceite, comprendiendo cada microrreactor de agua en aceite una única perla;

-

realizar una PCR en emulsión para amplificar los fragmentos de restricción ligados a adaptador en la superficie de las perlas;

-

cargar las perlas en pocillos, comprendiendo cada pocillo una única perla; y

-

generar una señal de pirofosfato;

(h)

agrupar las secuencias por biblioteca, usando la etiqueta identificadora;

(i)

identificar marcadores genéticos dentro de la biblioteca y/o entre bibliotecas

(j)

determinar genotipos (co)dominantes de los marcadores genéticos en una o más bibliotecas.
2.

Método según la reivindicación 1, en el que el marcador genético es un marcador AFLP o un marcador SNP.
3.

Método según las reivindicaciones 1-2, en el que la redundancia promedio de los fragmentos de restricción ligados a adaptador amplificados etiquetados es de al menos 6, preferiblemente al menos 7, más preferiblemente al menos 8 y lo más preferiblemente al menos 9.
4.

Método según las reivindicaciones 1-3, en el que la secuencia de cada fragmento de restricción ligado a adaptador se determina al menos 6, preferiblemente al menos 7, más preferiblemente al menos 8 y lo más preferiblemente al menos 9 veces.
5.

Método según las reivindicaciones 1-4, en el que entre la restricción por endonucleasa y el ligamiento del adaptador se realiza una selección por tamaño mediante una etapa de desnaturalización.
6.

Método según las reivindicaciones 1-7, en el que el ADN se selecciona del grupo que consiste en ADN genómico, ARN, ADNc, BAC, YAC, ADN amplificado de genoma completo, producto de PCR.
7.

Método según las reivindicaciones 1-6, en el que el adaptador es un adaptador oligonucleotídico sintético bicatenario que tiene un extremo que es compatible con uno o ambos extremos de los fragmentos de restricción.
8.

Método según las reivindicaciones 1-7, en el que el ADN se corta con al menos dos, preferiblemente tres o más endonucleasas de restricción.
9.

Método según las reivindicaciones 1-8, en el que el ADN se corta con dos endonucleasas de restricción.
10.

Método según las reivindicaciones 1-9, en el que al menos una de las endonucleasas de restricción tiene un

sitio de reconocimiento poco frecuente. 5
11. Método según las reivindicaciones 1-10, en el que al menos una de las endonucleasas de restricción tiene un sitio de reconocimiento frecuente.
12. Método según las reivindicaciones 1-11, en el que el cebador contiene desde uno hasta 5 (preferiblemente 10 seleccionados al azar de entre A, C, T o G) nucleótidos selectivos.
13. Método según cualquiera de las reivindicaciones anteriores, en el que el ADN se corta usando una combinación de tres o más endonucleasas de restricción.

15 14. Uso del método según cualquiera de las reivindicaciones anteriores para la puntuación codominante de secuencias marcadoras AFLP y/o SNP.
15. Uso del método según cualquiera de las reivindicaciones de método anteriores, para fines de genotipado incluyendo mapeo genético, mapeo QTL, mapeo fino de genes/rasgos, mapeo de desequilibrio de enlace (LD),

20 retrocruzamiento asistido por marcador, análisis de distancia genética, descubrimiento de marcadores vinculados a rasgos o fenotipos, genotipado diagnóstico de muestras de pacientes.