ES2683707T3 - Secuenciación de ADN - Google Patents

Secuenciación de ADN Download PDF

Info

Publication number
ES2683707T3
ES2683707T3 ES13784766.1T ES13784766T ES2683707T3 ES 2683707 T3 ES2683707 T3 ES 2683707T3 ES 13784766 T ES13784766 T ES 13784766T ES 2683707 T3 ES2683707 T3 ES 2683707T3
Authority
ES
Spain
Prior art keywords
base
nucleotide
bases
nucleic acid
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13784766.1T
Other languages
English (en)
Inventor
Mark W. Eshoo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ibis Biosciences Inc
Original Assignee
Ibis Biosciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibis Biosciences Inc filed Critical Ibis Biosciences Inc
Application granted granted Critical
Publication of ES2683707T3 publication Critical patent/ES2683707T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Abstract

Un método para identificar un ácido nucleico en una muestra, el método comprendiendo: (a) determinar una secuencia degenerada de dos bases del ácido nucleico objetivo en la muestra, usando un método de secuenciación que determina una secuencia degenerada de dos bases del ácido nucleico objetivo sin determinar una secuencia de cuatro bases del ácido nucleico objetivo, en donde la secuencia degenerada de dos bases del ácido nucleico objetivo se determina sin determinar o conocer de otra manera la secuencia de cuatro bases del ácido nucleico objetivo; y (b) comparar la secuencia degenerada de dos bases del ácido nucleico objetivo en la muestra determinada en el paso (a) con una secuencia de referencia conocida para identificar el ácido nucleico objetivo, en donde: (i) el código degenerado de dos bases consiste de un primer elemento que representa una base de purina y un segundo elemento que representa una base de pirimidina; (ii) el código degenerado de dos bases consiste de un primer elemento que representa una base ceto y un segundo elemento que representa una base amino; o (iii) el código degenerado de dos bases consiste de un primer elemento que representa una base fuertemente enlazadora de hidrógeno y un segundo elemento que representa una base débilmente enlazadora de hidrógeno.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Secuenciacion de ADN CAMPO DE LA INVENCION
En la presente se proporciona tecnologfa relacionada con la secuenciacion de acidos nucleicos y particularmente, pero no exclusivamente, con metodos, composiciones y sistemas para secuenciar un acido nucleico usando un codigo de dos bases degenerado.
ANTECEDENTES
La secuenciacion del ADN esta impulsando la investigacion y el descubrimiento genomicos. La finalizacion del Proyecto del Genoma Humano fue un logro monumental que involucro una cantidad increfble de esfuerzos combinados entre centros de genoma y cientificos de todo el mundo. Este proyecto de una decada se completo usando el metodo de secuenciacion de Sanger para determinar el orden de las cuatro bases de nucleotidos: adenina, guanina, citosina y timina en moleculas de ADN. Este metodo sigue siendo la metodologfa de secuenciacion del genoma principal en centros de secuenciacion de genoma de alto rendimiento. Ademas, se han establecido muchas plataformas de secuenciacion de "proxima generacion" como alternativas practicas al metodo de Sanger y se usan ampliamente. Estas incluyen enfoques de secuenciacion por smtesis (SBS) como pirosecuenciacion (Ronaghi et al. (1998) Science 281: 363-365), secuenciacion de moleculas de ADN individuales (Braslaysky et al. (2003) Proc. Natl. Acad. Sci. USA 100: 3960-3964), y colonias de polimerasa (secuenciacion de "polonias") (Mitra et al. (2003) Anal. Biochem. 320: 55-65). Aunque las tecnologfas fundamentales de los varios metodos de secuenciacion existentes y emergentes pueden diferir enormemente, los metodos de secuenciacion convencionales comparten la caractenstica de proporcionar una secuencia en terminos de las cuatro bases de nucleotidos adenina, guanina, citosina y timina (o, en ARN, uracilo).
SUMARIO
Los metodos convencionales de secuenciacion por smtesis se basan en identificar diferencialmente las cuatro bases A, C, G y T que se incorporan en un acido nucleico durante cada evento de incorporacion de base durante la smtesis. Por el contrario, la tecnologfa actual se basa en la secuenciacion de acidos nucleicos utilizando un codigo de dos bases degenerado. Por ejemplo, en lugar de determinar la secuencia de las cuatro bases en un acido nucleico, la presente tecnologfa en algunas realizaciones determina el orden de las bases de purina y pirimidina en un acido nucleico. Usando un esquema de secuenciacion de acuerdo con este enfoque ejemplar, la secuencia ACGT convencionalmente derivada se obtendna en cambio determinando que la secuencia consiste de una purina en la primera posicion, una pirimidina en la segunda posicion, una purina en la tercera posicion y una pirimidina en la cuarta posicion, lo que se puede representar como RYRY. Un esquema de secuenciacion de dos bases alternativo basado en la identificacion de la secuencia de bases ceto y bases amino produce la secuencia de MMKK para esta misma secuencia de cuatro bases de bases ACGT. En algunas realizaciones, la informacion de las dos secuencias de dos bases puede fusionarse para producir una secuencia de cuatro bases convencional. De acuerdo con el ejemplo actual, la primera posicion es una base amino purina, la segunda posicion es una base amino pirimidina, la cuarta posicion es una base ceto purina, y la cuarta posicion es una base ceto pirimidina, que conduce ineqmvocamente a la secuencia ACGT.
Como consecuencia, las realizaciones de la tecnologfa requieren menos flujos de soluciones de nucleotidos y/o pasos de lavado para cada ciclo de smtesis, lo que tambien reduce el tiempo para adquirir una secuencia y reduce la complejidad y el coste de los aparatos usados para los tipos de esquemas de secuenciacion descritos en la presente. Ademas, algunas realizaciones de la tecnologfa reducen el numero de tintes fluorescentes necesarios para la secuenciacion, reduciendo tambien de este modo el numero de laseres usados para excitar marcadores (por ejemplo, fracciones fluorescentes), reduciendo o eliminando la optica usada para dividir la senal optica por longitud de onda, y reduciendo del numero de detectores para registrar eventos de incorporacion y diferenciar entre bases.
Por consiguiente, en la presente se proporcionan metodos para secuenciar un acido nucleico objetivo, el metodo comprendiendo elegir un codigo degenerado de dos bases; y determinar una secuencia degenerada de dos bases del acido nucleico objetivo usando el codigo degenerado de dos bases. Un codigo degenerado de dos bases puede basarse en varias clasificaciones y propiedades de las bases convencionales A, C, G y T (o U). Por ejemplo, en algunas realizaciones, el codigo degenerado de dos bases representa el orden de las bases de purina y las bases de pirimidina (por ejemplo, como R e Y); en algunas realizaciones, el codigo degenerado de dos bases representa el orden de las bases ceto y las bases amino (por ejemplo, K y M); y en algunas realizaciones, el codigo degenerado de dos bases representa el orden de bases fuertemente enlazadoras de hidrogeno y bases debilmente enlazadoras de hidrogeno (por ejemplo, S y W). Las realizaciones particulares proporcionan : 1) que el codigo degenerado de dos bases relaciona un primer elemento con una base que comprende adenina (A) o guanina (G) y un segundo elemento con una base que comprende citosina (C) o timina (T); 2) que el codigo degenerado de dos bases relaciona un primer elemento con una base que comprende A o C y un segundo elemento con una base que comprende G o T; y
5
10
15
20
25
30
35
40
45
50
55
60
65
3) que el codigo degenerado de dos bases relaciona un primer elemento con una base que comprende G o C y un segundo elemento con una base que comprende A o T.
Las secuencias que usan diferentes codigos degenerados de dos bases pueden usarse en combinacion para derivar una secuencia de nucleotidos de cuatro bases estandar para un acido nucleico. Por consiguiente, algunas realizaciones de la tecnologfa proporcionan un metodo que comprende fusionar una primera secuencia degenerada de dos bases y una segunda secuencia degenerada de dos bases para producir una secuencia de cuatro bases.
Las realizaciones de los metodos de acuerdo con la tecnologfa comprenden proporcionar un primer nucleotido y un segundo nucleotido en donde el primer nucleotido esta marcado con un marcador y el segundo nucleotido esta marcado con dicho marcador. Ademas, algunas realizaciones comprenden proporcionar un primer nucleotido, un segundo nucleotido, un tercer nucleotido y un cuarto nucleotido, en donde el primer nucleotido esta marcado con un primer marcador, el segundo nucleotido esta marcado con dicho primer marcador, el tercer nucleotido esta marcado con un segundo marcador, y el cuarto nucleotido esta marcado con dicho segundo marcador.
Adicionalmente, algunas realizaciones comprenden proporcionar un analogo de nucleotido marcado en donde el analogo de nucleotido marcado se empareja con un primer nucleotido o un segundo nucleotido. Ademas, las realizaciones tambien comprenden proporcionar un primer analogo de nucleotido marcado y un segundo analogo de nucleotido marcado en donde la base del primer analogo de nucleotido marcado se empareja con un primer nucleotido o un segundo nucleotido y la base del segundo analogo de nucleotido marcado se empareja con un tercer nucleotido o un cuarto nucleotido.
En algunas realizaciones, determinar una secuencia degenerada de dos bases del acido nucleico objetivo usando el codigo degenerado de dos bases comprende medir una caractenstica ffsica, qrnmica y/o electronica de una base y diferenciar entre una base de purina y una base de pirimidina, entre una base ceto y una base amino, y/o entre una base fuertemente enlazadora de hidrogeno (por ejemplo, un par de bases que consisten de tres pares de enlaces de hidrogeno) y una base debilmente enlazadora de hidrogeno (por ejemplo, un par de bases que consisten de dos pares de enlaces de hidrogeno).
En algunas realizaciones, la secuencia de dos bases del acido nucleico objetivo se compara con una secuencia conocida, por ejemplo, para detectar un cambio en la secuencia de nucleotidos (por ejemplo, un polimorfismo de nucleotido individual, una insercion, una delecion, una variacion del sitio de empalme, una transicion, una transversion, una mutacion de sentido erroneo, una mutacion sin sentido, etc.). En algunas realizaciones, la secuencia conocida identifica todas las bases (a, t, c, g. y u) y se convierte (por ejemplo, mediante un ordenador) en un codigo de 2 bases.
Tambien se proporcionan composiciones relacionadas con la secuenciacion de un acido nucleico usando un codigo degenerado de dos bases. Por ejemplo, algunas realizaciones proporcionan una composicion que comprende un primer nucleotido y un segundo nucleotido en donde el primer nucleotido esta marcado con un primer marcador y el segundo nucleotido esta marcado con dicho primer marcador. En algunas realizaciones, el marcador es una fraccion fluorescente. Algunas realizaciones de las composiciones proporcionan cuatro nucleotidos para la secuenciacion usando un codigo de dos bases degenerado. En particular, las realizaciones proporcionan un tercer nucleotido y un cuarto nucleotido, en donde el tercer nucleotido esta marcado con un segundo marcador y el cuarto nucleotido esta marcado con dicho segundo marcador. En algunas realizaciones, el primer nucleotido es una A, el segundo nucleotido es una G, el tercer nucleotido es una C, y el cuarto nucleotido es una T. En algunas realizaciones, el primer nucleotido es una A, el segundo nucleotido es una C , el tercer nucleotido es una G, y el cuarto nucleotido es una T. Ademas, en algunas realizaciones, el primer nucleotido es una C, el segundo nucleotido es una G, el tercer nucleotido es una A, y el cuarto nucleotido es una T.
Las composiciones proporcionadas en la presente se refieren a la secuenciacion de un acido nucleico; como tal, la tecnologfa incluye realizaciones de composiciones que comprenden un acido nucleico objetivo, un cebador de secuenciacion, y una polimerasa. Tras la incorporacion de un nucleotido, por ejemplo, en una reaccion de secuenciacion, las composiciones en algunas realizaciones comprenden un acido nucleico que comprende el primer nucleotido y/o el segundo nucleotido.
Los metodos y composiciones de la tecnologfa encuentran uso en sistemas para secuenciar un acido nucleico usando un codigo degenerado de dos bases. En un aspecto, la tecnologfa proporciona realizaciones de un sistema para secuenciar un acido nucleico, el sistema comprendiendo un aparato de secuenciacion y una funcionalidad para diferenciar un primer nucleotido y un segundo nucleotido de un tercer nucleotido y un cuarto nucleotido. En algunas realizaciones, el sistema comprende ademas una funcionalidad de produccion para proporcionar una secuencia de nucleotidos de dos bases degenerada del acido nucleico. Las secuencias que usan diferentes codigos de dos bases degenerados pueden fusionarse para proporcionar un codigo de cuatro bases para un acido nucleico; es decir, algunas realizaciones comprenden una funcionalidad para fusionar una primera
5
10
15
20
25
30
35
40
45
50
55
60
65
secuencia de nucleotidos de dos bases degenerada del acido nucleico y una segunda secuencia de nucleotidos de dos bases degenerada del acido nucleico para proporcionar una secuencia de cuatro bases del acido nucleico. Adicionalmente, las realizaciones de la tecnologfa se refieren a un sistema en el que la funcionalidad para diferenciar un primer nucleotido y un segundo nucleotido de un tercer nucleotido y un cuarto nucleotido diferencia entre una base de purina y una base de pirimidina, entre una base ceto y una base amino, y/o entre una base fuertemente enlazadora de hidrogeno y una base debilmente enlazadora de hidrogeno.
En un aspecto, el codigo de 2 bases se determina (por ejemplo, mediante secuenciacion) sin determinar y/o conocer de otra manera el codigo de 4 bases.
Se proporcionan realizaciones de kits, por ejemplo, un kit para secuenciar un acido nucleico, el kit comprendiendo un primer nucleotido, un segundo nucleotido, un tercer nucleotido y un cuarto nucleotido, en donde el primer nucleotido esta marcado con un primer marcador, el segundo nucleotido esta marcado con dicho primer marcador, el tercer nucleotido esta marcado con un segundo marcador, y el cuarto nucleotido esta marcado con dicho segundo marcador; o un primer analogo de nucleotido degenerado de dos bases y un segundo analogo de nucleotido degenerado de dos bases, en donde el primer analogo de nucleotido esta marcado con un primer marcador y el segundo analogo de nucleotido esta marcado con un segundo marcador. Realizaciones adicionales seran evidentes para los expertos en la tecnica relevante en base a las ensenanzas contenidas en la presente.
BREVE DESCRIPCION DEL DIBUJO
Estas y otras caractensticas, aspectos y ventajas de la presente tecnologfa se comprenderan mejor con respecto a los siguientes dibujos :
La Figura 1A muestra una secuencia de cuatro bases convencional del gen gliceraldehndo 3-fosfato deshidrogenasa de Homo sapiens. La figura 1B muestra esta secuencia representada usando un codigo degenerado de dos bases de "r" e "y" que denota el orden de purinas y pirimidinas, respectivamente. La Figura 1C muestra esta secuencia representada usando un codigo degenerado de dos bases de "m" y "k" que denota el orden de las bases amino y ceto, respectivamente. En la Figura 1, r = AoG, y = C o T, m = AoC, y k = G o T.
DESCRIPCION DETALLADA
En la presente se proporciona tecnologfa relacionada con la secuenciacion de acidos nucleicos y particularmente, pero no exclusivamente, con metodos, composiciones, sistemas y kits para secuenciar un acido nucleico usando un codigo de dos bases degenerado.
Los encabezados de las secciones usados en la presente son con propositos de organizacion solamente y no deben interpretarse como limitativos de la materia descrita de ninguna manera.
En esta descripcion detallada de las varias realizaciones, con propositos de explicacion, se exponen numerosos detalles espedficos para proporcionar una comprension exhaustiva de las realizaciones divulgadas. Un experto en la tecnica apreciara, sin embargo, que estas varias realizaciones pueden ponerse en practica con o sin estos detalles espedficos. En otros casos, las estructuras y los dispositivos se muestran en forma de diagramas de bloques. Ademas, un experto en la tecnica puede apreciar facilmente que las secuencias espedficas en las que se presentan y realizan los metodos son ilustrativas y se contempla que las secuencias pueden variarse y permanezcan todavfa dentro del esprntu y el alcance de las diversas realizaciones divulgadas en la presente.
A menos que se defina lo contrario, todos los terminos tecnicos y cientfficos usados en la presente tienen el mismo significado que el entendido comunmente por un experto en la tecnica a la que pertenecen las varias realizaciones descritas en la presente.
Se apreciara que hay un "aproximadamente" implfcito antes de las temperaturas, concentraciones, tiempos, etc. tratados en las presentes ensenanzas, de tal manera que las desviaciones insustanciales estan dentro del alcance de las presentes ensenanzas. En esta solicitud, el uso del singular incluye el plural a menos que se indique espedficamente lo contrario. Ademas, el uso de "comprender", "comprende", "comprendiendo", "contener", "contiene", "conteniendo", "incluir", "incluye" e "incluyendo" no se pretende que sea limitativo. Debe entenderse que tanto la descripcion general anterior como la siguiente descripcion detallada son ejemplares y explicativas solamente y no son restrictivas de las presentes ensenanzas.
Ademas, a menos que el contexto requiera lo contrario, los terminos singulares incluiran el plural y los terminos plurales incluiran el singular. Generalmente, las nomenclaturas utilizadas en conexion con, y las tecnicas de, cultivo celular y tisular, biologfa molecular y qmmica e hibridacion de protemas y oligonucleotidos o polinucleotidos descritas en la presente son las bien conocidas y usadas comunmente en la tecnica. A menos que se indique lo contrario, se usan tecnicas estandar, por ejemplo, para la purificacion y preparacion de acidos nucleicos, analisis qmmico, acido nucleico recombinante, y smtesis de oligonucleotidos. Las reacciones enzimaticas y las tecnicas de purificacion se realizan de acuerdo con las especificaciones del fabricante o como se realiza
5
10
15
20
25
30
35
40
45
50
55
60
65
comunmente en la tecnica o como se describe en la presente. Las tecnicas y procedimientos descritos en la presente se realizan generalmente de acuerdo con metodos convencionales bien conocidos en la tecnica y como se describe en diversas referencias generales y mas espedficas que se citan y tratan a lo largo de la presente especificacion. Ver, por ejemplo, Sambrook et al., Molecular Cloning: A Laboratory Manual (Tercera edicion, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY (2000)). Las nomenclatures utilizadas en conexion con, y los procedimientos y tecnicas de laboratorio descritos en la presente son los bien conocidos y usados comunmente en la tecnica.
Definiciones
Para facilitar una comprension de la presente tecnologfa, se definen a continuacion una serie de terminos y frases. A lo largo de la descripcion detallada se exponen definiciones adicionales.
A lo largo de la especificacion y las reivindicaciones, los siguientes terminos toman los significados explfcitamente asociados en la presente, a menos que el contexto indique claramente lo contrario. La frase "en una realizacion" como se usa en la presente no se refiere necesariamente a la misma realizacion, aunque puede. Ademas, la frase "en otra realizacion" como se usa en la presente no se refiere necesariamente a una realizacion diferente, aunque puede. Por tanto, como se describe a continuacion, pueden combinarse facilmente varias realizaciones de la invencion, sin apartarse del alcance o el esprntu de la invencion.
Adicionalmente, como se usa en la presente, el termino "o" es un operador "o" inclusivo y es equivalente al termino "y/o" a menos que el contexto indique claramente lo contrario. El termino "basado en" no es exclusivo y permite basarse en factores adicionales no descritos, a menos que el contexto indique claramente lo contrario. Adicionalmente, a lo largo de la especificacion, el significado de "un" y "el" incluye referencias en plural. El significado de "en" incluye "en" y "sobre".
Un "sistema" denota un conjunto de componentes, reales o abstractos, que comprenden un todo donde cada componente interactua o esta relacionado con por lo menos otro componente dentro del todo.
Como se usa en la presente, la frase "dNTP" significa desoxinucleotidotrifosfato, donde el nucleotido comprende una base de nucleotidos, como A, T, C, G o U. Ademas, se pretende que el termino "dNTP" haga referencia tambien a desoxinucleotidostrifosfatos que comprenden bases modificadas y analogos de bases que son capaces de imitar el emparejamiento de bases de A, C, G, T o U, o que son capaces de emparejar bases en un modo degenerado, por ejemplo, una base que se empareja con A o G, C o T, A o C, G o T, G o C, o A o T.
El termino "monomero" como se usa en la presente significa cualquier compuesto que pueda incorporarse a una cadena molecular en crecimiento por una polimerasa dada. Tales monomeros incluyen, sin limitaciones, nucleotidos de origen natural (por ejemplo, ATP, GTP, TTP, UTP, CTP, dATP, dGTP, dTTP, dUTP, dCTP, analogos sinteticos), precursores para cada nucleotido, nucleotidos de origen no natural y sus precursores, o cualquier otra molecula que pueda incorporarse en una cadena polimerica en crecimiento por una polimerasa dada.
Como se usa en la presente, un "acido nucleico" significara cualquier molecula de acido nucleico, incluyendo, sin limitacion, ADN, ARN e Idbridos de los mismos. Las bases de acido nucleico que forman las moleculas de acido nucleico pueden ser las bases A, C, G, T y U, asf como derivados y analogos de las mismas. Los derivados de estas bases son bien conocidos en la tecnica. Debe entenderse que el termino incluye, como equivalentes, analogos de o ADN o ARN elaborados a partir de analogos de nucleotidos. El termino como se usa en la presente tambien abarca ADNc, que es ADN complementario, o copia, producido a partir de una plantilla de ARN, por ejemplo mediante la accion de la transcriptasa inversa. Es bien sabido que el ADN (acido desoxirribonucleico) es una cadena de nucleotidos que consta de 4 tipos de nucleotidos- A (adenina), T (timina), C (citosina), y (G) guanina) y el ARN (acido ribonucleico) es una cadena de nucleotidos que consiste de 4 tipos de nucleotidos- A, U (uracilo), G y C. Tambien se sabe que todos estos 5 tipos de nucleotidos se unen espedficamente entre sf en combinaciones denominadas emparejamiento de bases complementarias. Es decir, la adenina (A) se empareja con la timina (T) (en el caso del ARN, sin embargo, la adenina (A) se empareja con uracilo (U)) y la citosina (C) se empareja con guanina (G), de tal manera que cada uno de estos pares de bases forman una cadena doble. Como se usa en la presente, "datos de secuenciacion de acido nucleico", "informacion de secuenciacion de acido nucleico", "secuencia de acido nucleico", "secuencia genomica", "secuencia genetica", "secuencia de fragmento", o "lectura de secuenciacion de acido nucleico" denota cualquier informacion o dato que sean indicativos del orden de las bases de nucleotidos en una molecula (por ejemplo, un genoma completo, un transcriptoma completo, un exoma, oligonucleotido, polinucleotido, fragmento, etc.) de ADN o ARN usando un codigo de cuatro bases (por ejemplo, usando A, G, C y T o U para representar las cuatro bases adenina, guanina, citosina, y timina o uracilo) o un codigo degenerado de dos bases para representar las bases de purina y pirimidina; las bases ceto y amino; y/o bases fuertemente enlazadoras de hidrogeno y debilmente enlazadoras de hidrogeno.
Se usan en la presente los codigos degenerados de IUB para bases de nucleotidos. En este codigo, R significa cualquiera de las bases de purina A o G; Y significa cualquiera de las bases de pirimidina C o T; M significa
5
10
15
20
25
30
35
40
45
50
55
60
65
cualquiera de las bases amino A o C; K significa cualquiera de las bases ceto G o T; S significa cualquiera de los socios de enlace de hidrogeno mas fuertes C o G; y W significa cualquiera de los socios de enlace de hidrogeno mas debiles A o T.
La referencia a una base, un nucleotido o a otra molecula puede ser en singular o en plural. Es decir, una base puede referirse a una unica molecula de esa base o a una pluralidad de esa base, por ejemplo, en una solucion.
Como se usa en la presente, un "polinucleotido", tambien denominado un acido nucleico, es una serie covalentemente enlazada de nucleotidos en donde la posicion 3' de la pentosa de un nucleotido esta unida por un grupo fosfodiester a la posicion 5' de la siguiente. El ADN (acido desoxirribonucleico) y el ARN (acido ribonucleico) son polinucleotidos que se producen biologicamente en los que los residuos de nucleotidos estan enlazados en una secuencia espedfica mediante enlaces de fosfodiester. Como se usa en la presente, los terminos "polinucleotido" u "oligonucleotido" abarcan cualquier compuesto polimerico que tenga una cadena principal lineal de nucleotidos. Un "oligodesoxirribonucleotido" u "oligonucleotidos", tambien denominado un "oligomero", es generalmente un polinucleotido de una longitud mas corta.
En esta divulgacion, se entiende que "ADN", "oligonucleotido" o "acido nucleico" incluye ADN y ARN, asf como derivados en los que el azucar esta modificado, como en derivados de 2'-O-metilo y 2', 3-didesoxinucleosidos, en los que la nucleobase tiene un apendice, y estos acidos nucleicos y sus analogos en topologfas no lineales, incluidos como dendnmeros, estructuras de peine y nanoestructuras, y analogos que llevan apendices o etiquetas (por ejemplo, fluorescentes, funcionalizadas o vinculantes, como biotina).
Como se usa en la presente, la frase "una pluralidad clonal de acidos nucleicos" o "una poblacion clonal de acidos nucleicos" o "una agrupacion" o "una polonia" se refiere a un conjunto de productos de acido nucleico que son sustancial o completa o esencialmente identicos a entre sf, y son copias complementarias de la cadena de acido nucleico plantilla a partir de la que se sintetizan.
Como se usa en la presente, un "analogo de nucleotido de dos bases" es un analogo de nucleotido que puede formar pares de bases con dos bases de nucleotidos diferentes del conjunto A, C, G y T (o U).
Como se usa en la presente, "complementario" se refiere generalmente a formar duplex de nucleotidos espedficos para formar pares de bases de Watson-Crick canonicas, como es entendido por los expertos en la tecnica. Sin embargo, complementario tambien incluye emparejamiento de bases de nucleotidos modificados y analogos de nucleotidos que son capaces de formar un emparejamiento de bases degenerado o universal con nucleotidos A, T, G o C y/o con acidos nucleicos bloqueados que mejoran la estabilidad termica de los duplex. Un experto en la tecnica reconocera que la rigurosidad de la hibridacion es un determinante en el grado de coincidencia o falta de coincidencia en el duplex formado mediante hibridacion.
Como se usa en la presente, "fraccion" se refiere a una de dos o mas partes en las que algo se puede dividir, como, por ejemplo, las varias partes de una cadena, una molecula o una sonda.
Una "polimerasa" es una enzima generalmente para unir nucleotidos, oligomeros de 3'-OH 5 '-trifosfato y analogos de los mismos. Ademas, se pretende que en esta solicitud "polimerasa" incluya ADN polimerasas de todas las familias, ARN polimerasas, y transcriptasas inversas.
El termino "cebador" se refiere a un oligonucleotido, ya sea de origen natural como en un digesto de restriccion purificado o producido sinteticamente, que es capaz de actuar como un punto de inicio de la smtesis cuando se coloca en condiciones en las que se induce la smtesis de un producto de extension del cebador que es complementario a una cadena de acido nucleico, (por ejemplo, en presencia de nucleotidos y un agente inductor como ADN polimerasa y a una temperatura y pH adecuados). El cebador es preferiblemente de cadena sencilla para una maxima eficiencia en la amplificacion, pero alternativamente puede ser de cadena doble. Si es de cadena doble, primero se trata el cebador para separar sus cadenas antes de ser usado para preparar productos de extension. Preferiblemente, el cebador es un oligodesoxirribonucleotido. El cebador debe ser lo suficientemente largo para cebar la smtesis de los productos de extension en presencia del agente inductor. Las longitudes exactas de los cebadores dependeran de muchos factores, incluyendo la temperatura, la fuente del cebador y el uso del metodo.
Como se usa en la presente, "degeneracion" o "degenerado" se refiere a ciertas equivalencias con respecto al codigo genetico estandar de cuatro bases de nucleotidos A, C, G y T. En algunos contextos, un "codigo degenerado" es aquel en que un sfmbolo, caracter, color, etc. se refiere a mas de una de los bases A, C, G y T (o U). Un codigo de dos bases degenerado es uno en el que el conjunto de sfmbolos que representa una secuencia de acido nucleico tiene dos elementos y un elemento se refiere a cualquiera y/o a ambas de dos bases y el segundo elemento se refiere a cualquiera y/o a ambas de otras dos bases (es decir, no hay superposicion entre el conjunto de dos bases denotado por el primer elemento y el conjunto de dos bases denotado por el segundo elemento). Ejemplos de codigos degenerados son el codigo de purina/pirimidina en el que R se refiere a A o G e Y se refiere a
5
10
15
20
25
30
35
40
45
50
55
60
65
C o T; el codigo de la base ceto/base amino en el que K se refiere a G o T y M se refiere a A o C; y el codigo fuerte/debil en el que S se refiere a C o G y W se refiere a A o T.
En algunos contextos, "degenerado" se refiere al comportamiento de emparejamiento de bases de una base de nucleotidos o analogo de bases de nucleotidos. El emparejamiento de bases degenerado se refiere a una situacion en la que un nucleotido o analogo de nucleotido puede formar pares de bases con mas de una socio. En algunos contextos, una "regla de emparejamiento de bases degenerada" describe o define el conjunto de socios de emparejamiento de bases con el que un nucleotido o un analogo de nucleotido forma pares de bases. Por ejemplo, una regla de emparejamiento de bases degenerada puede describir un nucleotido o analogo de nucleotido que se empareja con tanto A como G, tanto C como T, tanto A como C, tanto G como T, tanto G como C, y/o ambos de Ay T.
Realizaciones de la tecnologia
La tecnologfa se refiere de manera general a metodos, composiciones, sistemas y kits para la secuenciacion de ADN usando un codigo degenerado de dos bases en, por ejemplo, un enfoque de secuenciacion por smtesis. Aunque la divulgacion de la presente se refiere a ciertas realizaciones ilustradas, debe entenderse que estas realizaciones se presentan a modo de ejemplo y no a modo de limitacion.
1. Metodos
Algunas realizaciones de la tecnologfa proporcionan metodos de secuenciacion de ADN que usan un codigo de dos bases degenerado para identificar las bases en la secuencia. La tecnologfa abarca varias realizaciones de esquemas de secuenciacion de dos bases degeneradas que identifican bases por rasgos compartidos por pares de las cuatro bases A, C, G y T (alternativamente, U). Por ejemplo, en algunas realizaciones, los metodos se basan en diferenciar bases de pirimidina (C y T) de bases de purina (A y G), produciendo una secuencia que denota pirimidinas con Y y purinas con R. En algunas realizaciones, los metodos se basan en diferenciar bases ceto (G y T) de bases amino (A y C), produciendo una secuencia que denota bases ceto con K y bases amino con M. En algunas realizaciones, los metodos se basan en diferenciar bases que forman pares de bases mas fuertes (G y C) de las que forman pares de bases mas debiles (A y T), produciendo una secuencia que denota bases que forman pares de bases mas fuertes con S y bases que forman pares de bases mas debiles con W. Debe entenderse que no se pretende que las designaciones estandar asociadas con los codigos de base degenerados R, Y, K, M, S y W limiten la tecnologfa a producir secuencias representadas solo por estas letras o codigos particulares. La tecnologfa abarca metodos que usan un codigo de dos bases degenerado, independientemente de la anotacion usada para comunicar la secuencia.
La tecnologfa contempla cualquier metodo de secuenciacion mediante el que estos pares de nucleotidos se diferencian entre sf, por ejemplo, por caractensticas ffsicas y/o qrnmicas como tamano, carga, conductividad, caractensticas de fluorescencia inherentes, masa, momento dipolar, forma, estructura, reactividad, etc., y/o interrogando a cada nucleotido en la secuencia objetivo con alguna otra molecula, como monitorizando el emparejamiento de bases de cada nucleotido con nucleotidos etiquetados (por ejemplo, marcados), nucleotidos modificados etiquetados, analogos de nucleotidos etiquetados, etc.
En algunas realizaciones, se usa un metodo de secuenciacion basado en conjuntos y en algunas realizaciones se usa un metodo de secuenciacion basado en una unica molecula. En algunas realizaciones, se detiene una reaccion de secuenciacion despues de la incorporacion de cada nucleotido y en algunas realizaciones la smtesis se monitoriza en tiempo real sin la necesidad de interrumpir la reaccion para identificar bases. En algunas realizaciones, las moleculas de un acido nucleico se interrogan directamente sin usar una reaccion de secuenciacion para identificar las bases. Con respecto a los metodos y esquemas de secuenciacion por smtesis que encuentran uso, por ejemplo, adaptados apropiadamente a los metodos proporcionados en la presente, Morozova y Marra proporcionan una revision de algunas de tales tecnologfas en Genomics 92: 255 (2008); exposiciones adicionales se encuentran en Mardis, Annu. Rev. Genomics Hum. Genet. (2008) 9:387-402 and in Fuller, et al. (2009) Nat. Biotechnol. 27: 1013.
En un metodo basado en conjuntos, de decenas de miles a decenas de millones de cadenas nominalmente identicas se localizan en una localizacion dada (por ejemplo, en una perla u otra superficie o sustrato solido) para leer en un proceso que comprende iteraciones de lavado y escaneo. En el uso convencional, este proceso implica anadir reactivos (por ejemplo, nucleotidos marcados), incorporar nucleotidos en cadenas de ADN (por ejemplo, mediante una polimerasa), detener la reaccion de incorporacion, eliminar o inactivar el exceso de reactivo, identificar las bases incorporadas (por ejemplo, deteccion optica de emision de fluorescencia de un marcador de nucleotido; detectar un cambio en el pH o voltaje), y, en algunas realizaciones, tratar las bases recien incorporadas para preparar plantillas de ADN para la siguiente adicion de base. Estos pasos continuan hasta que el proceso secuencia el nucleotido objetivo completo o no produce resultados de secuencia satisfactorios.
En general, los metodos basados en conjuntos dependen de detener la reaccion de secuenciacion despues
5
10
15
20
25
30
35
40
45
50
55
60
65
de cada incorporacion de bases para mantener la poblacion de moleculas sintetizadas en fase de tal manera que la deteccion (por ejemplo, obtencion de imagenes) informe con precision de la base incorporada por la smtesis en cada paso. La separacion de fases se mantiene en varias realizaciones anadiendo una base cada vez (ver, por ejemplo, Margulies, M. et al. "Genome sequencing in microfabricated highdensity picolitre reactors", Nature 437: 376-380 (2005); Harris, T.D. et al. "Single-molecule DNA sequencing of a viral genome", Science 320: 106-109 (2008)) o usando nucleotidos reversiblemente bloqueados que permiten una sola incorporacion de bases durante cada iteracion del ciclo.
Por ejemplo, algunas realizaciones comprenden el uso de tecnologfas particulares para secuenciacion en paralelo de amplicones particionados (Publicacion de PCT N°: WO 2006/084132); extension de oligonucleotidos en paralelo (ver, por ejemplo, Patente de Estados Unidos N° 5.750.341, Patente de Estados Unidos N° 6.306.597); secuenciacion de polonias Mitra et al. (2003) Analytical Biochemistry 320: 55-65; Shendure et al. (2005) Science 309: 1728-1732; Patente de Estados Unidos N° 6.432.360, Patente de Estados Unidos N° 6.485.944, Patente de Estados Unidos N° 6.511.803;); la tecnologfa de adicion de bases individuales Solexa (ver, por ejemplo, Bennett et al. (2005), Pharmacogenomics 6: 373-382; Patente de Estados Unidos N° 6.787.308; Patente de Estados Unidos N° 6.833.246; la tecnologfa de secuenciacion de firma masivamente en paralelo de Lynx (Brenner et al., (2000) Nat. Biotechnol., 18: 630-634, Patente de Estados Unidos N° 5.695.934, Patente de Estados Unidos N° 5.714.330). y la tecnologfa de colonias de PCR Adessi (Adessi et al. (2000). Nucleic Acid Res. 28: E87; WO 00/018957).
En realizaciones particulares, la extension se bloquea momentaneamente despues de cada adicion de bases usando nucleotidos modificados (por ejemplo, terminadores reversibles de nucleotidos como se describe en, por ejemplo, la WO 2004/018497, Publicacion de Solicitud de patente de Estados Unidos N° 2007/0166705; Bentley, D.R. et al. "Accurate whole human genome sequencing using reversible terminator chemistry", Nature 456: 53-59 (2008); Turcatti, G. et al. "A new class of cleavable fluorescent nucleotides: synthesis and optimization as reversible terminators for DNA sequencing by synthesis", Nucleic Acids Res. 36: e25 (2008); Guo, J. et al. "Four-color DNA sequencing with 3'-O-modified nucleotide reversible terminators and chemically cleavable fluorescent dideoxynucleotides", Proc. Natl. Acad. Sci. USA 105: 9145-9150 (2008); Ju, J. et al. "Four-color DNA sequencing by synthesis using cleavable fluorescent nucleotide reversible terminators", Proc. Natl. Acad. Sci. USA 103: 1963519640 (2006); Seo, T.S. et al. "Four-color DNA sequencing by synthesis on a chip using photocleavable fluorescent nucleotides", Proc. Natl. Acad. Sci. USA 102: 5926-5931 (2005); Wu, W. et al. "Termination of DNA synthesis by N6- alkylated, not 3'-O-alkylated, photocleavable 2'-deoxyadenosine triphosphates", Nucleic Acids Res. 35: 6339-6349 (2007)) u omitiendo los componentes de la reaccion como iones metalicos divalentes (ver, por ejemplo, WO2005/123957; Publicacion de Solicitud de Patente de Estados Unidos N° 20060051807).
Las realizaciones de la presente tecnologfa se refieren a metodos de secuenciacion de conjuntos en los que se anaden 1, 2, 3 o 4 nucleotidos en cada ronda de secuenciacion. En algunas realizaciones, se usan dos marcadores para marcar dos pares de nucleotidos. Es decir, se marcan dos nucleotidos con un primer marcador (por ejemplo, una primera fraccion fluorescente) y los otros dos nucleotidos se marcan con un segundo marcador (por ejemplo, una segunda fraccion fluorescente). Por ejemplo, en algunas realizaciones, las purinas A y G estan marcadas con un primer marcador y las pirimidinas estan marcadas con un segundo marcador; en algunas realizaciones, las bases ceto G y T estan marcadas con un primer marcador y las bases amino A y C estan marcadas con un segundo marcador; en algunas realizaciones, las bases fuertemente enlazadoras de hidrogeno C y G estan marcadas con un primer marcador y las bases debilmente enlazadoras de hidrogeno A y T estan marcadas con un segundo marcador. En realizaciones en las que se anade mas de un tipo de nucleotido en cada ronda, los nucleotidos se bloquean reversiblemente, por ejemplo, con un terminador reversible, para detener la smtesis despues de cada incorporacion de uno de los nucleotidos anadidos.
En algunas realizaciones en las que se anade un nucleotido a la vez, se usan dos analogos de nucleotidos diferencialmente marcados en los que cada base de analogo de nucleotido se empareja con dos nucleotidos de acuerdo con una regla de emparejamiento de bases degeneradas. En particular, los dos nucleotidos con los que se empareja la primera base del analogo de nucleotidos son diferentes de los dos nucleotidos con los que se empareja el segundo analogo de nucleotidos (sin sobreponerlos dos conjuntos). Por ejemplo, en algunas realizaciones, se usan dos analogos de nucleotido X e Y en una secuenciacion de conjuntos mediante reaccion de smtesis en donde el hidrogeno de X se une con una purina y el hidrogeno Y se une con una pirimidina. Anadir secuencialmente X e Y a la reaccion (por ejemplo, anadir X, luego anadir Y, luego anadir X, luego anadir Y, etc., opcionalmente con un paso de lavado despues de cada adicion) genera una secuencia de purinas (por ejemplo, R = A o G) y pirimidinas (por ejemplo, Y = C o T) del acido nucleico plantilla (objetivo. Realizaciones similares comprenden anadir dos analogos de nucleotidos que se unen por hidrogeno de acuerdo con una regla degenerada en la que un analogo de nucleotido se une a una base amino (por ejemplo, M = A o C) y el otro analogo de nucleotido se une a una base ceto (por ejemplo, K = G o T). De manera similar, las realizaciones comprenden anadir dos analogos de nucleotidos que se unen por hidrogeno de acuerdo a una regla degenerada en la que un analogo de nucleotido se une a una base de enlace de nitrogeno fuerte (por ejemplo, S = C o G) y el otro analogo de nucleotido se une a una base de enlace de hidrogeno debil (por ejemplo, W = A o T).
5
10
15
20
25
30
35
40
45
50
55
60
65
Si la secuencia que se esta determinando es desconocida, los nucleotidos o analogos de nucleotidos anadidos se aplican habitualmente en un orden elegido que luego se repite a lo largo del analisis. Si, sin embargo, la secuencia que se esta determinando es conocida y se esta re-secuenciado, por ejemplo, para determinar si las hay pequenas diferencias en la secuencia en relacion a la secuencia conocida, el proceso de determinacion de la secuenciacion se puede hacer mas rapido anadiendo los nucleotidos en cada paso en el orden apropiado, por ejemplo, elegido de acuerdo con la secuencia conocida. Las diferencias de la secuencia dada se detectan por tanto por la falta de incorporacion de ciertos nucleotidos en etapas particulares de la extension del cebador.
Adicionalmente, las realizaciones de secuenciacion basadas en moleculas individuales implican metodos que comprenden diferentes tecnologfas fundamentales, por ejemplo, monitorizar una molecula de polimerasa a medida que incorpora nucleotidos en una cadena de ADN sintetizada; someter a pases una molecula de acido nucleico (o sus monomeros de nucleotidos) a traves o sobre o cerca de una estructura de sonda (por ejemplo, a traves de un tubo o un poro) y monitorizar las interacciones de cada base de nucleotidos con la estructura de sonda (por ejemplo, un cambio en el voltaje, un cambio en la corriente, un cambio en las propiedades opticas); observar la smtesis de una molecula de ADN directamente usando microscopfa (por ejemplo, STM, TEM); u observando directamente una molecula de un acido nucleico e identificando las bases individuales mediante observacion directa.
Las realizaciones de los metodos proporcionados en la presente comprenden la secuenciacion de moleculas individuales basada en un codigo degenerado de dos bases. Por ejemplo, en algunas realizaciones, se observa directamente una molecula de ADN y se discierne la secuencia de las bases de purina y pirimidina (o, alternativamente, las bases ceto y amino o fuertemente y debilmente enlazadoras de hidrogeno) en base a caractensticas ffsicas como la forma, tamano y/o masa de cada base. Como otro ejemplo, en algunas realizaciones una molecula de un acido nucleico se enhebra a traves de un nanoporo y se discierne la secuencia de bases ceto y amino (o, alternativamente, las bases de purina y pirimidina o las bases fuertemente y debilmente enlazadoras de hidrogeno) por los diferentes cambios en la corriente y/o potencial a traves del nanoporo inducidos por bases ceto y amino.
Algunas realizaciones de secuenciacion de moleculas individuales en las que se monitoriza la smtesis (por ejemplo, mediante observacion directa, detectando cambios en la fluorescencia, etc.) usan dos marcadores para marcar pares de nucleotidos como se ha descrito anteriormente para los metodos de conjuntos. En particular, estas realizaciones comprenden usar un primer par de nucleotidos marcados con un primer marcador (por ejemplo, una primera fraccion fluorescente) y un segundo par de nucleotidos marcados con un segundo marcador (por ejemplo, una segunda fraccion fluorescente) y/o un par de analogos de nucleotidos marcados en los que cada base de analogo de nucleotido se empareja con dos nucleotidos de acuerdo con una regla de emparejamiento de bases degeneradas (por ejemplo, como se ha tratado anteriormente para las realizaciones de conjuntos).
Durante cada ciclo, la deteccion de una senal de salida apropiada para la base anadida en el paso anterior indica una incorporacion exitosa de esa base y por tanto identifica la base incorporada en ese paso. La deteccion puede ser por modos convencionales. Por ejemplo, si el marcador es una fraccion fluorescente, entonces la deteccion de una base incorporada puede llevarse a cabo usando un microscopio de escaneo confocal para escanear la coleccion de agrupaciones (por ejemplo, unidas a una superficie) con un laser para obtener imagenes de las fracciones fluorescentes unidas directamente a las bases incorporadas. Alternativamente, puede usarse un detector 2D sensible, como un detector de carga acoplada (CCD), para visualizar las senales generadas. Sin embargo, hay disponibles otras tecnicas como la microscopfa optica de barrido de campo cercano (SNOM) y pueden usarse cuando se obtienen imagenes de matrices densas. Por ejemplo, usando SNOM, pueden distinguirse polinucleotidos individuales cuando estan separados por una distancia de menos de 100 nm, por ejemplo de 10 nm a 10 fm. Para una descripcion de la microscopfa optica de barrido de campo cercano, ver Moyer et al., Laser Focus World (1993) 29:10. Se conocen aparatos adecuados usados para obtener imagenes de matrices de polinucleotidos y la configuracion tecnica es evidente para el experto en la tecnica. La deteccion se usa preferiblemente en combinacion con un sistema de analisis para determinar el numero y la naturaleza de las bases de nucleotidos incorporadas para cada paso de la smtesis. Este analisis, que puede llevarse a cabo inmediatamente despues de cada paso de smtesis, o mas tarde utilizando datos registrados, permite determinar la secuencia de la plantilla de acido nucleico.
Ejemplos de tecnologfas de secuenciacion para las que la presente tecnologfa es apropiada y/o para las que se adapta la presente tecnologfa se tratan a continuacion. En algunas realizaciones, se usan metodos de pirosecuenciacion. En la pirosecuenciacion (Voelkerding et al., Clinical Chem., 55: 641-658, 2009; MacLean et al., Nature Rev. Microbiol., 7: 287-296; Patente de Estados Unidos N° 6.210.891; Patente de Estados Unidos N° 6.258.568; el ADN plantilla se fragmenta, se repara al final, se liga a adaptadores y se amplifica clonalmente in situ capturando moleculas plantilla individuales con perlas portadoras que llevan oligonucleotidos complementarios a los adaptadores. Cada perla que lleva un unico tipo de plantilla se compartimentaliza en una microvesmula de agua en aceite, y la plantilla se amplifica clonalmente usando una tecnica referida como PCR en emulsion. La emulsion se interrumpe despues de la amplificacion y las perlas se depositan en pocillos individuales de una placa picotituladora que funciona como una celda de flujo durante las reacciones de secuenciacion. La introduccion iterativa ordenada de cada uno de los cuatro reactivos dNTP tiene lugar en la celda de flujo en presencia de enzimas de secuenciacion y
5
10
15
20
25
30
35
40
45
50
55
60
65
un indicador luminiscente como luciferasa. En el caso de que se anada un dNTP apropiado al extremo 3' del cebador de secuenciacion, la produccion resultante de ATP provoca una explosion de luminiscencia dentro del pocillo, que se graba usando una camara CCD. Es posible lograr longitudes de lectura mayores o iguales a 400 bases, y se pueden lograr 106lecturas de secuencia, dando como resultado hasta 500 millones de pares de bases (Mb) de secuencia.
En la plataforma Solexa/Illumina (Voelkerding et al., Clinical Chem., 55: 641-658, 2009; MacLean et al., Nature Rev. Microbiol., 7: 287-296;; Patente de Estados Unidos N° 6.833.246; Patente de los Estados Unidos N° 7.115.400; Patente de Estados Unidos N° 6.969.488; los datos de secuenciacion se producen en forma de lecturas de longitud mas corta. En este metodo, el ADN fragmentado de cadena sencilla se repara en el extremo para generar extremos romos 5'-fosforilados, seguido de la adicion mediada por Klenow de una unica base A al extremo 3' de los fragmentos. La adicion de A facilita la adicion de oligonucleotidos adaptadores de saliente T, que son usados posteriormente para capturar las moleculas adaptadoras de plantillas en la superficie de una celula de flujo que esta tachonada con anclajes de oligonucleotidos. El anclaje se usa como un cebador de PCR, pero debido a la longitud de la plantilla y su proximidad a otros oligonucleotidos de anclaje cercanos, la extension mediante PCR da como resultado el "arqueamiento" de la molecula para hibridar con un oligonucleotido de anclaje adyacente para formar una estructura puente en la superficie de la celula de flujo. Estos giros de ADN se desnaturalizan y escinden. Las cadenas directas se secuencian luego con terminadores de colorante reversibles. La secuencia de nucleotidos incorporados se determina mediante deteccion de fluorescencia posterior a la incorporacion, eliminandose cada fluor y bloque antes del siguiente ciclo de adicion de dNTP. La longitud de lectura de la secuencia vana de 36 nucleotidos a mas de 50 nucleotidos, con l produccion total superando 1 billon de pares de nucleotidos por ejecucion del analisis.
La secuenciacion de moleculas de acido nucleico usando tecnologfa SOLiD (Voelkerding et al., Clinical Chem., 55: 641-658, 2009; MacLean et al., Nature Rev. Microbiol., 7:287-296;; Patente de Estados Unidos N° 5.912.148; Patente de Estados Unidos N° 6.130.073; tambien implica la fragmentacion de la plantilla, el ligamiento a adaptadores de oligonucleotidos, la union a perlas y la amplificacion clonal por PCR en emulsion. Despues de esto, las perlas que llevan la plantilla se inmovilizan sobre una superficie derivada de una celula de flujo de vidrio, y se aparea un cebador complementario al oligonucleotido adaptador. Sin embargo, en lugar de utilizar este cebador para la extension 3', se usa en cambio para proporcionar un grupo fosfato 5' para la ligacion a sondas de interrogacion que contienen dos bases espedficas de sondas seguidas por 6 bases degeneradas y uno de cuatro marcadores fluorescentes. En el sistema SOLiD, las sondas de interrogacion tienen 16 combinaciones posibles de las dos bases en el extremo 3' de cada sonda, y uno de los cuatro fluores en el extremo 5'. El color del fluor, y portanto la identidad de cada sonda, corresponde a esquemas de codificacion de espacio especificados por color. Las multiples rondas (habitualmente 7) de apareamiento de sondas, ligamiento, y deteccion de fluor van seguidas de desnaturalizacion, y luego una segunda ronda de secuenciacion usando un cebador que esta desplazado por una base con respecto al cebador inicial. De esta manera, la secuencia plantilla puede reconstruirse computacionalmente, y las bases plantilla se interrogan dos veces, lo que da como resultado una mayor precision. La longitud de lectura de secuencia promedia 35 nucleotidos, y la produccion total excedo los 4 billones de bases por ejecucion de secuencia.
En ciertas realizaciones, se emplea la secuenciacion de nanoporos (ver, por ejemplo, stier et al. (2006), J. Am. Chem. Soc. 128: 1705-10. La teona detras de la secuenciacion de nanoporos tiene que ver con lo que ocurre cuando un nanoporo se sumerge en un fluido conductor y se aplica un potencial (voltaje) a traves de el. Bajo estas condiciones puede observarse una ligera corriente electrica debida a la conduccion de iones a traves del nanoporo, y la cantidad de corriente es extremadamente sensible al tamano del nanoporo. A medida que cada base de un acido nucleico pasa a traves del nanoporo, esto provoca un cambio en la magnitud de la corriente a traves del nanoporo que es distinto para cada una de las cuatro bases, permitiendo de este modo que se determine la secuencia de la molecula de ADN.
En ciertas realizaciones, se emplea HeliScope de Helicos Biosciences (Voelkerding et al., Clinical Chem., 55: 641-658, 2009; MacLean et al., Nature Rev. Microbiol., 7:287-296; Patente de Estados Unidos N° 7.169.560; Patente de Estados Unidos N° 7.282.337; Patente de Estados Unidos N° 7.482.120; Patente de Estados Unidos N° 7.501.245; Patente de Estados Unidos N° 6.818.395; Patente de Estados Unidos N° 6.911.345; Patente de Estados Unidos N° 7.501.245. El ADN plantilla esta fragmentado y poliadenilado en el extremo 3', con la adenosina final llevando un marcador fluorescente. Los fragmentos de plantilla poliadenilados desnaturalizados se ligan a poli(dT)oligonucleotidos en la superficie de una celula de flujo. Las localizaciones ffsicas iniciales de las moleculas de plantilla capturadas se graban con una camara CCD, y luego el marcador se escinde y se lava. La secuenciacion se logra mediante la adicion de polimerasa y la adicion en serie de reactivos dNTP marcados fluorescentemente. Los eventos de incorporacion dan como resultado la senal de fluor correspondiente a dNTP, y la senal se captura por una camara CCD antes de cada ronda de adicion de dNTP. La longitud de lectura de secuencia vana de 25-50 nucleotidos, con una produccion total que excede 1 billon de pares de nucleotidos por ejecucion de analisis.
La tecnologfa Ion Torrent es un metodo de secuenciacion de ADN basado en la deteccion de iones de hidrogeno que se liberan durante la polimerizacion de ADN (ver, por ejemplo, Science 327(5970): 1190 (2010); Publicaciones de Solicitud de Patente de Estados Unidos N° 20090026082, 20090127589, 20100301398, 20100197507, 20100188073 y 20100137143). Un micropocillo contiene una cadena de ADN plantilla a ser secuenciada. Por debajo de la capa de micropocillos hay un sensor de iones ISFET hipersensible. Todas las capas
5
10
15
20
25
30
35
40
45
50
55
60
65
estan contenidas dentro de un chip semiconductor CMOS, similar al usado en la industria electronica. Cuando se incorpora un dNTP en la cadena complementaria en crecimiento, se libera un ion de hidrogeno que activa un sensor de iones hipersensible. Si hay repeticiones de homopolfmeros en la secuencia de plantilla, se incorporaran multiples moleculas de dNTP en un solo ciclo. Esto lleva a un numero correspondiente de hidrogenos liberados y una senal electronica proporcionalmente mas alta. Esta tecnologfa difiere de otras tecnologfas de secuenciacion en que no se usan nucleotidos u opticas modificados. La precision por base del secuenciador Ion Torrent es de ~ 99,6% para 50 lecturas de base, con ~100 Mbp generados por ejecucion. La longitud de lectura es de 100 pares de bases. La precision para las repeticiones de homopolfmeros de 5 repeticiones de longitud es de ~98%. Los beneficios de la secuenciacion de semiconductores ionicos son una velocidad de secuenciacion rapida y bajos costos iniciales y operativos.
Otro enfoque de secuenciacion de acidos nucleicos ejemplar que puede adaptarse para su uso con la presente invencion fue desarrollado por Stratos Genomics, Inc. e implica el uso de Xpandomeros. Este proceso de secuenciacion incluye tipicamente proporcionar una cadena hija producida por una smtesis dirigida a plantilla. La cadena hija generalmente incluye una pluralidad de subunidades acopladas en una secuencia correspondiente a una secuencia de nucleotidos contigua de toda o una porcion de un acido nucleico objetivo en el que las subunidades individuales comprenden una cadena, por lo menos una sonda o residuo de nucleobases, y por lo menos un enlace selectivamente escindible. El enlace(s) selectivamente escindible se escinde para producir un Xpandomero de una longitud mas larga que la pluralidad de las subunidades de la cadena hija El Xpandomero incluye tfpicamente las cadenas y los elementos informadores para analizar la informacion genetica en una secuencia correspondiente a la secuencia de nucleotidos contiguos de toda o una parte del acido nucleico objetivo. Los elementos informadores del Xpandomero son luego detectados. Detalles adicionales relacionados con los enfoques basados en Xpandomeros se describen en, por ejemplo, la Publicacion de Patente de Estados Unidos N° 20090035777, titulada "HIGH THROUGHPUT NUCLEIC ACID SEQUENCING BY EXPANSION", presentada el 19 de junio de 2008. Otros metodos de secuenciacion de moleculas individuales emergentes incluyen la secuenciacion en tiempo real mediante smtesis usando una plataforma VisiGen ((Voelkerding et al., Clinical Chem., 55: 641-58, 2009, la Patente de Estados Unidos N° 7.329.492, la Solicitud de Patente de Estados Unidos N° de Serie 11/671956; Patente de Estados Unidos Aplicacion N° de Serie 11/781166; en las que la plantilla de ADN inmovilizado, cebado se somete a extension de cadenas usando una polimerasa modificada fluorescentemente y moleculas aceptoras fluorescentes, dando como resultado una transferencia de energfa de resonancia de fluorescencia (FRET) detectable tras la adicion de nucleotidos.
Otro sistema de secuenciacion de moleculas individuales en tiempo real desarrollado por Pacific Biosciences (Voelkerding et al., Clinical Chem., 55: 641-658, 2009; MacLean et al., Nature Rev. Microbiol., 7: 287296; Patente de Estados Unidos N° 7.170.050; Patente de Estados Unidos N° 7.302.146; Patente de Estados Unidos N° 7.313.308;. Patente de Estados Unidos N° 7.476.503; utiliza pocillos de reaccion de 50-100 nm de diametro y que abarca un volumen de reaccion de aproximadamente 20 zeptoliters (10‘21 l). Las reacciones de secuenciacion se realizan usando plantilla inmovilizada, ADN polimerasa phi29 modificada, y altas concentraciones locales de dNTP marcado fluorescentemente. Las concentraciones locales altas y las condiciones de reaccion continuas permiten que se capturen eventos de incorporacion en tiempo real mediante deteccion de senal de fluor usando excitacion laser, una grna de onda optica y una camara CCD.
Con esta tecnologfa de secuenciacion de ADN de moleculas individuales en tiempo real (SMRT), la secuenciacion de ADN se realiza en chips SMRT, cada uno conteniendo miles de grnas de onda de modo cero (ZMW). Una ZMW es un agujero, de decenas de nanometros de diametro, fabricado en una pelmula de metal de 100 nm depositada sobre un sustrato de dioxido de silicio. Cada ZMW se convierte en una camara de visualizacion nanofotonica que proporciona un volumen de deteccion de solo 20 zeptolitros (10‘21 l). En este volumen, la actividad de una molecula individual puede detectarse entre un fondo de miles de nucleotidos marcados. La ZMW proporciona una ventana para observar la ADN polimerasa ya que realiza la secuencia mediante smtesis. Dentro de cada camara, una unica molecula de ADN polimerasa esta unida a la superficie inferior de tal manera que reside permanentemente dentro del volumen de deteccion. Los nucleotidos fosfoenlazados, cada tipo marcado con un fluoroforo de diferente color, se introducen luego en la solucion de reaccion a concentraciones altas que promueven la velocidad, precision y procesividad de las enzimas. Debido al pequeno tamano de la ZMW, incluso a estas concentraciones altas biologicamente relevantes, el volumen de deteccion esta ocupado por nucleotidos solo una pequena fraccion del tiempo. Ademas, las visitas al volumen de deteccion son rapidas, duran solo unos pocos microsegundos, debido a la muy pequena distancia que la difusion tiene que llevar los nucleotidos. El resultado es un fondo muy bajo.
Los procesos, composiciones y sistemas para la secuenciacion que pueden adaptarse para su uso con la invencion se describen, por ejemplo, en las Patentes de Estados Unidos N° 7.405.281, titulada "Fluorescent nucleotide analogs and uses therefor", expedida el 29 de julio de 2008 a Xu et al.; 7.315.019, titulada ""Arrays of optical confinements and uses thereof", expedida el 1 de enero de 2008 a Turner et al., 7.313.308, titulada "Optical analysis of molecules", expedida el 25 de diciembre de 2007 a Turner et al.; 7.302.146, titulada "Apparatus and method for analysis of molecules", expedida el 27 de noviembre de 2007 a Turner et al.; y 7.170.050, titulada "Apparatus and methods for optical analysis of molecules", expedida el 30 de enero de 2007 a Turner et al.; y las
5
10
15
20
25
30
35
40
45
50
55
60
65
Publicaciones de Patente de Estados Unidos N° 20080212960, titulada "Methods and systems for simultaneous realtime monitoring of optical signals from multiple sources", presentada el 26 de octubre de 2007 por Lundquist et al.; 20080206764, titulada "Flowcell system for single molecule detection", presentada el 26 de octubre de 2007 por Williams et al.; 20080199932, titulada "Active surface coupled polymerases", presentada el 26 de octubre de 2007 por Hanzel et al.; 20080199874, titulada "CONTROLLABLE STRAND SCISSION OF MINI CIRCLE DNA", presentada el 11 de febrero de 2008 por Otto et al.; 20080176769, titulada "Articles having localized molecules disposed thereon and methods of producing same", presentada el 26 de octubre de 2007 por Rank et al.; 20080176316, titulada "Mitigation of photodamage in analytical reactions", presentada el 31 de octubre de 2007 por Eid et al.; 20080176241, titulada "Mitigation of photodamage in analytical reactions", presentada el 31 de octubre de 2007 por Eid et al.; 20080165346, titulada "Methods and systems for simultaneous real-time monitoring of optical signals from multiple sources", presentada el 26 de octubre de 2007 por Lundquist et al.; 20080160531, titulada "Uniform surfaces for hybrid material substrates and methods for making and using same", presentada el 31 de octubre de 2007 por Korlach; 20080157005, titulada "Methods and systems for simultaneous realtime monitoring of optical signals from multiple sources", presentada el 26 de octubre de 2007 por Lundquist et al.; 20080153100, titulada "Articles having localized molecules disposed thereon and methods of producing same", presentada el 31 de octubre de 2007 por Rank et al.; 20080153095, titulada "CHARGE SWITCH NUCLEOTIDES", presentada el 26 de octubre de 2007 por Williams et al.; 20080152281, titulada "Substrates, systems and methods for analyzing materials", presentada el 31 de octubre de 2007 por Lundquist et al.; 20080152280, titulada "Substrates, systems and methods for analyzing materials", presentada el 31 de Octubre de 2007 por Lundquist et al.; 20080145278, titulada "Uniform surfaces for hybrid material substrates and methods for making and using same", presentada el 31 de octubre de 2007 por Korlach; 20080128627, titulada "SUBSTRATES, SYSTEMS AND METHODS FOR ANALYZING MATERIALS", presentada el 31 de agosto de 2007 por Lundquist et al.; 20080108082, titulada "Polymerase enzymes and reagents for enhanced nucleic acid sequencing", presentada el 22 de octubre de 2007 por Rank et al.; 20080095488, titulada "SUBSTRATES FOR PERFORMING ANALYTICAL REACTIONS", presentada el 11 dejunio de 2007 por Foquet et al.; 20080080059, titulada "MODULAR OPTICAL COMPONENTS AND SYSTEMS INCORPORATING SAME", presentada el 27 de septiembre de 2007 por Dixon et al.; 20080050747, titulada "Articles having localized molecules disposed thereon and methods of producing and using same", presentada el 14 de agosto de 2007 por Korlach et al.; 20080032301, titulada "Articles having localized molecules disposed thereon and methods of producing same", presentada el 29 de marzo de 2007 por Rank et al.; 20080030628, titulada "Methods and systems for simultaneous real-time monitoring of optical signals from multiple sources", presentada el 9 de febrero de 2007 por Lundquist et al.; 20080009007, titulada "CONTROLLED INITIATION OF PRIMER EXTENSION", presentada el 15 de junio, 2007 por Lyle et al.; 20070238679, titulada "Articles having localized molecules disposed thereon and methods of producing same", presentada el 30 de marzo de 2006 por Rank et al.; 20070231804, titulada "Methods, systems and compositions for monitoring enzyme activity and applications thereof", presentada el 31 de marzo de 2006 por Korlach et al., 20070206187, titulada "Methods and systems for simultaneous real-time monitoring of optical signals from multiple sources", presentada el 9 de febrero de 2007 por Lundquist et al., 20070196846, titulada "Polymerases for nucleotide analogue incorporation", presentada el 21 de diciembre de 2006 por Hanzel et al., 20070188750, titulada "Methods and systems for simultaneous real-time monitoring of optical signals from multiple sources", presentada el 7 de julio de 2006 por Lundquist et al., 20070161017, titulada "MITIGATION OF PHOTODAMAGE IN ANALYTICAL REACTIONS", presentada el 1 de diciembre de 2006 por Eid et al.; 20070141598, titulada "Nucleotide Compositions and Uses Thereof" presentada el 3 de noviembre de 2006 por Turner et al.; 20070134128, titulada "Uniform surfaces for hybrid material substrate and methods for making and using same", presentada el 27 de noviembre de 2006 por Korlach; 20070128133, titulada "Mitigation of photodamage in analytical reactions", presentada el 2 de diciembre de 2005 por Eid et al.; 20070077564, titulada "Reactive surfaces, substrates and methods of producing same", presentada el 30 de septiembre de 2005 por Roitman et al.; 20070072196, titulada "Fluorescent nucleotide analogs and uses therefore", presentada el 29 de septiembre de 2005 por Xu et al; y 20070036511, titulada "Methods and systems for monitoring multiple optical signals from a single source", presentada el 11 de agosto de 2005 por Lundquist et al. y Korlach et al. (2008) "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures" PNAS 105(4): 1176-81.
2. Composiciones
La tecnologfa proporciona composiciones que comprenden una o mas bases, por ejemplo, para su uso en la secuenciacion de acidos nucleicos usando un codigo de dos bases degenerado. En algunas realizaciones, las bases se marcan por pares, por ejemplo, dos de las cuatro bases de nucleotidos se marcan con un primer marcador y las (otras) dos restantes de las cuatro bases de nucleotidos se marcan con un segundo marcador de tal manera que se diferencia una base del primer par de una base en el segundo par, pero las bases dentro de cada par no se diferencian entre sf con respecto al marcador unido a ellas.
La tecnologfa abarca varias realizaciones de composiciones que comprenden bases marcadas y/o analogos de bases. Por ejemplo, en algunas realizaciones, las composiciones comprenden una o mas bases que estan marcadas para diferenciar bases de pirimidina (C y T) de bases de purina (A y G), por ejemplo, para su uso en un metodo para producir una secuencia que denota la secuencia de pirimidinas (por ejemplo, "Y") y purinas (por ejemplo, con" R "). En algunas realizaciones, las bases se marcan para diferenciar bases ceto (G y T) de bases
5
10
15
20
25
30
35
40
45
50
55
60
65
amino (A y C), por ejemplo, para su uso en un metodo para producir una secuencia que denota la secuencia de bases ceto (por ejemplo, "K") y bases amino (por ejemplo, "M"). En algunas realizaciones, las bases se marcan para diferenciar bases que forman pares de bases mas fuertes (G y C) de las que forman pares de bases mas debiles (A y T), por ejemplo, para su uso en un metodo para producir una secuencia que denota la secuencia de bases que formar pares de bases mas fuertes (por ejemplo, "S") y bases que forman pares de bases mas debiles (por ejemplo, "W").
En algunas realizaciones, las composiciones comprenden uno o mas analogos de bases que forman pares de bases con las cuatro bases de nucleotidos de acuerdo con una regla de emparejamiento de bases degenerada; es decir, cada base de analogo de nucleotido se empareja con dos nucleotidos de acuerdo con una regla de emparejamiento de bases degenerada. En particular, los dos nucleotidos con los que se empareja el primer par de bases del analogos de nucleotidos son diferentes (sin superposicion) de los dos nucleotidos con los que se empareja el segundos par de bases del analogo de nucleotidos. Por ejemplo, en algunas realizaciones, las composiciones comprenden uno o dos analogos de nucleotidos X e Y en donde X es un par de bases con una purina e Y un par de bases con una pirimidina. Realizaciones similares comprenden composiciones de uno o dos analogos de nucleotidos que emparejan bases de acuerdo con una regla degenerada en la que un analogo de nucleotido se empareja con una base amino (por ejemplo, M = A o C) y el otro analogo de nucleotido se empareja con una base ceto (por ejemplo, K = G o T). De manera similar, las realizaciones comprenden composiciones de uno o dos pares de bases de analogos de nucleotidos de acuerdo con una regla degenerada en la que un analogo de nucleotido se empareja con una base de enlace de hidrogeno fuerte (por ejemplo, S = C o G) y el otro analogo de nucleotido se empareja con una base de enlace de hidrogeno debil (por ejemplo, W = A o T).
Se describen analogos de pares de bases que actuan como un nucleotido de purina y pirimidina degenerado (por ejemplo, ese par de bases de acuerdo con una regla de emparejamiento de bases degenerada en la que el nucleotido reconoce enlaces, y pares de bases con, o ambos A y G o ambos C y T), por ejemplo, en Abraham, et al., "Nucleobase analogs for degenerate hybridization devised through conformational pairing analysis" (2007), Biotechniques 43: 617. Vertambien Linet al., "Synthesis of oligodeoxyribonucleotides containing degenerate bases and their use as primers in the polymerase chain reaction" (1992), Nucleic Acids Res. 19: 5149. Ejemplos adicionales son 8-hidroxiguanina, 2-hidroxiadenina, 6-O-metilguanina y xantina, cuya base se empareja con C y A (por ejemplo, M); T y A (W); T y C (por ejemplo, Y); y T y C (por ejemplo, Y), respectivamente, y actuan por tanto como bases que se pueden denotar como K, S, R, y R, respectivamente. Las bases no estandar se pueden incorporar mediante polimerasas, por ejemplo, como se describe en la Solicitud de Patente Internacional WO 2009/154733.
De acuerdo con algunas realizaciones de la tecnologfa, las bases se marcan con una fraccion que da como resultado la produccion de una senal detectable tras la incorporacion de la base en la cadena de ADN que se esta sintetizando. En algunas realizaciones, la fraccion produce una senal (por ejemplo, fluorescencia) antes de la incorporacion y/o despues de la incorporacion. En algunas realizaciones, la fraccion esta enlazada de una manera que es apropiado para eliminar la fraccion despues de la incorporacion o despues de la obtencion de imagenes. La fraccion de marcacion es, en algunas realizaciones, un colorante organico fluorescente derivado para la union a la base directamente o a traves de un conector. En la bibliograffa esta disponible grna practica que proporciona una lista de moleculas fluorescentes y cromogenicas y sus propiedades opticas relevantes (ver, por ejemplo, Berlman, Handbook of Fluorescence Spectra of Aromatic Molecules, 2a edicion (Academic Press, New York, 1971); Griffiths, Colour and Constitution of Organic Molecules (Academic Press, New York, 1976); Bishop, Ed., Indicators (Pergamon Press, Oxford, 1972); Haugland, Handbook of Fluorescent Probes and Research Chemicals (Molecular Probes, Eugene, 1992); Pringsheim, Fluorescence and Phosphorescence (Interscience Publishers, New York, 1949); y similares.
Ademas, hay una grna en la bibliograffa para derivar moleculas fluorescentes para la union covalente a traves de grupos reactivos comunes que se pueden anadir a un nucleotido, como se ejemplifica en Haugland (supra); Ullman et al., Patente de Estados Unidos N° 3.996.345; Khanna et al, Patente de Estados Unidos N° 4.351.760. Hay muchas fracciones de enlace y metodologfas para unir marcadores fluorescentes o fracciones neutralizantes a nucleotidos, como se ejemplifica por las siguientes referencias: Eckstein, editor, Oligonucleotides and Analogues: A Practical Approach (IRL Press, Oxford, 1991); Zuckerman et al. (1987), Nucleic Acids Research 15: 5305-5321; Sharma et al. (1991), Nucleic Acids Research 19: 3019; Giusti et al., PcR Methods and Applications 2: 223-227 (1993); Fung et al., Patente de Estados Unidos N° 4.757.141; Stabinsky, Patente de Estados Unidos N° 4.739.044; Agrawal et al. (1990), Tetrahedron Letters 31: 1543-1546; Sproat et al. (1987), Nucleic Acids Research 15: 4837; Nelson et al. (1989), Nucleic Acids Research 17: 7187-7194; y similares. Una variedad de metodologfas de secuenciacion basadas en fluorescencia de ADN son conocidas en la tecnica (ver, por ejemplo, Birren et al., Genome Analysis: Analyzing DNA, (Cold Spring Harbor, NY).
Las realizaciones de la tecnologfa comprenden composiciones que comprenden una plantilla de acido nucleico objetivo. En algunas realizaciones, la composicion comprende un cebador, por ejemplo, en algunas realizaciones que esta unido a la plantilla de acido nucleico objetivo.
5
10
15
20
25
30
35
40
45
50
55
60
65
El acido nucleico objetivo no es cntico y puede provenir de una variedad de fuentes estandar. Puede ser ARNm, ARN ribosomal, ADN genomico o ADNc. Cuando el objetivo es de una fuente biologica, se conocen procedimientos para extraer acido nucleico y opcionalmente amplificarlo a una concentracion conveniente para el genotipado o el trabajo de secuencia. El acido nucleico puede obtenerse de cualquier celula viva de una persona, animal, o planta (y en muchos casos de celulas muertas u otra materia de origen biologico). Los humanos, los microbios patogenicos, y los virus son fuentes particularmente interesantes. Tambien se conocen metodos de amplificacion de acidos nucleicos. Preferiblemente, la amplificacion se lleva a cabo mediante reaccion en cadena de la polimerasa (PCR) (Patentes de Estados Unidos N° 4.683.202, 4.683.195 y 4.889.818; Gyllenstein et al (1988) Proc. Natl. Acad. Sci. USA 85: 7652-7656; Ochman et al. (1988) Genetics 120: 621 - 623; Loh et al. (1989) Science 243: 217-220; Innis et al (1990) PCR Protocols (Academic Press, San Diego, CA). Pueden usarse otros metodos de amplificacion conocidos en la tecnica, incluyendo, pero sin limitacion, reaccion en cadena de la ligasa (ver, por ejemplo, EP 320308), el uso de Q-beta replicasa, o los metodos enumerados en Kricka et al., 1995, Molecular Probing, Blotting and Sequencing (Academic Press, Nueva York), especialmente el Capftulo 1 y la Tabla IX.
La tecnologfa proporcionada en la presente se refiere al uso de una polimerasa en una reaccion de secuenciacion. En general, las polimerasas que encuentran uso en la tecnologfa toleran marcadores en varias posiciones, por ejemplo, en la nucleobase, en el gamma-fosfato, en el 3' hidroxilo, etc. Por ejemplo, las polimerasas que encuentran uso en la tecnologfa incluyen, pero no estan limitadas a, ADN polimerasas dependientes de ADN, ARN polimerasas dependientes de ADN, ADN polimerasas dependientes de aRn, ARN polimerasas dependientes de aRn, ADN polimerasa T7, ADN polimerasa T3, ADN polimerasa T4, ARN polimerasa T7, ARN polimerasa T3, ARN polimerasa SP6, ADN polimerasa 1, fragmento de Klenow, ADN polimerasa de Thermophilus aquaticus, ADN polimerasa Tth, ADN polimerasa Vent ((New England Biolabs) ADN polimerasa , Deep Vent (New England Biolabs), Fragmento grande de ADN polimerasa Bst, fragmento de Stoeffel, ADN polimerasa 9° N, ADN polimerasa Pfu, ADN polimerasa Tfl, polimerasa RepliPHI Phi29, ADN polimerasa Tli, ADN polimerasa beta eucariota, telomerasa, polimerasa Therminator (New England Biolabs), ADN polimerasa KOD HiFi. (Novagen), ADN polimerasa KOD1, Q- beta replicasa, transferasa terminal, transcriptasa inversa AMV, transcriptasa inversa M-MLV, transcriptasa inversa Phi6, transcriptasa inversa VIH-1, nuevas polimerasas descubiertas por bioprospeccion y polimerasas enumeradas en la Publicacion de Solicitud de Patente de Estados Unidos N° 2007/0048748 y en las Patentes de Estados Unidos N° 6.329.178; 6.602.695; y 6.395.524. Estas polimerasas incluyen isoformas mutantes de tipo salvaje y variantes geneticamente disenadas. En algunas realizaciones se usa una polimerasa defectuosa de exonucleasas. En algunas realizaciones (por ejemplo, una tecnologfa de terminacion reversible), se usa una polimerasa que tiene una actividad de exonucleasas para algunos o todos los pasos.
Los cebadores (para smtesis por ADN polimerasa) o promotores (para smtesis por ARN polimerasa) tipicamente se hacen sinteticamente usando tecnologfa de smtesis de acidos nucleicos convencional, por ejemplo, usando un sintetizador de ADN automatizado y qmmicas estandar, tales como qmmica de fosforamiditas, por ejemplo, como se divulga en las siguientes referencias: Beaucage and Iyer, Tetrahedron 48: 2223-211 (1992); Patente de Estados Unidos N° 4.980.460; Patente de Estados Unidos N° 4.725.677; Patentes de Estados Unidos N° 4.415.732; 4.458.066; y 4.973.679; y similares. Tambien pueden emplearse qmmicas alternativas, por ejemplo, que dan como resultado grupos estructurales no naturales, como fosforotioato, fosforamidato, y similares, siempre que los oligonucleotidos resultantes sean compatibles con la polimerasa. Se pueden pedir comercialmente de una variedad de compares que se especializan en oligonucleotidos personalizados como Operon, IDT, Dharmacon, etc.
Los cebadores en combinacion con polimerasas se usan para secuenciar ADN objetivo. La longitud del cebador se selecciona para proporcionar hibridacion con ADN plantilla complementario. Los cebadores son generalmente de por lo menos 10 nt de longitud, habitualmente de por lo menos entre 15 y 30 nt de longitud. Los cebadores estan disenados para hibridar con sitios internos conocidos en el ADN objetivo sujeto. Alternativamente, los cebadores pueden unirse a adaptadores de oligonucleotidos sinteticos unidos a los extremos del ADN objetivo mediante una ligasa. De manera similar, cuando se usan promotores, pueden ser internos al ADN objetivo o ligados como adaptadores a los extremos.
La mezcla de la reaccion para la secuenciacion comprende un medio tampon acuoso que esta optimizado para la polimerasa particular elegida. En general, el tampon incluye tfpicamente una fuente de iones monovalentes, una fuente de cationes divalentes, y un agente de tamponamiento. Puede emplearse cualquier fuente conveniente de iones monovalentes, como cloruro de potasio, acetato de potasio, acetato de potasio, glutamato de potasio, cloruro de amonio, sulfato de amonio y similares.
El cation divalente puede ser magnesio, manganeso, zinc y similares, donde el cation sera tfpicamente magnesio. Puede emplearse cualquier fuente conveniente de cation magnesio, incluyendo MgCh, acetato de magnesio y similares. La cantidad de ion de Mg presente en el tampon puede variar de 0,5 a 20 mM, pero preferiblemente variara de aproximadamente 1 a 12 mM, mas preferiblemente de 2 a 10 mM,, e idealmente sera de aproximadamente 5 mM.
Los agentes de tamponamiento representativos o sales que pueden estar presentes en las composiciones de acuerdo con la tecnologfa descrita (por ejemplo, en una composicion que comprende un nucleotido marcado o en
5
10
15
20
25
30
35
40
45
50
55
60
65
una reaccion de SBS) incluyen Tris, Tricina, HEPES, MOPS y similares, donde la cantidad de agente de tamponamiento variara tipicamente de aproximadamente 5 a 150 mM, habitualmente de aproximadamente 10 a 100 mM, y mas habitualmente de aproximadamente 20 a 50 mM, donde en ciertas realizaciones preferidas, el agente de tamponamiento estara presente en una cantidad suficiente para proporcionar un pH que vana de aproximadamente 6.0 a 9.5. Otros agentes que pueden estar presentes en el medio tampon incluyen agentes quelantes, como EDTA, EGTA y similares.
En algunas realizaciones, el marcador (por ejemplo, fraccion fluorescente) se une a la base de nucleotidos y, en algunas realizaciones el marcador se une a la cadena de fosfato (por ejemplo, en metodos como la secuenciacion SMRT de Pacific Biosciences).
3. Analisis de datos
Algunas realizaciones comprenden un sistema informatico sobre el que pueden implementarse las realizaciones de las presentes ensenanzas. En varias realizaciones, un sistema informatico incluye un bus u otro mecanismo de comunicacion para comunicar informacion y un procesador acoplado con el bus para procesar informacion. En varias realizaciones, el sistema informatico incluye una memoria, que puede ser una memoria de acceso aleatorio (RAM), u otro dispositivo de almacenamiento dinamico, acoplado al bus para identificar bases (por ejemplo, haciendo "llamadas de base"), e instrucciones para ser ejecutadas por el procesador. La memoria tambien puede usarse para almacenar variables temporales u otra informacion intermedia durante la ejecucion de las instrucciones a ser ejecutadas por el procesador. En varias realizaciones, el sistema informatico puede incluir ademas una memoria de solo lectura (ROM) u otro dispositivo de almacenamiento estatico acoplado al bus para almacenar informacion estatica e instrucciones para el procesador. Puede proporcionarse un dispositivo de almacenamiento, como un disco magnetico o disco optico, y acoplarlo al bus para almacenar informacion e instrucciones.
En varias realizaciones, el sistema informatico se acopla a traves del bus a una pantalla, como un tubo de rayos catodicos (CRT) o una pantalla de cristal lfquido (LCD), para mostrar informacion a un usuario del ordenador. Un dispositivo de entrada, incluyendo teclas alfanumericas y otras, pueden acoplarse al bus para comunicar informacion y selecciones de comandos al procesador. Otro tipo de dispositivo de entrada del usuario es un control de cursor, como un raton, una rueda de desplazamiento, o teclas de direccion del cursor para comunicar informacion de direccion y selecciones de comandos al procesador y para controlar el movimiento del cursor en la pantalla. Este dispositivo de entrada tiene tipicamente dos grados de libertad en dos ejes, un primer eje (por ejemplo, x) y un segundo eje (por ejemplo, y), que le permite al dispositivo especificar posiciones en un plano.
Un sistema informatico puede realizar realizaciones de la presente tecnologfa. De acuerdo con ciertas implementaciones de las presentes ensenanzas, pueden proporcionarse resultados por el sistema informatico en respuesta al procesador que ejecuta una o mas secuencias de una o mas instrucciones contenidas en la memoria. Tales instrucciones se pueden leer en la memoria desde otro medio legible por ordenador, como un dispositivo de almacenamiento. La ejecucion de las secuencias de instrucciones contenidas en la memoria puede hacer que el procesador realice los metodos descritos en la presente. Alternativamente, puede usarse una circuitena de cable ffsico en lugar de o en combinacion con instrucciones de software para implementar las presentes ensenanzas. Por tanto, las implementaciones de las presentes ensenanzas no estan limitadas a ninguna combinacion espedfica de circuitos de hardware y software.
El termino "medio legible por ordenador" como se usa en la presente se refiere a cualquier medio que participe en la provision de instrucciones al procesador para su ejecucion. Tal medio puede tomar muchas formas, incluyendo pero no limitadas a, medios no volatiles, medios volatiles y medios de transmision. Los ejemplos de medios no volatiles pueden incluir, pero no estan limitados a, discos opticos o magneticos. Los ejemplos de medios volatiles pueden incluir, pero no estan limitados a, memoria dinamica y flash. Los ejemplos de medios de transmision pueden incluir, pero no estan limitados a, cables coaxiales, cable de cobre y fibras opticas, incluyendo los cables que componen el bus.
Las formas comunes de medios legibles por ordenador incluyen, por ejemplo, un disquete, un disco flexible, disco duro, cinta magnetica o cualquier otro medio magnetico, un CD-ROM, cualquier otro medio optico, tarjetas perforadas, cinta de papel, cualquier otro medio ffsico con patrones de orificios, una RAM, PROM, y EPROM, un FLASH-EPROM, cualquier otro chip o cartucho de memoria, o cualquier otro medio tangible del que pueda leer un ordenador.
Varias formas de medios legibles por ordenador pueden estar implicadas en llevar una o mas secuencias de una o mas instrucciones al procesador para su ejecucion. Por ejemplo, las instrucciones pueden llevarse inicialmente en el disco magnetico de un ordenador remoto. El ordenador remoto puede cargar las instrucciones en su memoria dinamica y enviar las instrucciones a traves de una conexion de red (por ejemplo, una LAN, una WAN, Internet, una lmea telefonica). Un sistema informatico local puede recibir los datos y transmitirlos al bus. El bus puede llevar los datos a la memoria, de la que el procesador recupera y ejecuta las instrucciones. Las instrucciones
5
10
15
20
25
30
35
40
45
50
55
60
65
recibidas por la memoria pueden almacenarse opcionalmente en un dispositivo de almacenamiento ya sea antes o despues de la ejecucion por parte del procesador.
De acuerdo con varias realizaciones, las instrucciones configuradas para ser ejecutadas por un procesador para realizar un metodo se almacenan en un medio legible por ordenador. El medio legible por ordenador puede ser un dispositivo que almacena informacion digital. Por ejemplo, un medio legible por ordenador incluye una memoria de solo lectura de disco compacto (CD-ROM) como se conoce en la tecnica para almacenar software. Al medio legible por ordenador se accede mediante un procesador adecuado para ejecutar instrucciones configuradas para ejecutarse.
De acuerdo con dicho sistema informatico, algunas realizaciones de la tecnologfa proporcionada en la presente comprenden ademas funcionalidades para recoger, almacenar y/o analizar datos (por ejemplo, datos de secuencias de nucleotidos). Por ejemplo, algunas realizaciones contemplan un sistema que comprende un procesador, una memoria y/o una base de datos para, por ejemplo, almacenar y ejecutar instrucciones, analizar datos de imagenes de una reaccion de secuenciacion, realizar calculos usando los datos, transformar los datos y almacenarlos los datos. En algunas realizaciones, un algoritmo de llamada base asigna una secuencia de bases a los datos y asocia puntuaciones de calidad a llamadas base en base a un modelo estadfstico. En algunas realizaciones, el sistema esta configurado para ensamblar una secuencia a partir de multiples sub-secuencias, en algunos casos teniendo en cuenta la superposicion y calculando una secuencia consenso. En algunas realizaciones, una secuencia se alinea con una secuencia de referencia o con un supercontigo.
En algunas realizaciones, se analizan dos o mas secuencias degeneradas del mismo acido nucleico en combinacion para proporcionar una secuencia "fusionada" en la anotacion convencional de cuatro bases. Por ejemplo, una primera secuencia degenerada de dos bases de RYRY y una segunda secuencia degenerada de dos bases MMKK para la misma secuencia indica que la primera posicion es una base de amino purina, la segunda posicion es una base de amino pirimidina, la cuarta posicion es una base de ceto purina, y la cuarta posicion es una base de ceto pirimidina, dando como resultado por tanto la ACGT de secuencia de cuatro bases convencional para el acido nucleico.
Muchos diagnosticos implican determinar la presencia de, o una secuencia de nucleotidos de, uno o mas acidos nucleicos. Por tanto, en algunas realizaciones, una ecuacion que comprende variables que representan la presencia o las propiedades de secuencia de multiples acidos nucleicos produce un valor que encuentra uso al hacer un diagnostico o evaluar la presencia o las cualidades de un acido nucleico. Como tal, en algunas realizaciones este valor se presenta mediante un dispositivo, por ejemplo, mediante un indicador relacionado con el resultado (por ejemplo, un LED, un icono en una LCD, un sonido o similar). En algunas realizaciones, un dispositivo almacena el valor, transmite el valor o usa el valor para calculos adicionales.
Ademas, en algunas realizaciones, un procesador esta configurado para controlar las reacciones de secuenciacion y recoger los datos (por ejemplo, imagenes). En algunas realizaciones, el procesador se usa para iniciar y/o finalizar cada ronda de secuenciacion y recogida de datos relacionados con una reaccion de secuenciacion. Algunas realizaciones comprenden un procesador configurado para analizar los datos y discernir la secuencia del acido nucleico objetivo y/o de su complemento.
En algunas realizaciones, el procesador usa un dispositivo que comprende una interfaz de usuario (por ejemplo, un teclado, botones, diales, conmutadores y similares) para recibir la entrada del usuario para dirigir una medicion. En algunas realizaciones, el dispositivo comprende ademas una salida de datos para transmitir (por ejemplo, mediante una conexion por cable o inalambrica) datos a un destino externo, por ejemplo, un ordenador, una pantalla, una red y/o un medio de almacenamiento externo.
En algunas realizaciones, la tecnologfa encuentra uso en el ensayo de la presencia de uno o mas acidos nucleicos y/o proporcionar la secuencia de uno o mas acidos nucleicos. Por consiguiente, la tecnologfa proporcionada en la presente encuentra uso en los campos medico, clmico y de medicina de emergencia. En algunas realizaciones, se usa un dispositivo para analizar muestras biologicas. En tal ensayo, la muestra biologica comprende un acido nucleico y la secuenciacion del acido nucleico es indicativa de un estado o una propiedad de la muestra y, en algunas realizaciones, del sujeto del que se tomo la muestra. Algunas muestras relevantes incluyen, pero no estan limitadas a, sangre total, linfa, plasma, suero, saliva, orina, heces, sudoracion, moco, lagrimas, lfquido cefalorraqrndeo, secrecion nasal, secrecion cervical o vaginal, semen, lfquido pleural, lfquido amniotico, lfquido peritoneal, lfquido del ofdo medio, lfquido articular, aspirado gastrico, homogeneizado tisular, homogeneizado celular o similares.
La secuencia de senales de salida proporciona la secuencia del ADN sintetizado y, por las reglas de complementariedad de bases, tambien proporciona por tanto la secuencia de la cadena plantilla.
Aparatos
5
10
15
20
25
30
35
40
45
50
55
60
65
Un aspecto adicional de la invencion proporciona un aparato para llevar a cabo los metodos o para preparar las composiciones de la tecnolog^a. Tal aparato podna comprender, por ejemplo, una pluralidad de plantillas y cebadores de acidos nucleicos unidos, preferiblemente covalentemente, a un soporte solido, junto con una polimerasa de acido nucleico, una pluralidad de nucleotidos o analogos de nucleotidos como los descritos anteriormente, y una funcionalidad para controlar la temperatura y/o las adiciones de nucleotidos. Preferiblemente, el aparato tambien comprende una funcionalidad de deteccion para detectar y distinguir senales de agrupaciones de acidos nucleicos individuales. Dicha funcionalidad de deteccion podna comprender un dispositivo acoplado a carga conectado operativamente a un dispositivo de amplificacion como un microscopio. Preferiblemente, cualquier aparato de la invencion se proporciona en una forma automatizada, por ejemplo, bajo el control de un programa de pasos y decisiones, por ejemplo, como se implementa en un software informatico.
Algunas realizaciones de dicho aparato incluyen una unidad de administracion y control de fluidos; una unidad de procesamiento de muestra; una unidad de deteccion de senales; y una unidad de adquisicion, analisis y control de datos. Varias realizaciones del aparato pueden proporcionar una secuenciacion automatizada que puede usarse para recopilar informacion de secuencia de una pluralidad de secuencias en paralelo, por ejemplo, sustancialmente de forma simultanea.
En varias realizaciones, la unidad de administracion y control de fluidos incluye un sistema de administracion de reactivos. El sistema de administracion de reactivos puede incluir un deposito de reactivos para el almacenamiento de varios reactivos (por ejemplo, composiciones de nucleotidos o analogos de nucleotidos de acuerdo con la tecnologfa). Los reactivos pueden incluir cebadores basados en ARN, cebadores de ADN directos/inversos, mezclas de oligonucleotidos para la secuenciacion por ligamiento, mezclas de nucleotidos para secuenciacion por smtesis, tampones, reactivos de lavado, reactivo de bloqueo, reactivos de agotamiento y similares. Ademas, el sistema de administracion de reactivos puede incluir un sistema de pipeteo o un sistema de flujo continuo que conecta la unidad de procesamiento de muestra con el deposito de reactivos.
En varias realizaciones, la unidad de procesamiento de muestras puede incluir una camara de muestra, como una celda de flujo, un sustrato, una micromatriz, una bandeja de multiples pocillos o similar. La unidad de procesamiento de muestras puede incluir multiples carriles, multiples canales, multiples pocillos u otros modos de procesamiento de conjuntos de muestras multiples de manera sustancialmente simultanea. Adicionalmente, la unidad de procesamiento de muestras puede incluir multiples camaras de muestras para permitir el procesamiento de multiples ejecuciones simultaneamente. En realizaciones particulares, el sistema puede realizar la deteccion de senales en una camara de muestras a la vez que procesa sustancialmente de manera simultanea otra camara de muestras. Adicionalmente, la unidad de procesamiento de muestras puede incluir un sistema de automatizacion para mover o manipular la camara de muestras.
En varias realizaciones, la unidad de deteccion de senales puede incluir un sensor de obtencion de imagenes o deteccion. La unidad de deteccion de senales puede incluir un sistema de excitacion para provocar que una sonda, como un colorante fluorescente, emita una senal. El sistema de excitacion puede incluir una fuente de iluminacion, como una lampara de arco, un laser, un diodo emisor de luz (LED) o similar. En realizaciones particulares, la unidad de deteccion de senales puede incluir optica para la transmision de luz desde una fuente de iluminacion a la muestra o desde la muestra al sensor de obtencion de imagenes o deteccion. Alternativamente, la unidad de deteccion de senales puede no incluir una fuente de iluminacion, como, por ejemplo, cuando se produce una senal espontaneamente como resultado de una reaccion de secuenciacion. Por ejemplo, una senal puede producirse por la interaccion de una fraccion liberada, como un ion liberado que interactua con una capa sensible a iones, o un pirofosfato que reacciona con una enzima u otro catalizador para producir una senal quimioluminiscente.
En varias realizaciones, una unidad de analisis y control de adquisicion de datos puede monitorizar varios parametros del sistema. Los parametros del sistema pueden incluir la temperatura de varias partes del instrumento, como una unidad de procesamiento de muestras o depositos de reactivos, volumenes de varios reactivos, el estado de varios subcomponentes del sistema, como un manipulador, un motor a pasos, una bomba o similares, o cualquier combinacion de los mismos.
Un experto en la tecnica apreciara que pueden usarse varias realizaciones de dicho instrumento para poner en practica una variedad de metodos de secuenciacion que incluyen metodos basados en ligamiento, secuenciacion por smtesis, metodos de moleculas individuales y otras tecnicas de secuenciacion. La secuenciacion por ligamiento puede incluir tecnicas de ligamiento unico, o tecnicas de ligamiento de cambio donde se realizan multiples ligamientos en secuencia en un unico primario. La secuenciacion por smtesis puede incluir la incorporacion de nucleotidos marcados con colorante, terminacion de cadena o similares. Las tecnicas de moleculas individuales pueden incluir secuenciacion escalonada, donde las reacciones de secuenciacion se pausan para determinar la identidad del nucleotido incorporado.
En varias realizaciones, el instrumento de secuenciacion puede determinar la secuencia de un acido nucleico, como un polinucleotido o un oligonucleotido. El acido nucleico puede incluir ADN o ARN, y puede ser de cadena sencilla, como ADNmc y ARN, o de cadena doble, como ADNcd o un par de ARN/ADNc. En varias
5
10
15
20
25
30
35
40
45
50
55
60
65
realizaciones, el acido nucleico puede incluir o derivarse de una biblioteca de fragmentos, una biblioteca de parejas acopladas, un fragmento ChIP o similar. En realizaciones particulares, el instrumento de secuenciacion puede obtener la informacion de secuencia de un grupo de moleculas de acido nucleico sustancialmente identicas.
En varias realizaciones, el instrumento de secuenciacion puede producir datos de lectura de la secuenciacion de acidos nucleicos en una variedad de diferentes tipos/formatos de archivos de datos de salida, incluyendo, pero no limitados a: *.fasta, *.csfasta, *seq.txt, *qseq.txt, *.fastq, *.sff, *prb.txt, *.sms, *srs y/o *.qv.
Algunas realizaciones comprenden un sistema para reconstruir una secuencia de acido nucleico, por ejemplo, una secuencia de base generada de dos bases o una secuencia de cuatro bases "fusionada", de acuerdo con las varias realizaciones proporcionadas en la presente. El sistema puede incluir un secuenciador de acidos nucleicos, un almacenamiento de datos de secuencias de la muestra, un almacenamiento de datos de secuencias de referencia y un dispositivo/servidor/nodo de computacion analftica. En varias realizaciones, el dispositivo/servidor/nodo de computacion analftica puede ser una estacion de trabajo, un ordenador central, un ordenador personal, un dispositivo movil, etc.
El secuenciador de acidos nucleicos puede configurarse para analizar (por ejemplo, interrogar) un fragmento de acido nucleico (por ejemplo, fragmento individual, fragmento de pareja acoplada, fragmento de extremo emparejado, etc.) utilizando todas las variedades apropiadas de tecnicas, plataformas o tecnologfas para obtener informacion de la secuencia de acido nucleico, por ejemplo, usando una secuenciacion de conjuntos por smtesis. En varias realizaciones, el secuenciador de acidos nucleicos puede estar en comunicacion con el almacenamiento de datos de secuencia de muestra directamente a traves de un cable de datos (por ejemplo, un cable en serie, una conexion de cable directa, etc.) o enlace de bus o, alternativamente, a traves de una conexion de red (por ejemplo, Internet, LAN, WAN, VPN, etc.). En varias realizaciones, la conexion de red puede ser una conexion ffsica "cableada". Por ejemplo, el secuenciador de acidos nucleicos puede estar conectado de forma comunicativa (a traves de Categona 5 (CAT5), fibra optica o cableado equivalente) a un servidor de datos que puede conectarse de forma comunicativa (a traves de CAT5, fibra optica o cableado equivalente) a traves de Internet y al almacenamiento de datos de secuencias de muestra. En varias realizaciones, la conexion de red puede ser una conexion de red inalambrica (por ejemplo, Wi-Fi, WLAN, etc.), por ejemplo, utilizando un formato de transmision 802.11b/g o equivalente. En la practica, la conexion de red utilizada depende de los requisitos particulares del sistema. En varias realizaciones, el almacenamiento de datos de secuencias de muestra puede ser una parte integrada del secuenciador de acidos nucleicos.
En varias realizaciones, el almacenamiento de datos de secuencias de muestra puede ser cualquier dispositivo, sistema o implementacion de almacenamiento de bases de datos (por ejemplo, particion de almacenamiento de datos, etc.) que esta configurado para organizar y almacenar datos de lecturas de secuencias de acidos nucleicos generados por el secuenciador de acidos nucleicos de tal manera que los datos pueden buscarse y recuperarse manualmente (por ejemplo, por un administrador de base de datos/operador de cliente) o automaticamente a traves de un programa informatico/aplicacion/script de software. En varias realizaciones, el almacenamiento de datos de referencia puede ser cualquier dispositivo de base de datos, sistema de almacenamiento, o implementacion (por ejemplo, particion de almacenamiento de datos, etc.) que este configurado para organizar y almacenar secuencias de referencia (por ejemplo, genoma completo/parcial, exoma completo/parcial, etc.) de tal manera que los datos puedan buscarse y recuperarse manualmente (por ejemplo, por un administrador de base de datos/operador de cliente) o automaticamente a traves de un programa informatico/aplicacion/script de software. En varias realizaciones, los datos de lecturas de secuencias de acidos nucleicos de muestra pueden almacenarse en el almacenamiento de datos de secuencias de muestra y/o el almacenamiento de datos de referencia en una variedad de tipos/formatos de archivos de datos diferentes, incluyendo, pero no limitados a: *.fasta, *.csfasta, *seq.txt, *qseq.txt, *.fastq, *.sff, *prb.txt, *.sms, *srs y/o *.qv.
En varias realizaciones, el almacenamiento de datos de secuencias de muestra y el almacenamiento de datos de referencia son dispositivos/sistemas autonomos independientes o implementados en diferentes dispositivos. En varias realizaciones, el almacenamiento de datos de secuencias de muestra y el almacenamiento de datos de referencia se implementan en el mismo dispositivo/sistema. En varias realizaciones, el almacenamiento de datos de secuencias de muestra y/o el almacenamiento de datos de referencia pueden implementarse en el dispositivo/servidor/nodo de computacion analftica.
El dispositivo/servidor/nodo de computacion analftica puede estar en comunicacion con el almacenamiento de datos de secuencias de muestra y el almacenamiento de datos de referencia directamente a traves de un cable de datos (por ejemplo, cable serial, conexion de cable directo, etc.) o enlace de bus o, alternativamente, a traves de una conexion de red (por ejemplo, Internet, LAN, WAN, VPN, etc.). En varias realizaciones, el dispositivo/servidor/nodo de computacion analftica puede alojar un motor de mapeo de referencia, un modulo de mapeo de novo y/o un motor de analisis terciario. En varias realizaciones, el motor de mapeo de referencia puede configurarse para obtener lecturas de secuencias de acidos nucleicos de muestra del almacenamiento de datos de muestra y mapearlas contra una o mas secuencias de referencia obtenidas del almacenamiento de datos de referencia para ensamblar las lecturas en una secuencia que es similar pero no necesariamente identica a la
5
10
15
20
25
30
35
40
45
50
55
60
65
secuencia de referencia usando todas las variedades de tecnicas y metodos de mapeo/alineacion de referencia. La secuencia reensamblada puede luego analizarse adicionalmente mediante uno o mas motores de analisis terciarios opcionales para identificar diferencias en la composicion genetica (genotipo), expresion genica o estado epigenetico de los individuos que pueden dar como resultado grandes diferencias en las caractensticas ffsicas (fenotipo). Por ejemplo, en varias realizaciones, el motor de analisis terciario puede configurarse para identificar varias variantes genomicas (en la secuencia ensamblada) debidas a mutaciones, recombinacion/cruce, o deriva genetica. Los ejemplos de tipos de variantes genomicas incluyen, pero no estan limitados a: polimorfismos de nucleotido unico (SNP), variaciones en el numero de copias (CNV), inserciones/deleciones (Indels), inversiones, etc.
El modulo de mapeo de novo opcional puede configurarse para ensamblar lecturas de secuencias de acidos nucleicos de muestra a partir del almacenamiento de datos de muestras en secuencias nuevas y previamente desconocidas.
Debe entenderse, sin embargo, que los varios motores y modulos alojados en el dispositivo/servidor/nodo de computacion analftica pueden combinarse o contraerse en un unico motor o modulo, dependiendo de los requisitos de la aplicacion particular o de la arquitectura del sistema. Ademas, en varias realizaciones, el dispositivo/servidor/nodo de computacion analftica puede alojar motores o modulos adicionales segun lo necesite la aplicacion particular o la arquitectura del sistema.
En varias realizaciones, los motores de mapeo y/o de analisis terciario estan configurados para procesar las lecturas de secuencias de acidos nucleicos y/o de referencia en el espacio de proporcion de senal. En varias realizaciones, los datos de lecturas de secuenciacion de acidos nucleicos de muestra y secuencias referenciadas pueden suministrarse al dispositivo/servidor/nodo de computacion analftica en una variedad de tipos/formatos de archivos de datos de entrada diferentes, incluyendo, pero no limitados a: *fasta, *csfasta, *seq.txt, *qseq.txt, *.fastq, *sff, *prb.txt, *sms, *srs y/o *.qv.
Usos
La tecnologfa proporciona el uso de los metodos de la tecnologfa, o las composiciones de la tecnologfa, para secuenciar y/o re-secuenciar moleculas de acido nucleico para la monitorizacion de la expresion genica, elaborar perfiles de diversidad genetica, diagnostico, seleccion, secuenciacion del genoma completo, descubrimiento y puntuacion de polimorfismos del genoma completo, o cualquier otra aplicacion que implique el analisis de acidos nucleicos cuando la informacion de secuencia o de secuencia parcial sea relevante.
Kits
Un aspecto adicional de la invencion proporciona un kit para su uso en secuenciacion, re-secuenciacion, monitorizacion de la expresion genica, elaboracion de perfiles de diversidad genetica, diagnostico, seleccion, secuenciacion del genoma completo, descubrimiento y puntuacion de polimorfismos del genoma completo, o cualquier otra aplicacion que implique la secuenciacion de acidos nucleicos. En algunas realizaciones, los kits comprenden por lo menos un nucleotido o analogo de nucleotido marcado, marcado de acuerdo con la tecnologfa descrita.
Ejemplos
Ejemplo 1 - Secuenciacion de ADN de proxima generacion con nucleotidos degenerados
Durante el desarrollo de las realizaciones de la tecnologfa, se realizaron experimentos en los que se determino una secuencia degenerada usando una mezcla de nucleotidos degenerada y la secuencia degenerada se uso para identificar una secuencia objetivo de ADN.
Materiales y metodos
Se construyo una biblioteca de ADN a partir de los productos de una reaccion de amplificacion del genoma completo de transcriptasa inversa. La plantilla era el virus de ARN, MS2, que es un bacteriofago bien descrito. Esta biblioteca ha sido secuenciada anteriormente usando secuenciacion convencional de 4 bases (por ejemplo, tecnologfa de secuenciacion Ion Torrent). El producto de la amplificacion del genoma completo se secuencio con la tecnologfa de secuenciacion de ADN de Proxima Generacion Ion Torrent con y sin bases degeneradas. Para este experimento, las bases de adenosina (A) y citosina (C) se mantuvieron separadas mientras que las bases de guanina (G) y timina (T) se mezclaron entre sf (por ejemplo, G/T degenerada) y la mezcla se uso en lugar de tanto G como T. Aparte de las bases mixtas G/T, se utilizaron condiciones estandar para la secuenciacion con la plataforma Ion Torrent.
Resultados
5
10
15
20
25
30
35
40
45
50
55
60
65
Las reacciones de secuenciacion de ADN tuvieron exito en generar 64 megabases (64 millones de bases) de datos de secuencia. La secuencia de datos comprende 573.000 lecturas totales que tienen una longitud de lectura media de 116 pb. Se usaron dos lecturas experimentales elegidas aleatoriamente adquiridas usando realizaciones de la tecnologfa (Figura 2, "lectura 2.1" y Figura 3, "lectura 3.1") para demostrar la capacidad de mapear las secuencias adquiridas por el experimento con el genoma MS2 conocido (numero de acceso NC_001417.2).
Como se muestra para cada lectura a continuacion en la Figura 2 y en la Figura 3, la "secuencia observada" es la lectura de secuencia generada por el secuenciador Ion Torrent bajo condiciones estandar. Como se muestra para cada lectura a continuacion en la Figura 2 y la Figura 3, la "secuencia degenerada" se genero bajo las condiciones experimentales en las que las G y las T se mezclaron entre sf y se usaron en lugar de tanto G como T. La secuencia degenerada se muestra usando el codigo de unica letra degenerado de K, que denota una posicion en la que se encuentra G o T. El software del secuenciador de Ion Torrent llamo a las K degeneradas como G o T ya que el software y el sistema de Ion Torrent no estan disenados para usar bases mixtas; como tal, los resultados se convirtieron manualmente para usar la K de codigo degenerado. La "homologfa" indicada denota el emparejamiento de la "secuencia degenerada" con el genoma MS2. Para la lectura 2.1, la alineacion de la lectura con el genoma MS2 identifico mas de 180 bases, lo que se corresponde con una precision del 94%. Para la lectura 3.1, la alineacion de la lectura con el genoma MS2 identificado mas de 193 bases, que se corresponde con una precision del 90%.
El analisis de los datos indico que los errores se debfan al secuenciador usado y no espedficamente al resultado de los nucleotidos degenerados (mixtos).
En resumen, los datos recogidos en este experimento demostraron que el uso de nucleotidos degenerados con una tecnologfa de secuenciacion de proxima generacion identifica correctamente un objetivo.
Varias modificaciones y variaciones de las composiciones, metodos, sistemas y usos de la tecnologfa descritos seran evidentes para los expertos en la tecnica sin apartarse del alcance y el esprntu de la tecnologfa tal como se describe. Aunque la tecnologfa se ha descrito en relacion con realizaciones ejemplares espedficas, debe entenderse que la invencion tal como se reivindica no debena estar indebidamente limitada a tales realizaciones espedficas. De hecho, varias modificaciones de los modos descritos para llevar a cabo la invencion que son obvias para los expertos en campos relacionados se pretende que este dentro del alcance de las reivindicaciones siguientes.

Claims (14)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo para identificar un acido nucleico en una muestra, el metodo comprendiendo:
    (a) determinar una secuencia degenerada de dos bases del acido nucleico objetivo en la muestra, usando un metodo de secuenciacion que determina una secuencia degenerada de dos bases del acido nucleico objetivo sin determinar una secuencia de cuatro bases del acido nucleico objetivo, en donde la secuencia degenerada de dos bases del acido nucleico objetivo se determina sin determinar o conocer de otra manera la secuencia de cuatro bases del acido nucleico objetivo; y
    (b) comparar la secuencia degenerada de dos bases del acido nucleico objetivo en la muestra determinada en el paso (a) con una secuencia de referencia conocida para identificar el acido nucleico objetivo, en donde:
    (i) el codigo degenerado de dos bases consiste de un primer elemento que representa una base de purina y un segundo elemento que representa una base de pirimidina;
    (ii) el codigo degenerado de dos bases consiste de un primer elemento que representa una base ceto y un segundo elemento que representa una base amino; o
    (iii) el codigo degenerado de dos bases consiste de un primer elemento que representa una base fuertemente enlazadora de hidrogeno y un segundo elemento que representa una base debilmente enlazadora de hidrogeno.
  2. 2. El metodo de la reivindicacion 1 en donde el codigo degenerado de dos bases:
    (i) consiste de un primer elemento que representa una base que comprende adenina (A) o guanina (G) y un segundo elemento que representa una base que comprende citosina (C) o timina (T);
    (ii) consiste de un primer elemento que representa una base que comprende A o C y un segundo elemento que representa una base que comprende G o T; o
    (iii) consiste de un primer elemento que representa una base que comprende G o C y un segundo elemento que representa una base que comprende A o T.
  3. 3. El metodo de la reivindicacion 2 en donde:
    (i) las purinas A y G estan marcadas con un primer marcador y las pirimidinas C y T estan marcadas con un segundo marcador;
    (ii) las bases ceto G y T estan marcadas con un primer marcador y las bases amino A y C estan marcadas con un segundo marcador; o
    (iii) las bases fuertemente enlazadoras de hidrogeno C y G estan marcadas con un primer marcador y las bases debilmente enlazadoras de hidrogeno A y T estan marcadas con un segundo marcador.
  4. 4. El metodo de la reivindicacion 1 que comprende ademas proporcionar un primer nucleotido y un segundo nucleotido en donde el primer nucleotido esta marcado con un marcador y el segundo nucleotido esta marcado con dicho marcador.
  5. 5. El metodo de la reivindicacion 1 que comprende ademas proporcionar un primer nucleotido, un segundo nucleotido, un tercer nucleotido y un cuarto nucleotido, en donde el primer nucleotido esta marcado con un primer marcador, el segundo nucleotido esta marcado con dicho primer marcador, el tercer nucleotido esta marcado con un segundo marcador, y el cuarto nucleotido esta marcado con dicha segundo marcador.
  6. 6. El metodo de la reivindicacion 5 en donde el primer marcador es una primera fraccion fluorescente y en donde el segundo marcador es una segunda fraccion fluorescente.
  7. 7. El metodo de la reivindicacion 1 que comprende ademas proporcionar un analogo de nucleotido marcado en donde la base del analogo de nucleotido marcado se empareja con un primer nucleotido o un segundo nucleotido de acuerdo con una regla de emparejamiento de bases degenerada.
  8. 8. El metodo de la reivindicacion 1 que comprende ademas proporcionar un primer analogo de nucleotido marcado y un segundo analogo de nucleotido marcado en donde la base del primer analogo de nucleotido marcado se empareja con un primer nucleotido o un segundo nucleotido y la base del segundo analogo de nucleotido marcado se empareja con un tercer nucleotido o un cuarto nucleotido.
  9. 9. El metodo de la reivindicacion 8 en donde el primer analogo de nucleotido marcado esta marcado con una primera fraccion fluorescente y en donde el segundo analogo de nucleotido marcado esta marcado con una segunda fraccion fluorescente.
  10. 10. El metodo de cualquier reivindicacion anterior en donde la determinacion comprende medir una caractenstica ffsica, qmmica y/o electronica de una base y diferenciar entre una base de purina y una base de pirimidina, entre una
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    base ceto y una base amino, y/o entre una base fuertemente enlazadora de hidrogeno y una base debilmente enlazadora de hidrogeno.
  11. 11. El metodo de la reivindicacion 6 o la reivindicacion 9 en donde la determinacion comprende la deteccion de la emision fluorescente de un marcador de nucleotido.
  12. 12. El metodo de cualquier reivindicacion anterior en donde se usa el metodo de secuenciacion basado en conjuntos.
  13. 13. El metodo de cualquier reivindicacion anterior en donde se usa el metodo de secuenciacion basado en moleculas individuales.
  14. 14. El metodo de cualquier reivindicacion anterior en donde el acido nucleico objetivo en la muestra es un ARNm, ARN ribosomico, ADN genomico, o ADNc.
ES13784766.1T 2012-05-02 2013-05-02 Secuenciación de ADN Active ES2683707T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261641715P 2012-05-02 2012-05-02
US201261641715P 2012-05-02
US201361787437P 2013-03-15 2013-03-15
US201361787437P 2013-03-15
PCT/US2013/039295 WO2013166303A1 (en) 2012-05-02 2013-05-02 Dna sequencing

Publications (1)

Publication Number Publication Date
ES2683707T3 true ES2683707T3 (es) 2018-09-27

Family

ID=49514890

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13784766.1T Active ES2683707T3 (es) 2012-05-02 2013-05-02 Secuenciación de ADN

Country Status (4)

Country Link
US (2) US10202642B2 (es)
EP (1) EP2844772B1 (es)
ES (1) ES2683707T3 (es)
WO (1) WO2013166303A1 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117385014A (zh) 2016-08-15 2024-01-12 加利福尼亚太平洋生物科学股份有限公司 测序核酸的方法和系统
US9951385B1 (en) * 2017-04-25 2018-04-24 Omniome, Inc. Methods and apparatus that increase sequencing-by-binding efficiency
US10161003B2 (en) 2017-04-25 2018-12-25 Omniome, Inc. Methods and apparatus that increase sequencing-by-binding efficiency
RU2679494C1 (ru) * 2017-12-26 2019-02-11 Ооо "Гамма-Днк" Способ безметочного одномолекулярного секвенирования ДНК и устройство для его реализации
KR102138864B1 (ko) * 2018-04-11 2020-07-28 경희대학교 산학협력단 Dna 디지털 데이터 저장 장치 및 저장 방법, 그리고 디코딩 방법
CN112102883B (zh) * 2020-08-20 2023-12-08 深圳华大生命科学研究院 一种fastq文件压缩中的碱基序列编码方法和系统

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4351760A (en) 1979-09-07 1982-09-28 Syva Company Novel alkyl substituted fluorescent compounds and polyamino acid conjugates
US4458066A (en) 1980-02-29 1984-07-03 University Patents, Inc. Process for preparing polynucleotides
US4415732A (en) 1981-03-27 1983-11-15 University Patents, Inc. Phosphoramidite compounds and processes
US4973679A (en) 1981-03-27 1990-11-27 University Patents, Inc. Process for oligonucleo tide synthesis using phosphormidite intermediates
DE3329892A1 (de) 1983-08-18 1985-03-07 Köster, Hubert, Prof. Dr., 2000 Hamburg Verfahren zur herstellung von oligonucleotiden
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4739044A (en) 1985-06-13 1988-04-19 Amgen Method for derivitization of polynucleotides
US4757141A (en) 1985-08-26 1988-07-12 Applied Biosystems, Incorporated Amino-derivatized phosphite and phosphate linking agents, phosphoramidite precursors, and useful conjugates thereof
FR2596761B1 (fr) 1986-04-08 1988-05-20 Commissariat Energie Atomique Derives de nucleosides et leur utilisation pour la synthese d'oligonucleotides
US4889818A (en) 1986-08-22 1989-12-26 Cetus Corporation Purified thermostable enzyme
CA1323293C (en) 1987-12-11 1993-10-19 Keith C. Backman Assay using template-dependent nucleic acid probe reorganization
US5432272A (en) * 1990-10-09 1995-07-11 Benner; Steven A. Method for incorporating into a DNA or RNA oligonucleotide using nucleotides bearing heterocyclic bases
GB9119378D0 (en) * 1991-09-11 1991-10-23 Medical Res Council Improvements in oligonucleotide primers
WO1993019205A1 (en) 1992-03-19 1993-09-30 The Regents Of The University Of California Multiple tag labeling method for dna sequencing
US5714330A (en) 1994-04-04 1998-02-03 Lynx Therapeutics, Inc. DNA sequencing by stepwise ligation and cleavage
CA2195562A1 (en) 1994-08-19 1996-02-29 Pe Corporation (Ny) Coupled amplification and ligation method
US5695934A (en) 1994-10-13 1997-12-09 Lynx Therapeutics, Inc. Massively parallel sequencing of sorted polynucleotides
SE9403612D0 (sv) * 1994-10-21 1994-10-21 Pharmacia Biotech Ab Method for identifying two nucleic acid base code sequences
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
WO1998023733A2 (en) 1996-11-27 1998-06-04 University Of Washington Thermostable polymerases having altered fidelity
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
JP2001519538A (ja) 1997-10-10 2001-10-23 プレジデント・アンド・フェローズ・オブ・ハーバード・カレッジ 核酸アレイのレプリカ増幅
US6485944B1 (en) 1997-10-10 2002-11-26 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
US6511803B1 (en) 1997-10-10 2003-01-28 President And Fellows Of Harvard College Replica amplification of nucleic acid arrays
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6620584B1 (en) * 1999-05-20 2003-09-16 Illumina Combinatorial decoding of random nucleic acid arrays
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
WO2001023610A2 (en) 1999-09-29 2001-04-05 Solexa Ltd. Polynucleotide sequencing
US6329178B1 (en) 2000-01-14 2001-12-11 University Of Washington DNA polymerase mutant having one or more mutations in the active site
US6936702B2 (en) 2000-06-07 2005-08-30 Li-Cor, Inc. Charge-switch nucleotides
US20050153284A1 (en) * 2000-06-30 2005-07-14 Zeno Foldes-Papp Single molecule sequencing method
EP1368460B1 (en) 2000-07-07 2007-10-31 Visigen Biotechnologies, Inc. Real-time sequence determination
US7668697B2 (en) 2006-02-06 2010-02-23 Andrei Volkov Method for analyzing dynamic detectable events at the single molecule level
EP3002289B1 (en) 2002-08-23 2018-02-28 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
WO2005045073A1 (en) * 2003-11-10 2005-05-19 Seegene, Inc. Method for amplifying unknown dna sequence adjacent to known sequence
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
AU2005250432B2 (en) * 2004-05-28 2011-09-15 Asuragen, Inc. Methods and compositions involving microRNA
US7264934B2 (en) 2004-06-10 2007-09-04 Ge Healthcare Bio-Sciences Corp. Rapid parallel nucleic acid analysis
EP1766075B1 (en) 2004-06-10 2010-03-17 Amersham Biosciences Corp. Method for nucleic acid analysis
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
US7476503B2 (en) 2004-09-17 2009-01-13 Pacific Biosciences Of California, Inc. Apparatus and method for performing nucleic acid analysis
US20070048748A1 (en) 2004-09-24 2007-03-01 Li-Cor, Inc. Mutant polymerases for sequencing and genotyping
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
EP2239342A3 (en) 2005-02-01 2010-11-03 AB Advanced Genetic Analysis Corporation Reagents, methods and libraries for bead-based sequencing
US20070141598A1 (en) 2005-02-09 2007-06-21 Pacific Biosciences Of California, Inc. Nucleotide Compositions and Uses Thereof
US7805081B2 (en) 2005-08-11 2010-09-28 Pacific Biosciences Of California, Inc. Methods and systems for monitoring multiple optical signals from a single source
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
US7763423B2 (en) 2005-09-30 2010-07-27 Pacific Biosciences Of California, Inc. Substrates having low density reactive groups for monitoring enzyme activity
US7935310B2 (en) 2005-11-28 2011-05-03 Pacific Biosciences Of California, Inc. Uniform surfaces for hybrid material substrate and methods for making and using same
US7998717B2 (en) 2005-12-02 2011-08-16 Pacific Biosciences Of California, Inc. Mitigation of photodamage in analytical reactions
CA2633524A1 (en) 2005-12-22 2007-07-05 Pacific Biosciences Of California, Inc. Polymerases for nucleotide analogue incorporation
CA2633476C (en) 2005-12-22 2015-04-21 Pacific Biosciences Of California, Inc. Active surface coupled polymerases
US7692783B2 (en) 2006-02-13 2010-04-06 Pacific Biosciences Of California Methods and systems for simultaneous real-time monitoring of optical signals from multiple sources
US7995202B2 (en) 2006-02-13 2011-08-09 Pacific Biosciences Of California, Inc. Methods and systems for simultaneous real-time monitoring of optical signals from multiple sources
US7715001B2 (en) 2006-02-13 2010-05-11 Pacific Biosciences Of California, Inc. Methods and systems for simultaneous real-time monitoring of optical signals from multiple sources
EP1994182B1 (en) * 2006-03-15 2019-05-29 Siemens Healthcare Diagnostics Inc. Degenerate nucleobase analogs
US8975216B2 (en) 2006-03-30 2015-03-10 Pacific Biosciences Of California Articles having localized molecules disposed thereon and methods of producing same
US20080050747A1 (en) 2006-03-30 2008-02-28 Pacific Biosciences Of California, Inc. Articles having localized molecules disposed thereon and methods of producing and using same
US7563574B2 (en) 2006-03-31 2009-07-21 Pacific Biosciences Of California, Inc. Methods, systems and compositions for monitoring enzyme activity and applications thereof
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
AU2007261114B2 (en) 2006-06-12 2012-07-12 Pacific Biosciences Of California, Inc. Substrates for performing analytical reactions
EP2029780A4 (en) 2006-06-16 2010-03-31 Pacific Biosciences California CONTROLLED INITIATION OF A PRIMARY EXTENSION
US20080241951A1 (en) 2006-07-20 2008-10-02 Visigen Biotechnologies, Inc. Method and apparatus for moving stage detection of single molecular events
WO2008028160A2 (en) 2006-09-01 2008-03-06 Pacific Biosciences Of California, Inc. Substrates, systems and methods for analyzing materials
US20080080059A1 (en) 2006-09-28 2008-04-03 Pacific Biosciences Of California, Inc. Modular optical components and systems incorporating same
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP2677309B9 (en) 2006-12-14 2014-11-19 Life Technologies Corporation Methods for sequencing a nucleic acid using large scale FET arrays, configured to measure a limited pH range
US8551704B2 (en) 2007-02-16 2013-10-08 Pacific Biosciences Of California, Inc. Controllable strand scission of mini circle DNA
ES2559313T3 (es) 2007-06-19 2016-02-11 Stratos Genomics Inc. Secuenciación de ácidos nucleicos de alto rendimiento por expansión
WO2009154733A2 (en) 2008-06-17 2009-12-23 Steven Albert Benner Polymerase incorporation of non-standard nucleotides
US20100227327A1 (en) * 2008-08-08 2010-09-09 Xiaoliang Sunney Xie Methods and compositions for continuous single-molecule nucleic acid sequencing by synthesis with fluorogenic nucleotides
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US20100301398A1 (en) 2009-05-29 2010-12-02 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
WO2010117804A2 (en) * 2009-03-30 2010-10-14 The Regents Of The University Of California Mostly natural dna sequencing by synthesis
WO2010127304A2 (en) * 2009-05-01 2010-11-04 Illumina, Inc. Sequencing methods
US9234239B2 (en) * 2009-10-23 2016-01-12 Life Technologies Corporation Systems and methods for error correction in DNA sequencing

Also Published As

Publication number Publication date
US20150184238A1 (en) 2015-07-02
US20190106744A1 (en) 2019-04-11
WO2013166303A1 (en) 2013-11-07
EP2844772A1 (en) 2015-03-11
EP2844772B1 (en) 2018-07-11
US10202642B2 (en) 2019-02-12
EP2844772A4 (en) 2016-01-20

Similar Documents

Publication Publication Date Title
ES2764096T3 (es) Bibliotecas de secuenciación de próxima generación
ES2683707T3 (es) Secuenciación de ADN
EP2427572B1 (en) Sequencing methods
ES2626058T3 (es) Cebadores y métodos de amplificación
US11359236B2 (en) DNA sequencing
ES2683978T3 (es) Secuenciación de ADN