ES2679996T3 - Secuenciación multi-etiqueta y análisis ecogenómico - Google Patents

Secuenciación multi-etiqueta y análisis ecogenómico Download PDF

Info

Publication number
ES2679996T3
ES2679996T3 ES12161878.9T ES12161878T ES2679996T3 ES 2679996 T3 ES2679996 T3 ES 2679996T3 ES 12161878 T ES12161878 T ES 12161878T ES 2679996 T3 ES2679996 T3 ES 2679996T3
Authority
ES
Spain
Prior art keywords
sequence
samples
primers
tag
primer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12161878.9T
Other languages
English (en)
Inventor
Patrick M. GILLEVET
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biospherex LLC
Original Assignee
Biospherex LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biospherex LLC filed Critical Biospherex LLC
Application granted granted Critical
Publication of ES2679996T3 publication Critical patent/ES2679996T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Abstract

Un kit adecuado para la amplificación y secuenciación múltiplex, que comprende: al menos 5 pares de cebadores directos e inversos etiquetados para la amplificación dispuestos por separado, comprendiendo cebador directo e inverso de dicho par de cebadores, en orden 5' a 3': una secuencia etiqueta, en donde la secuencia etiqueta en cada uno de dichos pares de cebadores es diferente de la secuencia etiqueta de los otros pares de cebadores; y una secuencia de cebado específica para una secuencia diana, en donde la secuencia de cebado en cada uno de dichos pares de cebadores es la misma; y en donde: la secuencia etiqueta tiene de 4 a 36 nucleótidos de longitud y la secuencia de cebado es complementaria a una secuencia diana localizada en posición 3' con respecto a una secuencia de ARNr 16S; o la secuencia etiqueta tiene de 6 a 36 nucleótidos de longitud y la secuencia de cebado es complementaria a una secuencia diana localizada en posición 3' con respecto a una secuencia de ARNr 16S, una secuencia de ARNr 18S, una secuencia ITS, una secuencia mitocondrial, una secuencia de microsatélites, una secuencia de enzima metabólica, o una secuencia de enfermedad genética.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Secuenciación multi-etiqueta y análisis ecogenómico Solicitudes relacionadas
Esta solicitud es una continuación de parte y reivindica el beneficio completo de prioridad de la solicitud provisional de los Estados Unidos número 60/858.948, presentada el 15 de Noviembre de 2006 por Patrick Gillevet para Secuenciación Multietiqueta y Análisis Ecogenómico.
Campo de la Invención
La invención se refiere a kits adecuados para la amplificación y secuenciación múltiple.
Declaración de Derechos del Gobierno
El trabajo descrito en la presente memoria se realizó en parte con el apoyo del gobierno con la subvención Núm. 1R43DK074275-01A2 otorgada por el Instituto Nacional de la Diabetes y las Enfermedades Digestivas y del Riñón de los Estados Unidos, y por lo tanto el Gobierno de los Estados Unidos puede tener ciertos derechos en la invención.
Antecedentes
Las tecnologías para la determinación de secuencias de proteínas, ARN y ADN, han sido fundamentales en el desarrollo de la biología molecular moderna. Durante los últimos quince años, la secuenciación del ADN en particular ha sido la tecnología central en una revolución en curso en el alcance y la profundidad de comprensión de la organización y la función genómicas. El desarrollo continuo de la tecnología de secuenciación está, quizás, mejor simbolizado por la determinación de la secuencia completa de un genoma humano.
El proyecto de secuenciación del genoma humano sirvió para varios propósitos. Sirvió como plataforma para el desarrollo programático de la mejora de las tecnologías de secuenciación y de los esfuerzos de secuenciación del genoma. También sirvió para establecer un marco para la producción y distribución de la información de la secuenciación de proyectos de secuenciación a escala cada vez más grandes. Estos proyectos proporcionaron secuencias genómicas completas de una sucesión de organismos modelo de complementos genéticos cada vez más grandes. Estos logros, que culminaron con la realización de una secuencia del genoma humano, destacan el poder muy considerable y el rendimiento de la tecnología de secuenciación contemporánea.
Al mismo tiempo, sin embargo, ponen de relieve las limitaciones de la tecnología actual y la necesidad de considerables mejoras en la velocidad, la precisión y el coste antes de que la secuenciación pueda ser explotada plenamente en la investigación y la medicina. Entre las áreas que se puede ver más fácilmente que exigen avances en la tecnología de secuenciación se encuentran las aplicaciones de secuenciación clínicas que requieren información del genoma completo, las aplicaciones ambientales que involucran a múltiples organismos en mezclas, y las aplicaciones que requieren el procesamiento de muchas muestras. Estas son, por supuesto, solo unas pocas entre un gran número de áreas que se requieren o se beneficiarán en gran medida de métodos de secuenciación más capaces y menos costosos.
Hasta la fecha, prácticamente todas las secuenciaciones se han realizado mediante métodos de elongación de la cadena de Sanger. Todos los métodos de Sanger requieren la separación de los productos de elongación con una resolución de una única base. Actualmente, si bien todavía se utiliza PAGE para este propósito en algunos secuenciadores comerciales, la electroforesis capilar es el método de elección para secuenciadores de ADN de alto rendimiento. Los métodos de separación tanto basados en gel como basados en capilares consumen mucho tiempo, son costosos, y tienen un rendimiento limitado. Los métodos basados en chips, tales como Affymetrix GeneChips y secuenciación Hyseq mediante métodos de hibridación, requieren chips que pueden ser producidos solo por procesos de fabricación de capital intensivo y complejos. Estas limitaciones representan obstáculos a la utilización de secuenciación para muchos propósitos, tales como los descritos anteriormente. En parte para superar las limitaciones impuestas por la necesidad de técnicas de separación poderosas en métodos de secuenciación de terminación de la cadena y los requisitos de fabricación de los métodos basados en chips, se están desarrollando actualmente numerosas tecnologías que no requieren la separación de los productos de elongación con resolución íntegra y no requieren chips.
Una tecnología avanzada de este tipo es un método basado en esferas, amplificación en emulsión, y pirosecuenciación desarrollado por 454 Life Sciences. (Véase Marguilles, et al. (2005) Nature 437: 376, particularmente en cuanto a los métodos mencionados anteriormente. El método utiliza una serie de etapas para depositar moléculas individuales de ADN amplificado en pocillos individuales de una placa que contiene pocillos de varios millones de picolitros. Las etapas aseguran que cada pocillo de la placa o bien no contenga ADN o bien contenga el ADN amplificado a partir de una sola molécula original. La pirosecuenciación se lleva a cabo en los pocillos mediante la elongación de un molde de cebador de la misma manera que en la secuenciación de Sanger. La pirosecuenciación no implica terminación de la cadena y no requiere la separación de los productos de elongación. En lugar de eso, la secuenciación prosigue paso a paso mediante ciclos de adición de una sola base. En cada ciclo una de las cuatro bases - A, T, G, o C - se incluye en la reacción de elongación. Las otras tres bases se omiten. Se
5
10
15
20
25
30
35
40
45
50
55
60
65
añade una base a la cadena en crecimiento si ésta es complementaria a la siguiente posición en el molde. Se produce luz cada vez que una base se incorpora a la secuencia complementaria en crecimiento. Interrogando con cada una de A, C, G o T sucesivamente, se puede determinar la identidad de la base en cada posición. Las reacciones de secuenciación se llevan a cabo en muchos pocillos simultáneamente. Las señales se recogen de todos los pocillos a la vez utilizando un detector de formación de imágenes. Por lo tanto, se puede determinar al mismo tiempo una multitud de secuencias.
En principio, cada pocillo que contiene un ADN emitirá una señal para solo una de las cuatro bases para cada posición. En la práctica, rondas de la misma base en dos o más posiciones sucesivas conducen a la emisión de señales proporcionalmente más fuertes para la primera posición en la ronda. En consecuencia, la lectura de la secuencia de un pocillo determinado es un poco más complicada señalando a continuación simplemente, para cada posición, cuál de las cuatro bases se añade. Sin embargo, puesto que las señales son proporcionales al número de incorporaciones, las secuencias pueden ser reconstruidas con precisión a partir de la intensidad de la señal para la mayoría de las rondas.
Se ha demostrado que la tecnología lee con precisión un promedio de alrededor de 250 bases por pocillo con una precisión aceptable. Un dispositivo ofrecido por 454 Life Sciences utiliza actualmente una "placa" de pocillos de picotitulación de 6,4 cm2 que contiene 1.600.000 pocillos de tamaño de picolitros para la secuenciación de aproximadamente 400.000 moldes diferentes. El rendimiento para una sola ronda utilizando esta placa actualmente es de aproximadamente 100 millones de bases en cuatro horas. Aunque se trata de un dispositivo de primera generación, su rendimiento es casi 100 veces mejor que los dispositivos de secuenciación de Sanger convencionales.
Se están desarrollando muchos otros métodos para la secuenciación de ultra-alto rendimiento por otras instituciones y empresas. La secuenciación mediante métodos de síntesis que dependen de la amplificación de la diana está siendo desarrollada y/o comercializada por George Church de la Universidad de Harvard, por Solexa, y por otros. Se han desarrollado y/o están siendo comercializados métodos de secuenciación mediante ligación por Applied Biosystems y Solexa, entre otros. Los métodos de matrices y secuenciación por hibridación están disponibles comercialmente y/o están siendo desarrollados por Affymetrix, Hyseq, Biotrove, Nimblegen, Illumina, y otros. Los métodos de secuenciación de moléculas individuales están siendo investigados por Helicos basándose en la secuenciación mediante síntesis y U.S. Genomics (entre otros) basándose en la poración.
Estos métodos representan una mejora considerable en el rendimiento respecto a los métodos anteriores, en algunos aspectos. Y prometen una mejora considerable en la economía también. Sin embargo, en la actualidad son muy costosos de implementar y utilizar, se limitan a lecturas relativamente cortas y, aunque son paralelos a gran escala, tienen limitaciones que deben superarse para alcanzar su pleno potencial.
Una desventaja concreta de estos métodos, por ejemplo, es que las muestras deben ser procesadas en serie, reduciendo el rendimiento y aumentando el coste. Esto es particularmente un gran inconveniente cuando se están procesando grandes cantidades de muestras, como puede ser el caso en los estudios clínicos y la toma de muestras ambientales, por nombrar solo dos aplicaciones.
La incorporación de secuencias de indexación por ligación a las bibliotecas por perdigonada "shotgun" aleatorias se ha descrito en los números de patente de los Estados Unidos: 7264929, 7244559, y 7211390, pero los métodos de ligación directa descritos allí distorsionan la distribución de los componentes dentro de las muestras (como se ilustra en la Figura 4 en la presente memoria) y por lo tanto son inapropiados para la enumeración de componentes dentro de cada muestra.
El documento WO 98/15644 describe métodos para la secuenciación de múltiples segmentos de polinucleótidos diana en paralelo, y por lo tanto composiciones y kits.
El documento WO 2005/042759 describe composiciones y métodos para el análisis de la expresión génica utilizando tecnología basada en micromatrices.
Por lo tanto, existe una necesidad de mejorar el rendimiento de la muestra, reducir los costes de secuenciación de polinucleótidos de muchas muestras al mismo tiempo, y enumerar con precisión los componentes de las muestras analizadas mediante técnicas paralelizadas y múltiplex de alto rendimiento.
Compendio
Es por tanto un objeto de la presente invención proporcionar kits adecuados para la amplificación y secuenciación múltiple. Los siguientes párrafos describen algunas realizaciones ilustrativas de la invención que ilustran algunos de sus aspectos y características. No son exhaustivas en la ilustración de sus muchos aspectos y realizaciones, y por lo tanto no son en modo alguno limitantes de la invención. Muchos otros aspectos, características y realizaciones de la invención se describen en la presente memoria. Muchos otros aspectos y realizaciones serán fácilmente evidentes para los expertos en la técnica después de leer la solicitud y prestarle la debida atención a la luz de la técnica anterior y el conocimiento en el campo. La materia sujeto para la que se solicita protección es la definida en las
5
10
15
20
25
30
35
40
45
50
55
60
65
reivindicaciones.
En particular, la presente invención proporciona un kit adecuado para la amplificación y secuenciación múltiple, que comprende:
al menos 5 pares de cebadores directos e inversos etiquetados para la amplificación, dispuestos por separado, comprendiendo cada cebador directo e inverso de dichos pares, en un orden 5' a 3':
una secuencia etiqueta, en donde la secuencia etiqueta de cada uno de dichos pares de cebadores es diferente de la secuencia etiqueta de los otros pares de cebadores; y
una secuencia de cebado específica para una secuencia diana, en donde la secuencia de cebado en cada par de cebadores es la misma;
y en donde:
la secuencia etiqueta tiene de 4 a 36 nucleótidos de longitud y la secuencia de cebado es complementaria a una secuencia diana localizada en posición 3' con respecto a la secuencia de ARNr 16S; o
la secuencia etiqueta tiene una longitud de 6 a 36 nucleótidos y la secuencia de cebado es complementaria a una secuencia diana localizada en posición 3' con respecto a una secuencia de ARNr 16S, una secuencia de ARNr 18S, una secuencia ITS, una secuencia mitocondrial, una secuencia microsatélite, una secuencia de enzima metabólica, o una secuencia de enfermedad genética.
En algunas realizaciones, el kit comprende un conjunto de 10 a 25, o de 20 a 50, o de 25 a 75, o de 50 a 100, o de 50 a 150, o de 100 a 200, o de 250 a 750, o de 100 a 1.000 pares de cebadores etiquetados.
En realizaciones adicionales, las secuencias de etiqueta tienen 5, 6, 7 u 8 nucleótidos de longitud.
En algunas realizaciones, los cebadores comprenden adicionalmente un radical para inmovilización.
La presente descripción proporciona métodos múltiplex para la determinación cuantitativa de polinucleótidos en dos o más muestras, que comprenden:
hibridar un primer cebador con los polinucleótidos en una primera muestra, comprendiendo dicho primer cebador una primera secuencia etiqueta y una primera secuencia sonda específica para una primera secuencia diana, en donde dicha primera secuencia diana se encuentra en posición 3' con respecto a una región genética variable;
alargar moldes de cebadores formados de esta manera para formar una primera población de polinucleótidos etiquetados que comprende: dicho primer cebador que incluye dicha primera secuencia etiqueta; y secuencias de dicha región genética variable;
hibridar un segundo cebador con los polinucleótidos en una segunda muestra, comprendiendo dicho segundo cebador una segunda secuencia etiqueta y una segunda secuencia sonda específica para una segunda secuencia diana, en donde dicha segunda secuencia diana se encuentra en posición 3' con respecto a la misma región genética variable que dicha primera secuencia diana, en donde adicionalmente dicha segunda secuencia sonda puede ser la misma que o diferente de dicha primera secuencia sonda; alargar los moldes de los cebadores formados de esta manera para formar una segunda población de polinucleótidos etiquetados que comprende: dicho segundo cebador que incluye dicha segunda secuencia etiqueta; y secuencias de dicha región genética variable; mezclar entre sí dichas primera y segunda poblaciones;
determinar las secuencias de polinucleótidos que comprenden secuencias etiqueta y las secuencias del elemento genético variable en dicha mezcla;
a partir de las secuencias etiqueta incluidas en las secuencias de polinucleótidos determinadas de este modo identificar la muestra en la que se produjeron las secuencias de polinucleótidos;
a partir de las secuencias de la región genética variable incluida en las secuencias de polinucleótidos determinadas de este modo, identificar las variantes concretas de dicho elemento genético variable; a partir de esta información determinar el número de veces que una o más variantes dadas aparecen en cada muestra, y
a partir del número de cada variante en los polinucleótidos determinados de este modo, cuantificar dichos polinucleótidos en dichas muestras;
en donde dichas secuencias se determinan sin transferencia Southern y/o sin separar por tamaño los productos de extensión del cebador y/o sin electroforesis.
La presente descripción proporciona métodos múltiplex para la determinación cuantitativa de polinucleótidos en dos o más muestras, que comprenden:
5
10
15
20
25
30
35
40
45
50
55
60
65
hibridar un primer par de cebadores con polinucleótidos en una primera muestra, comprendiendo el primer cebador de dicho primer par de cebadores una primera secuencia etiqueta y una primera secuencia sonda específica para una primera secuencia diana, y comprendiendo el segundo cebador de dicho primer par de cebadores una segunda secuencia etiqueta y una segunda secuencia sonda específica para una segunda secuencia diana, en donde la primera y segunda secuencias sonda flanquean e hibridan con hebras opuestas de una región genética variable;
alargar moldes de cebadores formados de ese modo para formar una primera población de polinucleótidos etiquetados, comprendiendo cada uno de dichos polinucleótidos: (a) la secuencia de dicho primer cebador de dicho primer par de cebadores, una secuencia de dicha región genética variable, y una secuencia complementaria a la secuencia de dicho segundo cebador de dicho primer par de cebadores o (b) una secuencia complementaria a la secuencia de dicho primer cebador de dicho primer par de cebadores, una secuencia de dicha región genética variable y la secuencia de dicho segundo cebador de dicho primer par de cebadores;
hibridar un segundo par de cebadores con polinucleótidos en una segunda muestra, comprendiendo el primer cebador de dicho segundo par de cebadores una tercera secuencia etiqueta y dichas primeras secuencias de sonda específicas para dicha primera secuencia diana y comprendiendo el segundo cebador de dicho segundo par de cebadores una cuarta secuencia etiqueta y dicha segunda secuencia de sonda específica para dicha segunda secuencia diana;
alargar los moldes de cebador formados de ese modo para formar una segunda población de polinucleótidos etiquetados, comprendiendo cada uno de dichos polinucleótidos: (a) la secuencia de dicho primer cebador de dicho segundo par de cebadores, una secuencia de dicha región genética variable, y una secuencia complementaria a la secuencia de dicho segundo cebador de dicho segundo par de cebadores o (b) una secuencia complementaria a la secuencia de dicho primer cebador de dicho segundo par de cebadores, una secuencia de dicha región genética variable y la secuencia de dicho segundo cebador de dicho segundo par de cebadores;
mezclar dichas primera y segunda poblaciones entre sí;
determinar las secuencias de polinucleótidos en dicha mezcla, que comprende las secuencias etiqueta y el elemento genético variable;
a partir de las secuencias etiqueta comprendidas en las secuencias de polinucleótidos así determinadas identificar la muestra en la que se produjeron las secuencias de polinucleótidos;
a partir de las secuencias de la región genética variable comprendida en las secuencias de polinucleótidos así determinadas identificar las variantes particulares de dicho elemento genético variable; a partir de esta información, determinar el número de veces que se producen variantes determinadas en cada muestra, y
a partir del número para cada variante en los polinucleótidos así determinados, cuantificar dichos polinucleótidos en dichas muestras.
en donde dichas secuencias se determinan sin transferencia Southern y/o sin separar por tamaños los productos de extensión de cebadores y/o sin electroforesis.
La presente descripción proporciona métodos de acuerdo con cualquiera de lo anterior o lo siguiente en donde las secuencias de polinucleótidos dadas en una muestra se cuantifican mediante un método que comprende normalizar el número de apariciones determinado para la secuencia dada. En la presente descripción las secuencias de polinucleótidos dadas pueden ser las de una variante dada de una región genética variable y, en realizaciones, la cantidad de la variante dada en la muestra se normaliza dividiendo el número de apariciones de esa variante por el número total de apariciones de todas las variantes de la región genética variable en la muestra.
La presente descripción proporciona un método múltiplex para determinar secuencias de polinucleótidos en dos o más muestras, que comprende: anclar una primera secuencia etiqueta a uno o más polinucleótidos de una primera muestra; anclar una segunda secuencia etiqueta diferente de dicha primera secuencia etiqueta a uno o más polinucleótidos de una segunda muestra; mezclar entre sí los polinucleótidos etiquetados de dichas primera y segunda muestras; determinar las secuencias de dichos polinucleótidos que comprenden dicha primera y dicha segunda etiquetas; e identificar dichas primera y segunda etiquetas en dichas secuencias; identificando de este modo las secuencias de dichos polinucleótidos de dichas primera muestra y segunda muestra, en donde dichas secuencias se determinan sin transferencia Southern y/o sin separar por tamaño los productos de extensión del cebador y/o sin electroforesis.
La presente descripción proporciona un método múltiplex para determinar secuencias de polinucleótidos en dos o más muestras que comprende:
anclar una primera secuencia etiqueta, ti, a polinucleótidos P-m a Pi-ni en una primera muestra, para proporcionar de este modo una primera pluralidad de polinucleótidos etiquetados con dicha primera etiqueta, ti Pl-1 a ti Pl-n1;
anclar una segunda secuencia etiqueta, t2, a polinucleótidos P2-1 a P2-n2 en una segunda muestra, para proporcionar de este modo una segunda pluralidad de polinucleótidos etiquetados con dicha segunda etiqueta, t2P2-i a t2P2-n2;
mezclar entre sí dichos polinucleótidos etiquetados con dicha primera y dicha segunda etiquetas;
5
10
15
20
25
30
35
40
45
50
55
60
65
determinar las secuencias de polinucleótidos que comprenden dichas etiquetas en dicha mezcla; identificar dichas primera y segunda etiquetas en dichas secuencias y;
mediante dicha primera etiqueta identificar las secuencias de polinucleótidos de dicha primera muestra y mediante dicha segunda etiqueta identificar las secuencias de polinucleótidos de dicha segunda muestra; en donde dichas secuencias se determinan sin transferencia Southern y/o sin separar por tamaño los productos de extensión del cebador y/o sin electroforesis.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde el número de dichos polinucleótidos en dicha primera muestra, n-i, es cualquiera de 2, 5, 10, 25, 50, 100, 150, 200, 250, 500, 1.000, 1.500, 2.000, 2.500, 5.000, 7.500, 10.000, 12.500, 15.000, 17.500, 20.000, 25.000, 30.000, 35.000,
40.000, 50.000, 75.000, 100.000, 150.000, 200.000, 250.000, 500.000, 1.000.000 o más, y el número de dichos polinucleótidos en dicha segunda muestra, n2, es cualquiera de 2, 5, 10, 25, 50, 100, 150, 200, 250, 500, 1.000, 1.500, 2.000, 2.500, 5.000, 7.500, 10.000, 12.500, 15.000, 17.500, 20.000, 25.000, 30.000, 35.000, 40.000, 50.000,
75.000, 100.000, 150.000, 200.000, 250.000, 500.000, 1.000.000 o más.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde el número de dichas muestras y de dichas diferentes etiquetas para las mismas es de 5, 10, 15, 20, 25, 50, 75, 100, 150, 200, 250, 500, 1.000, 2.500, 5.000, 10.000 o más.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las etiquetas son secuencias de nucleótidos que tienen 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36 nucleótidos de longitud o cualquier combinación de las mismas.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las etiquetas se incorporan a dichos polinucleótidos mediante una etapa de ligación, siempre que la etapa de ligación no de como resultado un sesgo.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las etiquetas se incorporan a dichos polinucleótidos mediante una etapa de ligación, y/o mediante una etapa de amplificación.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde dichas etiquetas se incluyen en cebadores para la amplificación y se incorporan a dichos polinucleótidos mediante amplificación utilizando dichos cebadores.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde dichas etiquetas se incorporan a dichos polinucleótidos mediante un procedimiento que comprende una etapa de clonación en un vector.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las etiquetas se incluyen en adaptadores para la amplificación y dichos adaptadores se ligan a polinucleótidos en dichas muestras. La presente descripción proporciona un método a este respecto, en donde adicionalmente, dichos polinucleótidos ligados de ese modo a dichas etiquetas se amplifican a través de dichos adaptadores. La presente descripción proporciona un método a este respecto, en donde adicionalmente, dichos adaptadores comprenden un radical para la inmovilización. En la presente descripción dicho radical puede ser un ligando; en la presente descripción puede ser biotina. La presente descripción proporciona un método a este respecto, en donde adicionalmente, dichas etiquetas se incluyen en adaptadores para la amplificación en emulsión de cuentas. En la presente descripción los adaptadores pueden ser adecuados para su uso en un sistema de secuenciación de 454 Life Sciences u otro sistema de secuenciación en el que se lleva a cabo la amplificación en emulsión de cuentas.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde el cebador para la amplificación comprende una secuencia para la amplificación mediante PCR, la amplificación lineal, la amplificación transcripcional, la replicación de círculo rodador, o la replicación QB.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde el cebador para la amplificación comprende una secuencia para la amplificación mediante PCR.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde cada uno de dichos polinucleótidos se dispone individualmente en una cuenta aislado de los otros polinucleótidos.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde cada uno de dichos polinucleótidos se dispone individualmente sobre una cuenta aislado del resto de dichos polinucleótidos, se amplifica mientras se dispone en la misma, y sus productos de amplificación también se disponen sobre dicha cuenta.
5
10
15
20
25
30
35
40
45
50
55
60
65
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde cada uno de dichos polinucleótidos se dispone individualmente sobre una cuenta aislado del resto de dichos polinucleótidos, se amplifica mientras se dispone en la misma, sus productos de amplificación también se disponen sobre dicha cuenta, y cada una de dichas cuentas se dispone de forma individual en un pocillo aislado del resto de dichas cuentas.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las secuencias se determinan mediante pirosecuenciación.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde dichas muestras son muestras biológicas, que comprenden cada una una o más especies.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde al menos una secuencia de dichos polinucleótidos es específica de un organismo concreto.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde dichas secuencias comprenden una secuencia variable de ARNr 16S.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde dichas secuencias comprenden una secuencia variable de ARNr 18S, una secuencia variable de ARNr ITS, una secuencia mitocondrial, una secuencia de microsatélites, una secuencia enzimática metabólica, y/o una secuencia de enfermedad genética.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las muestras son muestras de la comunidad microbiana.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las muestras son muestras de la comunidad microbiana para el análisis clínico de un paciente.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las muestras son muestras ambientales de la comunidad microbiana.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las muestras son muestras de suelo de la comunidad microbiana.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las muestras son muestras de agua de la comunidad microbiana.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las muestras son muestras para el análisis de SNP.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde las muestras son muestras para la determinación del genotipo.
La presente descripción proporciona un método múltiplex de acuerdo con cualquiera de lo anterior o lo siguiente para determinar secuencias de polinucleótidos de dos o más muestras, que comprende,
amplificar polinucleótidos de una primera muestra para producir primeros polinucleótidos amplificados que comprenden una primera secuencia etiqueta;
amplificar por separado polinucleótidos de una segunda muestra para producir segundos polinucleótidos amplificados que comprende una segunda secuencia etiqueta diferente de dicha primera secuencia etiqueta; en donde los productos de amplificación resultantes de diferentes polinucleótidos individuales se separan espacialmente entre sí;
mezclar entre sí los amplicones de dichas primera y segunda muestras;
distribuir los amplicones en la mezcla en lugares espacialmente distintos; secuenciar los amplicones distribuidos de este modo utilizando uno o más cebadores que hibridan 5' con respecto a dichas secuencias etiqueta; identificar dichas secuencias etiqueta en las secuencias de polinucleótidos determinadas de este modo; e identificar mediante dichas etiquetas los polinucleótidos de dicha primera muestra y los polinucleótidos de dicha segunda muestra.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, que comprende,
(a) para cada muestra por separado: aislar los polinucleótidos que se van a secuenciar, ligar dichos polinucleótidos a un adaptador común que comprende una secuencia etiqueta, y capturar los polinucleótidos ligados individuales sobre cuentas individuales en condiciones que proporcionan predominantemente la inmovilización de 0 o 1 molécula por cuenta;
5
10
15
20
25
30
35
40
45
50
55
60
65
(b) después de eso mezclar entre sí dichas cuentas que comprenden dichos polinucleótidos.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, que comprende adicionalmente, amplificar polinucleótidos inmovilizados sobre cuentas en gotitas de una emulsión para amplificar clonalmente de este modo dichos polinucleótidos individuales sobre dichas cuentas, en donde la amplificación comprende la amplificación de dicha secuencia etiqueta.
La presente descripción proporciona un método de acuerdo con cualquiera de lo anterior o lo siguiente, que comprende adicionalmente, distribuir las gotitas individuales que contienen dichos polinucleótidos amplificados en pocillos en condiciones que proporcionan predominantemente 0 o 1 gota por pocillo, determinar en los pocillos individuales las secuencias de polinucleótidos que comprenden dichas secuencias etiqueta, y mediante dichas secuencias etiqueta identificar los polinucleótidos de dichas primera y segunda muestras.
La descripción proporciona métodos, de acuerdo con cualquiera de lo anterior o lo siguiente, para uno cualquiera o más de detectar, verificar, perfilar, pronosticar, y/o diagnosticar un trastorno, enfermedad, o similares.
La descripción proporciona métodos, de acuerdo con cualquiera de lo anterior o lo siguiente, para analizar la composición, diversidad, estabilidad, dinámica, y/o cambios en muestras agrícolas, alimentarias, de bioseguridad, veterinarias, clínicas, ecológicas, zoológicas, oceanográficas, y/o cualquier otra muestra que comprenda uno o más polinucleótidos.
La presente descripción proporciona kits que comprenden una pluralidad de dos o más cebadores, comprendiendo cada cebador de dicha pluralidad una secuencia etiqueta y una secuencia sonda específica de una secuencia diana, en donde:
(A) en cada uno de dichos cebadores la secuencia sonda se encuentra en posición 3' con respecto a la secuencia etiqueta, pero no necesariamente adyacente a la misma;
(B) en cada uno de dichos cebadores: la secuencia etiqueta es diferente de la secuencia etiqueta del resto en la pluralidad; la secuencia etiqueta no es la secuencia complementaria a ninguna otra secuencia etiqueta en la pluralidad; la secuencia etiqueta no contiene ninguna secuencia de homodinucleótidos; las secuencias de empalme entre la secuencia etiqueta y las porciones adyacentes del cebador, si las hubiera, no son una secuencia de homodinucleótidos;
(C) en cada uno de dichos cebadores la secuencia sonda es complementaria a la secuencia diana y la secuencia diana se encuentra en posición 3' con respecto a una región genética variable, y
(D) cada uno de dichos cebadores se dispone por separado de los otros en recipientes en dicho kit.
La presente descripción proporciona kits de acuerdo con cualquiera de lo anterior o lo siguiente, en donde cada uno de dichos cebadores comprende adicionalmente una secuencia de cebado en posición 5' con respecto a la secuencia etiqueta pero no necesariamente adyacente a la misma, y la secuencia de cebado es la misma en la totalidad de dichos cebadores, comprendiendo adicionalmente dicho kit un cebador complementario y eficaz para la polimerización de dicha secuencia de cebado.
La presente descripción proporciona kits que comprenden una pluralidad de dos o más pares de cebadores, comprendiendo cada cebador en dicha pluralidad una secuencia etiqueta y una secuencia sonda específica para una secuencia diana, en donde:
(A) en cada uno de dicho cebador la secuencia sonda se encuentra en posición 3' con respecto a la secuencia etiqueta, pero no necesariamente adyacente a la misma;
(B) en cada uno de dichos cebadores: la secuencia etiqueta es diferente de la secuencia etiqueta del resto en la pluralidad; la secuencia etiqueta no es la secuencia complementaria a ninguna otra secuencia etiqueta en la pluralidad; la secuencia etiqueta no contiene ninguna secuencia de homodinucleótidos; las secuencias de empalme entre la secuencia etiqueta y las porciones adyacentes del cebador, si las hubiera, no son una secuencia de homodinucleótidos;
(C) en cada uno de dichos cebadores la secuencia sonda es complementaria a la secuencia diana,
(D) en cada par de cebadores las secuencias sonda son específicas a secuencias diana que flanquean una región genética variable;
(E) cada uno de dichos cebadores se dispone por separado de los otros en dicho kit.
La presente descripción proporciona kits de acuerdo con cualquiera de lo anterior o lo siguiente, en donde, los cebadores comprenden adicionalmente una secuencia de cebado en posición 5' con respecto a la secuencia etiqueta, pero no necesariamente adyacente a la misma, la secuencia de cebado o es la misma en todos los cebadores, o un miembro de cada par tiene la misma primera secuencia de cebado y el segundo miembro de cada par tiene la misma segunda secuencia de cebado, comprendiendo adicionalmente dicho kit dispuestos por separado el uno del otro en uno o más recipientes uno o más cebadores complementarios a y eficaces para la elongación de dicho cebado.
En realizaciones la invención proporciona un kit útil en los métodos de acuerdo con cualquiera de lo anterior o lo siguiente, que comprende un conjunto de cebadores y/o adaptadores, en donde cada cebador y/o adaptador en
5
10
15
20
25
30
35
40
45
50
55
60
65
dicho conjunto comprende una secuencia etiqueta y una secuencia cebadora. En realizaciones los cebadores y/o los adaptadores comprenden adicionalmente un radical para la inmovilización. En realizaciones los cebadores y/o los adaptadores comprenden biotina. En realizaciones los cebadores y/o adaptadores en el conjunto comprenden todas las secuencias etiqueta definidas por secuencias de polinucleótidos de 2, 3, 4, 5, 6, 7, u 8 bases, en donde cada uno de dichos cebadores y/o adaptadores están dispuestos en recipientes separados el uno del otro. En realizaciones hay 1-5, 3-10, 5-15, 10-25, 20-50, 25-75, 50-100, 50-150, 100-200, 150-500, 250-750, 100-1000, o más secuencias etiqueta diferentes dispuestas por separado las unas de las otras, con el fin de ser útiles para etiquetar de forma única dicho número de muestras diferentes. En realizaciones los cebadores y/o los adaptadores son adecuados para su uso como adaptadores y/o cebadores de amplificación de 454 Life Sciences. En realizaciones los cebadores y/o los adaptadores comprenden adicionalmente una cualquiera o más de una secuencia cebadora para una cualquiera o más de una secuencia de ARNr 16S, una secuencia de ARNr 18S, una secuencia ITS, una secuencia mitocondrial, una secuencia de microsatélites, una secuencia enzimática metabólica, una secuencia de enfermedad genética, y/o cualquier otra secuencia para su amplificación o análisis.
En realizaciones, la invención proporciona un kit, de acuerdo con cualquiera de lo anterior o lo siguiente, que comprende un conjunto de cebadores y/o adaptadores para su uso en un método de acuerdo con cualquiera de lo anterior o lo siguiente, en donde cada cebador y/o adaptador en dicho conjunto comprende una secuencia etiqueta, la secuencia etiqueta de cada uno de dichos cebadores y/o adaptadores es diferente de la de los otros cebadores y/o adaptadores en dicho conjunto, los cebadores y/o adaptadores comprenden adicionalmente una secuencia cebadora que es la misma en todos los cebadores y/o adaptadores en dicho conjunto, las secuencias etiqueta están situadas en posición 5' con respecto a la secuencia de cebado y los diferentes cebadores y/o adaptadores que comprenden cada secuencia etiqueta diferente se disponen por separado los unos de los otros. En realizaciones las etiquetas tienen cualquier número de bases de longitud. En realizaciones las etiquetas tienen 2, 3, 4, 5, 6, 8, 10, 12 bases de longitud. En realizaciones las etiquetas tienen 4 bases de longitud. En realizaciones la secuencia de cebado es específica para cualquier polinucleótido diana de interés. En realizaciones la secuencia de cebado es específica para una secuencia en el ARNr 16S. En realizaciones las etiquetas difieren entre sí en al menos 2 bases. En las realizaciones de las etiquetas no contienen extensiones de polinucleótidos dentro de la etiqueta. En realizaciones las etiquetas no contienen extensiones de homopolinucleótidos dentro de o en el empalme de la etiqueta y el cebador de PCR. En realizaciones las etiquetas no contienen extensiones de polinucleótidos dentro de o en el empalme de la etiqueta y el adaptador de PCR en emulsión. En realizaciones, las etiquetas no son complementos inversos entre sí.
Breve descripción de las Figuras
La Figura 1 es un diagrama esquemático que muestra una realización general de la invención. En la parte superior de la Figura se muestra una pluralidad de muestras (S1, S2, a Sj). Cada muestra está compuesta de una pluralidad de polinucleótidos (P1-1 a P1.n1 en S1; P2-1 a P2-n2 en S2; a Pj-1 a Pj-nj). Los polinucleótidos de cada muestra se marcan por separado con una secuencia de polinucleótidos etiqueta, estando etiquetados todos los polinucleótidos en una muestra dada (en esta ilustración) con una sola secuencia etiqueta, denominada en la figura T1 para S1, T2 para S2, Tj para Sj. Los polinucleótidos etiquetados individuales se
denotan en consecuencia. Los polinucleótidos etiquetados en cada muestra se denominan colectivamente, para cada muestra, T1S1, T2S2, a TjSj. Los polinucleótidos etiquetados de las muestras se mezclan entre sí para formar una mezcla, denominada Mi. La mezcla se secuencia, típicamente mediante medio de un método de secuenciación masiva en paralelo. Las secuencias etiqueta se identifican en los datos así obtenidos. Las secuencias se agrupan por etiquetas. Las secuencias de las muestras individuales se identifican de este modo.
La Figura 2A es un diagrama que representa la etapa I en la secuenciación multietiqueta de muestras de la comunidad microbiana utilizando un par de cebador-conector directo e inverso 16S para la amplificación mediante PCR. (a) representa el cebador de ARNr 16S Directo con la Etiqueta I y el Conector de PCR en Emulsión, (b) representa la secuencia de ARNr 16S, (c) representa el cebador de ARNr 16S Inverso con la Etiqueta j y el Conector de PCR en Emulsión, (d) representa la Secuencia de ARNr 16S amplificada con las Etiquetas ij Directa e Inversa, (e) representa las cuentas de PCR en emulsión, (f) representa la lectura de pirosecuenciación, (g) representa el pocillo en la placa de picotitulación, (h) representa una etiqueta Única, (i) representa la Comunidad Amplificada 1, (j) representa la Comunidad Amplificada 2, y (k) representa la Comunidad Amplificada n. La etapa 1 implica la amplificación de la comunidad microbiana de cada muestra utilizando cebadores-conectores universales etiquetados de forma única. En la etapa 1, se amplifican diferentes muestras por separado, utilizando adaptador-etiquetas-cebadores específicos de ARNr 16S con una etiqueta diferente para cada muestra.
La Figura 2B es un diagrama que representa las cuentas para la reacción de PCR en emulsión dispuestas al azar en matrices en la placa de picotitulación. En la etapa 2 en el procedimiento, los productos de PCR de todas las muestras se mezclan, se inmovilizan sobre cuentas, se distribuyen en los pocillos de la placa de picotitulación, y se amplifican mediante PCR en emulsión.
La Figura 2C es un diagrama que representa el procedimiento de pirosecuenciación de cada adaptador externo en cada pocillo de la placa de picotitulación. Cada reacción lee la secuencia del adaptador, a través de las etiquetas únicas y la secuencia asociada de la muestra etiquetada.
La Figura 2D es un diagrama que representa la clasificación algorítmica de las lecturas de pirosecuenciación utilizando la secuencia etiqueta individual y una porción de la secuencia cebadora. (1) representa las lecturas
5
10
15
20
25
30
35
40
45
50
55
60
65
de secuencia de la muestra 1, (m) representa las lecturas de secuencia de la muestra 2, y (n) representa las lecturas de secuencia de la muestra n.
La Figura 2E es un diagrama que representa la identificación de los taxones microbianos comparando las lecturas de secuencia para cada muestra frente a la base de datos de secuencias de ARNr 16S y a continuación normalizando la abundancia de cada taxón con respecto a las lecturas totales en esa muestra concreta. (o) representa el histograma normalizado de especies derivado de las lecturas de pirosecuenciación obtenidas a partir de la muestra 1, (p) representa el histograma normalizado de especies derivado de las lecturas de pirosecuenciación obtenidas a partir de la muestra 2, (q) representa el histograma normalizado de especies derivado de las lecturas de pirosecuenciación obtenidas a partir de la muestra n.
La Figura 3 es la distribución de especies en muestras de los Controles (A), Crohn (B), y Colitis ulcerosa (C) determinada mediante el procedimiento de pirosecuenciación de 454 Life Sciences. Cada barra del histograma representa la abundancia media normalizada de los taxones en cada estado de enfermedad. Cada muestra se realizó en un pocillo separado sobre la placa de picotitulación utilizando la máscara de 454 para 16 pocillos.
La Figura 4 es un ejemplo de la distorsión de los componentes de una mezcla compleja causada por ligación de los adaptadores de PCR en Emulsión en amplicones de PCR. La Figura 4A muestra la distribución del tamaño de los amplicones de PCR en la muestra 309 antes de la ligación y la Figura 4B muestra la distribución del tamaño de la muestra de 309 después de la ligación.
La Figura 5 es un ejemplo de la abundancia de taxones normalizados en muestras duplicadas determinada mediante Pirosecuenciación multietiqueta después de la ligación directa de los adaptadores de PCR en emulsión.
La Figura 6 muestra todas las posibles etiquetas de polinucleótidos hexaméricas dentro de las cuales no hay repeticiones de dinucleótidos y ninguna etiqueta es el complemento inverso de ninguna otra etiqueta.
La Figura 7 muestra 96 cebadores adaptadores etiquetados en los que no hay repeticiones de dinucleótidos en las etiquetas, ningún dinucleótido se repite en el empalme de las etiquetas y las etiquetas no son complementos inversos de ninguna otra. En cada caso también se pueden utilizar 5 bases del cebador para identificar las muestras. 7A y 7B muestran los cebadores directos. 7C y 7D muestran los cebadores inversos.
Glosario
Los significados atribuidos a los diversos términos y frases utilizados en la presente memoria se explican de forma ilustrativa a continuación.
"Un", "uno" o “una” significa uno o más; al menos uno.
"Aproximadamente", según se utiliza en la presente memoria, significa groseramente, más o menos. Si se requiere una definición numérica precisa, "aproximadamente" significa +/- 25%.
"Adaptador" significa una secuencia de polinucleótidos utilizada para anclar fragmentos de polinucleótidos individuales a las cuentas y/o para cebar la reacción de PCR en emulsión y/o como molde para cebar reacciones de pirosecuenciación.
"ALH" se utiliza en la presente memoria para significar la heterogeneidad de la longitud del amplicón.
"Amplicón" se utiliza en la presente memoria para referirse a los productos de una reacción de amplificación.
"Amplificado clonalmente" se utiliza en la presente memoria para significar generalmente la amplificación de una sola molécula de partida. Típicamente también se refiere al agrupamiento conjunto de los productos de amplificación, aislados de otros moldes o productos de amplificación.
"ADNds" significa ADN de doble hebra.
Disbiosis significa un cambio en una de las especies y la abundancia de especies de una comunidad microbiana.
"Flanqueantes" se utiliza generalmente para significar en cada lado, tal como en el lado 5' y 3' de una región de un polinucleótido - con referencia a los extremos 5' y 3' de una u otra hebra de un polinucleótido de doble hebra. Los cebadores directo e inverso para amplificar una región de un polinucleótido mediante PCR, por ejemplo, flanquean la región que va a amplificarse.
"Muestra de la comunidad microbiana" se utiliza en la presente memoria para referirse a una muestra, generalmente de naturaleza biológica, que contiene dos o más microbios diferentes. Las muestras de la comunidad microbiana incluyen, por ejemplo, muestras ambientales, así como muestras biológicas, tales como muestras para análisis clínicos. El término se aplica también a preparaciones, tales como preparaciones de ADN, derivadas de tales muestras.
"Secuenciación múltiplex" en la presente memoria se refiere a la secuenciación de dos o más tipos o muestras de polinucleótidos en una sola reacción o en un solo recipiente de reacción.
5
10
15
20
25
30
35
40
45
50
55
60
65
"PCO" significa análisis de coordenadas principales.
"PCA" significa análisis de componentes principales.
"Placa de picotitulación" significa una placa que tiene un gran número de pocillos que tienen un volumen relativamente pequeño, típicamente más pocillos que una placa de microtitulación de 96 pocillos, y volúmenes más pequeños que los de un placa de microtitulación típica de 96 pocillos también.
"Cebador" significa una secuencia de polinucleótidos que se utiliza para amplificar productos de PCR y/o para cebar reacciones de secuenciación.
"ADNss" significa ADN de hebra sencilla.
"Etiqueta", "Secuencia etiqueta" etc. significa típicamente una secuencia heteróloga, tal como una secuencia de polinucleótidos que identifica otra secuencia con la que está asociada por ser de un tipo dado o pertenecer a un grupo dado.
"Región genética variable" según se utiliza en la presente memoria significa una región genética que varía, por ejemplo entre individuos de una misma especie y entre especies. La frase no denota una longitud específica, sino, más bien se utiliza para denotar una región que comprende una variación de la longitud exacta de la cual puede variar y puede diferir en diferentes contextos. En cuanto a un polinucleótido de doble hebra, el término incluye una o la otra y ambas hebras de la región, y puede ser utilizado para referirse a una, la otra, o a ambas hebras, y por lo general quedará claro por el contexto que se quiera significar. Un ejemplo específico de una región genética que varía entre los individuos, proporcionado solo con fines ilustrativos, es una región genética que contiene un sitio de SNP (polimorfismo de un solo nucleótido). Por región genética variable a este respecto se entiende una región que contiene el sitio del SNP. Diferentes secuencias de SNP a este respecto constituyen las variantes de la región genética variable. Un ejemplo específico de una región genética variable que difiere entre especies consiste en los genes para el ARN 16S que varían característicamente entre microbios y se puede utilizar para identificar microbios en muestras de la comunidad mixtas como se describe con mayor detalle en algunos de los ejemplos de la presente memoria.
Descripción de la Invención
En ciertos aspectos y realizaciones la invención se refiere a análisis de secuenciación múltiplex utilizando etiquetas. En diversos aspectos y realizaciones de la invención a este respecto la invención proporciona métodos para secuenciar dos o más muestras simultáneamente en una mezcla entre ellas, en donde cada muestra se conecta primero a una etiqueta de secuencia específica de la muestra, las muestras etiquetadas se mezclan y se secuencian, y las secuencias de cada muestra se identifican a continuación por sus respectivas etiquetas de secuencias específicas de la muestra.
La Figura 1 proporciona una representación general de varios aspectos y realizaciones de la invención a este respecto, y la figura se comenta a modo de ilustración a continuación con referencia a la secuenciación de ADN de diferentes muestras. En la parte superior de la Figura se muestra una pluralidad de muestras (S1, S2, a Sj). Cada muestra se compone de una pluralidad de polinucleótidos (P1-1 a P1-n1 en S1; P2-1 a P2-n2 en S2; a Pj-1 a Pj-nj). Los polinucleótidos de cada muestra se marcan por separado con una secuencia de polinucleótidos etiqueta, etiquetándose todos los polinucleótidos en una muestra dada (en esta ilustración) con una secuencia etiqueta única, designada en la figura como T1 para S1, T2 para S2, a Tj para Sj. Los polinucleótidos etiquetados individuales se
denotan en consecuencia. Los polinucleótidos etiquetados en cada muestra se denominan colectivamente, para cada muestra, T1S1, T2S2 a TjSj. Los polinucleótidos etiquetados de las muestras se mezclan entre sí para formar una mezcla, denominada Mi. La mezcla se secuencia típicamente por medio de un método de secuenciación en paralelo. Las secuencias etiqueta se identifican en los datos obtenidos de este modo. Las secuencias se agrupan mediante etiquetas. Las secuencias de las muestras individuales se identifican de este modo.
En realizaciones las etiquetas son secuencias de 3 a 30, de 4 a 25, de 4 a 20 bases de longitud. En realizaciones las etiquetas tienen de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36 nucleótidos de longitud o cualquiera de sus combinaciones.
En realizaciones hay 1 - 6, 6 - 12, 10 - 15, 10 - 20, 15 - 25, 20 - 40, 25 - 50, 25 - 75, 50 - 100, 50 - 150, 100 - 200, 100 - 250, 50 - 250, 100 - 500, 500 -1000, 100 - 1.000, 500 - 5.000, 100 - 10.000, 1.000 - 25.000, 500 - 50.000, 100 -
100.000, 1 - 1.000.000 o más muestras, etiquetadas, respectivamente, con 1 - 6, 6 - 12, 10 - 15, 10 - 20, 15 - 25, 20 - 40, 25 - 50, 25 - 75, 50 - 100, 50 - 150, 100 - 200, 100 - 250, 50 - 250, 100 - 500, 500 - 1.000, 100 - 1.000, 500 -
5.000, 100 - 10.000, 1.000 - 25.000, 500 - 50.000, 100 - 100.000, 1-1.000.000 o más etiquetas diferentes.
En realizaciones las secuencias se determinan sin el uso de electroforesis en gel. En realizaciones las secuencias se determinan sin el uso de la transferencia de secuencias de un gel sobre una membrana o un filtro para la hibridación. En realizaciones, las secuencias se determinaron por un método de secuenciación en paralelo. En realizaciones las
5
10
15
20
25
30
35
40
45
50
55
60
65
secuencias se determinan por pirosecuenciación, secuenciación mediante síntesis, secuenciación por hibridación, secuenciación sustractiva, secuenciación por poros o secuenciación de lectura directa.
En realizaciones las etiquetas se incorporan a los polinucleótidos en muestras para la secuenciación mediante una etapa de ligación y/o una etapa de amplificación.
En realizaciones las etiquetas están incluidas en cebadores para la amplificación.
En realizaciones las etiquetas están incluidas en cebadores para la amplificación mediante PCR, amplificación mediante transcripción, amplificación por círculo rodador, o amplificación por replicasa QI3.
En realizaciones las etiquetas están incluidas en adaptadores de PCR en emulsión y cebadores para la amplificación.
En realizaciones las etiquetas se incorporan mediante una etapa de clonación en un vector.
En realizaciones las muestras son muestras de la comunidad microbiana. En realizaciones las muestras son muestras clínicas. En realizaciones las muestras son muestras ambientales. En realizaciones las muestras son muestras para el análisis de SNP. En realizaciones las muestras son muestras para determinación del genotipo. En realizaciones las secuencias se determinan en una o más placas de picotitulación.
En realizaciones las muestras son ADN genómicos fragmentados. En realizaciones las muestras son ADN genómico bacteriano fragmentado, ADN genómico de Archaea, ADN genómico fúngico, ADN genómico eucariótico, el ADN de cloroplasto, y/o ADN mitocondrial. En realizaciones las muestras son ADNc. En realizaciones las muestras son de ADNc eucariótico, ADNc bacteriano, ADNc de Archaea, y/o de ADNc fúngico. En realizaciones las etiquetas se incorporan mediante una etapa ligación y/o mediante una etapa de amplificación.
En realizaciones las muestras son para uno cualquiera o más de detectar, verificar, perfilar, pronosticar, y/o diagnosticar un trastorno, enfermedad, o similares.
En realizaciones las muestras son para analizar la composición, diversidad, estabilidad, dinámica, y/o cambios en muestras agrícolas, alimentarias, de bioseguridad, veterinarias, clínicas, ecológicas, zoológicas, oceanográficas, y/o cualquier otra muestra que comprende uno o más polinucleótidos.
En realizaciones las secuencias se determinan en pocillos de una placa de titulación. En realizaciones las secuencias se determinan en una o más placas de picotitulación que tienen una máscara. En realizaciones las secuencias se determinan en una o más placas de picotitulación que tienen una máscara, en donde la máscara define 2, 4, 8, 16, 32, 64 o más compartimentos.
A modo de ilustración de una placa de picotitulación 454, en realizaciones existen aproximadamente 120.000 moldes/placa y la longitud de lectura promedia aproximadamente 250 bases por molde. En realizaciones relacionadas con las mismas existen 10 etiquetas de 4 bases por 1/16 de placa, 160 etiquetas en total, un promedio de aproximadamente 750 moldes por etiqueta (y por muestra), y aproximadamente 187.500 bases secuenciadas por etiqueta (y por muestra).
En realizaciones existen aproximadamente 260.000 molde/placa y la longitud de lectura promedia aproximadamente 250 bases por molde. En realizaciones relacionadas con las mismas, existen 12 etiquetas de 4 bases por 1/8 de placa, 96 muestras en total, un promedio de aproximadamente 2.708 moldes por etiqueta (y por muestra) y aproximadamente 677.083 bases de secuencia por etiqueta (y por muestra).
En realizaciones existe aproximadamente 400.000 moldes/placa y la longitud de lectura promedia aproximadamente 250 bases por molde. En realizaciones relacionadas con las mismas, existen 96 etiquetas de 6 bases para 96 muestras por placa, aproximadamente 4.166 moldes por etiqueta (y por muestra) y aproximadamente 1.041.666 bases de secuencia por etiqueta (y por muestra).
En realizaciones las etiquetas tienen secuencias de 10 bases de longitud, existen 192 etiquetas diferentes, y las muestras se analizan en un formato de placa de microtitulación.
En realizaciones la invención proporciona algoritmos para la desconvolución, a partir de una mezcla de secuencias de dos o más muestras, de las secuencias de las muestras de la mezcla identificando las etiquetas específicas de la muestra en las secuencias, agrupando las secuencias mediante las etiquetas así identificadas, agrupando de este modo la secuencia de cada una de dichas muestras, separadas entre sí.
En realizaciones la invención proporciona algoritmos para la desconvolución, a partir de una mezcla de secuencias de dos o más muestras, de las secuencias de las muestras de la mezcla identificando las etiquetas específicas de la muestra en secuencias, de la siguiente manera:
5
10
15
20
25
30
35
40
45
50
55
60
65
1. Leyendo todas las lecturas de secuencias en una matriz;
2. Buscando en el comienzo de cada lectura de secuencia e identificando la etiqueta;
3. Construyendo una matriz asociativa que conecta la etiqueta con la lectura de secuencia;
4. Clasificando las claves de la matriz asociada;
5. Asociando cada clave con la muestra correspondiente;
6. Reuniendo todas las lecturas de secuencia para cada muestra;
7. Analizando cada muestra por separado.
8. Normalizando la abundancia de cada componente dentro de cada muestra con respecto al total de lecturas dentro de esa muestra.
En realizaciones, el algoritmo puede ser implementado en cualquier lenguaje de programación. En realizaciones del algoritmo es implementado en C, C++, Java, Fortran o Basic. En realizaciones del algoritmo se implementa como una secuencia de comandos "script" en Perl.
En realizaciones, la descripción proporciona kits para la secuenciación múltiplex como se describe en la presente memoria, que comprende un conjunto de cebadores y/o adaptadores, en donde cada cebador y/o adaptador en dicho conjunto comprende una secuencia etiqueta, una secuencia cebadora y/o un adaptador de PCR en emulsión. En realizaciones los cebadores y/o adaptadores comprenden adicionalmente un radical para la inmovilización. En realizaciones los cebadores y/o adaptadores comprenden biotina. En realizaciones los cebadores y/o adaptadores en el conjunto comprenden todas las secuencias etiqueta definidas por secuencias de polinucleótidos de 2, 3, 4, 5, 6, 7, u 8 bases, en donde dichos cebadores y/o adaptadores que comprenden diferentes secuencias etiqueta están dispuestos en recipientes separados entre sí. En realizaciones existen 1-5, 3-10, 5-15, 10-25, 20-50, 25-75, 50-100, 50-150, 100-200, 150-500, 250-750, 100-1000, o más secuencias etiqueta diferentes dispuestas por separado entre sí, con el fin de ser útiles para etiquetar de forma única dicho número de diferentes muestras. En realizaciones los cebadores y/o adaptadores son adecuados para su uso como adaptadores y/o cebadores de amplificación de 454 Life Sciences. En realizaciones los cebadores y/o adaptadores comprenden adicionalmente una cualquiera o más de una secuencia cebadora para uno cualquiera o más de una secuencia de ARNr 16S, una secuencia de ARNr 18S, una secuencia ITS, una secuencia mitocondrial, una secuencia de microsatélites, una secuencia de enzima metabólica, una secuencia de enfermedad genética, y/o cualquier otra secuencia para amplificación o análisis.
Ejemplos
La presente invención se describe adicionalmente por medio de los siguientes ejemplos ilustrativos, no limitantes. EJEMPLO 1: Secuenciación utilizando el Sistema de pirosecuenciación 454
454 Life Sciences, una filial de Roche Diagnostics, proporciona un dispositivo para la pirosecuenciación de aproximadamente 100.000.000 de bases de aproximadamente 400.000 moldes diferentes en una sola ronda en una sola placa de picotitulación. La compañía también proporciona máscaras que permiten el procesamiento por 2, 4, 8 ó 16 muestras diferentes en una placa. En el máximo de capacidad de utilización de la placa enmascarada, el sistema proporciona alrededor de 1 millón de bases de datos de secuencias en aproximadamente 4.000 moldes para cada una de las 16 muestras.
El proceso general de secuenciación utilizando el sistema 454 es generalmente de la siguiente manera: aislar el ADN; opcionalmente fragmentar el ADN; opcionalmente convertir el ADN en ADN de doble hebra; ligar el ADN a los adaptadores; separar las hebras del ADNds, unir el ADNss a cuentas en condiciones que den como resultado una preponderancia de las cuentas que no tengan una molécula de ADN unida a las mismas o una sola molécula de ADN unida a las mismas; capturar las cuentas en gotitas individuales de una emulsión de una mezcla de reacción de PCR en aceite; llevar a cabo una reacción de PCR sobre los ADN encapsulados en cuentas en emulsión (por medio de lo cual los productos de amplificación se capturan en las cuentas); distribuir los productos de amplificación en los pocillos de picotitulación de manera que o bien no haya ninguna cuenta o bien haya una cuenta en un pocillo; y llevar a cabo la pirosecuenciación en todas las cuentas en todos los pocillos en paralelo.
EJEMPLO 2: Pirosecuenciación múltiplex utilizando 96 adaptadores-cebadores de PCR etiquetados.
454 Life Sciences, una filial de Roche Diagnostics, proporciona un dispositivo para la pirosecuenciación de aproximadamente 100.000.000 millones de bases de secuencia para aproximadamente 400.000 moldes diferentes en una sola ronda en un sola placa de picotitulación. En el máximo de capacidad de utilización de la placa, el sistema proporciona alrededor de 10 millones de bases de datos de secuencia para cada uno de aproximadamente 4.000 moldes para cada una de 96 muestras multietiquetadas. En este ejemplo, las 96 etiquetas tienen 6 bases de longitud y se utilizan junto con 6 bases del cebador directo o inverso para identificar las lecturas que pertenecen a cada una de las 96 muestras individuales (véase la Figura 2).
EJEMPLO 3: Análisis de pirosecuenciación multietiqueta de muestras de la comunidad microbiana Diversos aspectos y realizaciones de la invención descrita en la presente memoria se ilustran por medio del siguiente ejemplo general con respecto al análisis "ecogenómico" de la diversidad microbiana en las muestras biológicas.
5
10
15
20
25
30
35
40
45
50
55
60
65
La capacidad de cuantificar el número y tipos de microorganismos dentro de una comunidad es fundamental para la comprensión de la estructura y función de un ecosistema, como se comentan, por ejemplo, Pace 1997 y Theron y Cloete 2000. Tradicionalmente, el análisis de las comunidades microbianas se ha realizado utilizando técnicas microbiológicas, pero estas técnicas son limitadas. Por ejemplo no son útiles para los muchos organismos que no pueden ser cultivados (Ritchie, Schutter et al. 2000; Spring, Schulze et al. 2000). Incluso para aquellos organismos que se pueden cultivar, estas técnicas proporcionan poca información con la que identificar los microbios individuales o caracterizar sus rasgos fisiológicos (Morris, Bardin et al. 2002).
Los recientes avances en las técnicas moleculares han superado algunos de estos inconvenientes, y han permitido la identificación de muchos más taxones en las comunidades microbianas que las técnicas tradicionales microbianas. Estos avances han proporcionado una considerable penetración en la expresión de funciones clave en las especies en las comunidades microbianas. (Pace 1997; Suzuki 1998; Amann 2000; Frischer, Danforth et al. 2000; Ritchie, Schutter et al. 2000; Spring, Schulze et al. 2000). Entre estas técnicas moleculares se encuentran la Electroforesis en Gel de Gradiente Desnaturalizante por "Denaturing Gradient Gel Electrophoresis" (DGGE), la Electroforesis en Gel de Gradiente de Temperatura por "Temperature Gradient Gel Electrophoresis" (TGGE), la Electroforesis en Gel de Gradiente de Temperatura Temporal por "Temporal Temperature Gradient Gel Electrophoresis" (TTGE), el Polimorfismo de Longitud de Fragmentos de Restricción Terminal por "Terminal- Restriction Fragment Length Polymorphism" (T-RFLP), Polimorfismos de Conformación de Cadena Sencilla por "Single Strand Conformation Polymorphism" (SSCP), y PCR de Heterogeneidad de Longitud por "Length Heterogeneity PCR" (LH-PCR) (Frischer, Danforth et al. 2000; Theron y Cloete 2000; Mills, Fitzgerald et al. 2003; Seviour, Mino et al. 2003; Klaper y Thomas 2004).
Entre éstas, la LH-PCR es probablemente la mejor técnica de huella dactilar. Es poco costosa, rápida, y se puede utilizar de forma rutinaria para detectar varios cientos de muestras en un día. Es útil como una herramienta de estudio rutinaria que se puede utilizar para controlar la dinámica de las comunidades microbianas naturales del suelo, y para identificar rápidamente muestras de interés mediante análisis PCO. La LH-PCR se ha utilizado ampliamente para la evaluación de la variación natural en las comunidades bacterianas mediante perfilado de las regiones variables amplificadas de genes de ARNr 16S en muestras de poblaciones microbianas mixtas, utilizando PAGE (Véanse Mills 2000; Litchfield y Gillevet 2002; Lydell, Dowell et al. 2004). Los productos de la LH-PCR de las especies individuales en la población dan lugar a distintas bandas en los geles. El "área del pico" de cada banda es proporcional a la abundancia de la especie en la comunidad. La LH-PCR de regiones variables de ARNr 16S se ha utilizado con bastante éxito para estimar la diversidad de especies en comunidades de bacterioplancton, en particular. (Véase Suzuki, Rappe et al. 1998; Ritchie, Schutter et al. 2000).
La funcionalidad de la comunidad no se puede determinar directamente a partir de datos del clon de ARNr 16S, sin embargo, debe deducirse de los datos mediante análisis filogenético. Además, la LH-PCR y otras tecnologías de huellas dactilares, si bien son herramientas de gran alcance para controlar la dinámica de poblaciones, no pueden identificar las especies individuales en una comunidad. Para ello, se deben seguir investigaciones de huellas dactilares por la construcción, la clonación, la secuenciación y el análisis filogenético de bibliotecas (Fitzgerald 1999; McCraig 1999; Spring, Schulze et al. 2000; Theron y Cloete 2000; Litchfield y Gillevet 2002; Bowman y McCuaig 2003; Kang y Mills 2004; Eckburg, Bik et al. 2005). La identificación de especies de un estudio de huellas dactilares, por lo tanto, es una empresa considerable que es inconveniente, consume mucho tiempo, es costosa y está sujeta a limitaciones técnicas.
Las muestras de agrupamiento pueden, en cierta medida, reducir el coste, el tiempo y los gastos de tales análisis. Por ejemplo, el análisis PCO de los datos de LH-PCR se puede utilizar para agrupar muestras con perfiles similares para la clonación y la secuenciación por lotes. La combinación de las muestras de esta manera reduce el tiempo, los gastos y el trabajo implicado en el análisis de las muestras. Se requiere la secuenciación de al menos 300 clones al azar para identificar los componentes bacterianos de la muestra agrupada hasta 1% de las poblaciones de bacterias totales en muestras típicas. Este nivel de resolución es similar al de la huella dactilar ALH. Originalmente un nuevo enfoque, agrupando muestras similares antes de la clonación y secuenciación ha demostrado ser seguro y eficaz.
En estudios clásicos de comunidades en la bibliografía (Eckburg, Bik et al. 2005), las muestras ambientales se analizan de forma independiente. A continuación, los datos de secuencia del clon de clases/grupos específicos se analizan estadísticamente utilizando usualmente algún tipo de promediación métrica. Los análisis de este tipo pueden ser extremadamente costosos, especialmente si se analizan de forma exhaustiva bibliotecas de clones, algo que implica típicamente la secuenciación de miles de clones. Por otra parte, para que el procedimiento de "promediación" sea válido, como se requiere para la comparación de las poblaciones mixtas, las muestras deben ser agrupadas en proporciones iguales. Aunque simple en principio, en realidad, es difícil de lograr e, incluso si se lograra, sería imposible de verificar. Una nueva técnica, basada en la pirosecuenciación, ofrece ventajas que superan una variedad de estos inconvenientes de las tecnologías de la huella dactilar mencionadas anteriormente. El método se implementa en un instrumento comercializado por 454 Life Sciences, Inc., una subsidiaria de Curagen Sciences, Inc., utilizando reactivos proporcionados por la misma empresa. Además, 454 Life Sciences ofrece un servicio a medida para la pirosecuenciación.
En esta tecnología, las moléculas de ADN individuales se amplifican sobre cuentas mediante PCR en gotitas
5
10
15
20
25
30
35
40
45
50
individuales en una emulsión de aceite-en-agua. Las cuentas se depositan a continuación individualmente en pocilios de una placa de picotitulación. Las secuencias de todos los ADN en los pocillos se determinan en paralelo mediante pirosecuenciación. (Véanse Venter, Levy et al. 2003; Margulies, Egholm et al. 2005; Poinar, Schwarz et al. 2006). En una ronda típica, hay aproximadamente 200.000 moldes por placa, una longitud de lectura media de aproximadamente 100 bases a partir de cada molde, y una ronda con una sola placa genera unos 20 millones de bases de la secuencia en una sola ronda de cuatro horas.
Aunque la tecnología aumenta en gran medida el rendimiento sobre los métodos anteriores, es costoso. En particular, el coste por placa es demasiado alto para que sea económicamente práctico llevar a cabo muchos análisis. Para reducir costes, se pueden utilizar máscaras que dividen una placa en 16 zonas de muestra independientes, de manera que se puede utilizar una placa para procesar 16 muestras diferentes, ya sea al mismo tiempo o de forma independiente. Cada zona 1/16 proporciona aproximadamente 1.000.000 bases de datos de secuencias de aproximadamente 10.000 moldes diferentes. Aunque esto reduce el coste por muestra, los gastos asociados con el uso de esta tecnología todavía son indeseablemente altos.
Diversos aspectos y realizaciones de la presente invención se pueden utilizar para reducir aún más el coste por muestra de esta tecnología (así como otras técnicas, tal como se describe en otra parte en la presente memoria). El uso de técnicas de multietiquetado (referido, entre otros como "Proceso Multietiqueta") para el análisis genómico de las poblaciones bacterianas de acuerdo con ciertos aspectos y realizaciones de la invención, notablemente la secuenciación de alta cobertura de las comunidades bacterianas, se denomina en la presente memoria "Ecogenómica Multietiqueta" y también "Análisis Ecogenómico Multietiqueta".
(Algunas publicaciones utilizan el término "Pirosecuenciación múltiplex" (Pourmand, Elahi et al. 2002) para referirse a la generación de una señal compuesta de múltiples dianas que se leen como una firma para una muestra específica. El término no se utiliza para referirse a la multiplexación basada en etiquetas en la que se determinan las secuencias de diferentes muestras en una mezcla y después se someten a desconvolución a partir de los datos de secuenciación mixtos utilizando etiquetas específicas de la muestra, incorporadas durante las reacciones de amplificación).
Como se describe a continuación el Proceso Multietiqueta en una serie de etapas relativamente sencillas logra todo lo que de otro modo requeriría no solo el análisis de las huellas dactilares de la comunidad, sino también todos los procesos de clonación y secuenciación previamente requeridos para el Análisis Ecogénomico de alta cobertura utilizando técnicas convencionales.
A modo de ilustración, el siguiente ejemplo describe el uso de Análisis Ecogenómico Multietiqueta de regiones variables de genes comunes utilizando cebadores universales etiquetados para el análisis de alta cobertura de varias muestras de la comunidad microbiana, todo al mismo tiempo. El análisis se lleva a cabo como se ha descrito en general anteriormente, y se elabora adicionalmente en detalle a continuación.
En pocas palabras, se añaden etiquetas cortas a los extremos 5' de los cebadores de PCR directo e inverso normalmente utilizados para el análisis de la comunidad. Estas etiquetas se pueden colocar entre los adaptadores de PCR en Emulsión y los cebadores de PCT (véase la Figura 2). Una etiqueta diferente se ancla a los cebadores para cada una de las muestras que se van a combinar. Por ejemplo se pueden utilizar cebadores que abarcan una región variable de genes de ARNr 16S para el análisis de las comunidades bacterianas y arqueales. Los cebadores específicos de ARNr 16S con etiquetas de 4 bases se establecen en la Tabla 1 a continuación. Asimismo se pueden utilizar cebadores que abarcan una región variable de un gen ITS para el análisis de las comunidades fúngicas. Se apreciará que la elección de estos cebadores específicos no es exclusiva, y que se puede emplear una amplia variedad de otros cebadores adecuados para otras regiones diana para la amplificación de la misma manera que se ha descrito en la presente memoria para los genes 16S e ITS. Por lo tanto, se puede utilizar cualquier gen de interés que proporcione sitios de cebadores conservados a través de una comunidad, y una variación suficiente en la región entre los cebadores para la resolución deseada de las especies individuales. Así, por ejemplo, los genes específicos de las rutas funcionales tales como la oxidación de metano anaeróbica, o la reducción de azufre pueden servir como dianas para la reacción de amplificación, así como las secuencias de ARNr 16S.
Tabla 1
Nombre
• Etiqueta ¡ Secuencia Directa Compartida
!AGCTAGAGTTTGA TCMTGGCTCAG i
L27FA
AGCTÍAGCTAGAGTTTGATCMTGGCTCAG i
L27FB
AGTCÍAGTCAGAGTTTGATCMTGGCTCAG
L27FC
GATC;GATCAGAGTTTGATCMTGGCTCAG
L27FD
GACTGACTAGAGTTTGATCMTGGCTCAG •
L27FE
CTGGCTGCAGAGTTTGATCMTGGCTCAG i t
L27FF
CTAGiCTAGAGAGTTTGATCMTGGCTCAG
L27FG
ATGCjATGCAGAGTTTGATCMTGGCTCAG
L27FH
ATAG-ATAGAGAGTTTGATCMTGGCTCAG
L27FM
ATCTjATCTAGAGTTTGATCMTGGCTCAG
L27FO
ATATÍATATAGAGTTTGATCMTGGCTCAG
Nombre
Etiqueta ; Secuencia Inversa Compartida
'A GCTGCTGCCTCCCGTA GGA GT
355RA
AGCTÍAGCTGCTGCCTCCCGTAGGAGT t
355RB
AGTC AGTCGCTGCCTCCCGT AGGAGT
355RC
GATQ'GATCGCTGCCTCCCGTAGGAGT i
355RD
gactÍgactgctgcctcccgtaggagt
355RE
CTGCCTGCGCTGCCTCCCGT AGGAGT
355RF
CTATCTATGCTGCCTCCCGTAGGAGT
355RG
ATGCiATGCGCTGCCTCCCGTAGGAGT t
355RH
ATATÍATATGCTGCCTCCCGTAGGAGT
355RM
ATCTjATCTGCTGCCTCCCGT AGGAGT
355RO
ATACATACGCTGCCTCCCGTAGGAGT - ■ * ---------- ■ .... — .
La Tabla 1 muestra un cebador específico de ARNr 16S con una variedad de secuencias etiqueta de 4 bases ancladas. Como se describe en la presente memoria tales cebadores son útiles para amplificar ARNr 16S en varias 5 muestras que pueden ser secuenciados juntos a continuación. El ARNr 16S en cada muestra se amplifica utilizando una etiqueta diferente, pero la misma secuencia cebadora 16S. Las secuencias de ARNr amplificadas a partir de las muestras se combinan y se secuencian juntas. Las secuencias de ARNr de las diferentes muestras se identifican y clasifican a continuación por su secuencia etiqueta de 4 bases más las primeras 4 bases de cada cebador. Se debe apreciar que las secuencias aguas abajo de la secuencia cebadora 16S compartida 16S diferirán entre las muestras, 10 así como la secuencia etiqueta.
En cada caso, las muestras se amplifican individualmente. Los amplicones resultantes comprenden las secuencias cebadoras incluyendo las etiquetas. Puesto que se utilizan etiquetas únicas para cada muestra, las etiquetas en los amplicones de cada muestra serán diferentes. Los ADN amplificados se reúnen y se secuencian a continuación
5
10
15
20
25
30
35
mediante pirosecuenciación como se ha descrito anteriormente. Los datos de secuencia de una ronda se analizan, en parte, agrupando todas las secuencias que tienen la misma etiqueta. De esta manera, las secuencias de cada muestra se desmultiplexan a partir de los datos de secuenciación obtenidos a partir de la mezcla.
El funcionamiento de la invención a este respecto se ilustra mediante la siguiente simulación, llevada a cabo utilizando los datos de población convencionalmente obtenidos a partir de muestras de derrames fríos. El algoritmo para el análisis de secuencia utiliza una secuencia de comandos en PERL para extraer las primeras 100 bases de la secuencia. A continuación, analiza la totalidad de las secuencias de 100 bases utilizando una secuencia de comandos de PERL RDP a medida. La secuencia de comandos funciona de la siguiente manera:
1. Leer todas las lecturas de secuencias en una matriz asociada (Encriptación "Hash" 1);
2. Extraer 100 subsecuencias de bases desde el principio de cada lectura de secuencia;
3. Crear una matriz asociativa (Encriptación 2) de las secuencias;
4. Realizar una búsqueda BLAST de la base de datos RDP con la Encriptación 1;
5. Realizar una búsqueda BLAST de la base de datos RDP con la Encriptación 2;
6. Comparar las identificaciones de la secuencia original (Encriptación 1) y la subsecuencia (Encriptación 2);
7. Compilar una lista de las identificaciones similares para la Encriptación 1 y la Encriptación 2;
8. Compilar una lista de las identificaciones diferentes para la Encriptación 1 y la Encriptación 2;
9. Calcular el porcentaje de identificaciones similares.
Como se muestra a continuación, no existe prácticamente ninguna diferencia a nivel de clase en la diversidad
microbiana generada por la simulación de la secuenciación y la que se deriva directamente de las secuencias de
ARNr 16S en la base de datos.
Tabla 2
Clase RDP
Primer segmento de 100 unidades ARNr16S
SUBDIVISION_ALFA
3,6% 3,6%
HALÓFILOS_ANAEROBIOS
3,6% 3,6%
SUBDIVISION_BACILLUS-LACTOBACILLUS_STREPTOCOCCUS
3,6% 3,6%
BACTEROIDES_Y_CYTOPHAGA
7,1% 7,1%
SUBDIVISION_CHLOROFLEXUS
3,6% 3,6%
GRUPO_CY.AURANTIACA
7,1% 7,1%
CYANOBACTERIA
7,1% 7,1%
SUBDIVISION DELTA
14,3% 14,3%
SUBGRUPO_CLON_MEDIOAMBIENTAL_WCHB1-41_
7,1% 7,1%
GRUPO_FLX.LITORALIS
3,6% 3,6%
SUBDIVISIÓN_GAMMA
10,7% 10,7%
BACTERIAS CON ALTO CONTENIDO DE _G + C_
7,1% 7,1%
GRUPO_LEPTOSPIRILLUM
3,6% 3,6%
MYCOPLASMA_Y_RELACIONADOS
3,6% 3,6%
GRUPO_PIRELLULA
3,6% 3,6%
GRUPO_SPHINGOBACTERIUM
3,6% 3,6%
SUBDIVISION_SPIROCHAETA-TREPONEMA-BORRELIA
3,6% 3,6%
THERMOANAEROBACTER_Y_RELACIONADOS
3,6% 3,6%
EJEMPLO 3: Análisis de pirosecuenciación multietiqueta de disbiosis en EII
Las enfermedades inflamatorias intestinales (EII o las EII), a saber, la colitis ulcerosa (CU) y la enfermedad de Crohn (EC), son enfermedades crónicas, de por vida, con recaídas, que afectan a aproximadamente 1 millón de estadounidenses y cuestan aproximadamente dos mil millones de dólares al año al sistema de salud de EE.UU. Se desconoce la causa de las EII, no tienen cura, y su incidencia está aumentando. El curso natural de estas enfermedades se caracteriza por períodos de quiescencia (enfermedad inactiva) alternados con brotes (enfermedad activa). Ahora es ampliamente aceptado que los brotes de la EII se deben, sin embargo, a una reacción inflamatoria mal regulada a una disbiosis anormal de la microflora intestinal).
5
10
15
20
25
30
35
40
45
50
55
60
65
Los cambios específicos en la microflora de los pacientes con EII que podrían causar estas enfermedades siguen siendo desconocidos. La restricción de las búsquedas, para un solo patógeno que causa la EII ha sido infructuosa (Véase Guarner y Malagelada 2003). Los estudios de pequeños grupos de bacterias han producido resultados ambiguos (Véase Schultz y Sartor 2000). Solo recientemente se han intentado estudios de grandes conjuntos de la flora bacteriana (Véase Eckburg, Bik, et al. 2005). La mejora del conocimiento de los autores de la presente invención sobre la microflora del tracto gastrointestinal tiene el potencial de revolucionar el tratamiento de la EII. El desarrollo de métodos en tiempo real para el estudio de los cambios en la microflora puede dar lugar a herramientas de diagnóstico para predecir los brotes, y para dirigir, tratamientos seguros para la EII.
El requisito clave para la comprensión de la disbiosis en las enfermedades polimicrobianas es un método para interrogar ampliamente la microflora en numerosas muestras de control y de enfermedad para identificar las tendencias dinámicas en la composición de especies asociadas a la salud y la progresión de la enfermedad. En estudios comunitarios clásicos (Eckburg, Bik, et al. 2005) se someten a ensayo de forma independiente muestras ambientales y a continuación se analizan estadísticamente los datos de secuencia del clon de clases/grupos específicos por lo general con algún tipo de promediación métrica. Esto puede ser extremadamente costoso, especialmente si se analizan de forma exhaustiva las bibliotecas de clones (es decir, 10.000 clones por muestra).
Para mejorar el rendimiento y reducir el coste, se ha utilizado PCR de Heterogeneidad de Longitud del Amplicón (ALH-PCR) para estudiar la microflora intestinal. Ésta ofrece una forma rápida de escrutinio de comunidades microbianas complejas, permitiendo una fácil toma de huellas dactilares de los cambios en la microflora. La toma de huellas dactilares de LH-PCR es económica y rápida, con la capacidad de detectar varios cientos de muestras en un día. Se puede utilizar como una herramienta de estudio rutinaria para controlar la dinámica de las comunidades microbianas naturales del suelo o para identificar rápidamente muestras de interés mediante el análisis PCO. El análisis PCO se ha utilizado para las muestras del grupo con perfiles similares, lo que les permite ser agrupadas para la clonación y secuenciación. Esto reduce en gran medida el coste del análisis de múltiples muestras, en particular cuando el análisis requiere la secuenciación de al menos 300 clones al azar para identificar componentes bacterianos de la muestra hasta una representación del 1% en la población total (que es el límite de resolución de la huellas dactilar de ALH). El agrupamiento de muestras similares antes de la clonación y secuenciación ha demostrado ser bastante robusto. Sin embargo, debe agruparse la misma cantidad de producto de PCR de cada muestra o los resultados serán sesgados.
La pirosecuenciación multietiqueta es una nueva tecnología de pirosecuenciación que permite que se secuencien juntas muchas muestras de la comunidad con una alta cobertura sin la necesidad de técnicas de huella dactilar, clonación, o purificación y separación requeridas por los métodos convencionales para el análisis de las comunidades microbianas, como se ha descrito anteriormente en la presente memoria. La secuenciación multietiqueta es más eficaz, rápida y menos costosa que otros métodos.
A modo de ilustración, la pirosecuenciación multietiqueta se puede llevar a cabo utilizando un conjunto de etiquetas específicas en el extremo de cebadores de ARNr de la subunidad ribosomal pequeña ("SSU") convencional universal (Véase la Tabla 1). Se utiliza un conjunto diferente de los cebadores etiquetados para amplificar el ARNr SSU en cada muestra ambiental diferente (Figura 2-Etapa 1). Los amplicones de PCR de todas las muestras se agrupan. Se lleva a cabo la PCR en emulsión y los amplicones derivados de cada molécula se capturan en sus respectivas cuentas. Después de la amplificación, las cuentas se distribuyen en los pocillos de una placa de picotitulación (Figura 2-Etapa 2). Las secuencias, incluyendo las secuencias etiquetadas, de los amplicones en cada cuenta se determinan mediante pirosecuenciación (Figura 2-Etapa 3). Se utiliza una secuencia de comandos de PERL u otro programa adecuado para clasificar la información de la secuencia utilizando las etiquetas y la secuencia cebadora como clave. Las secuencias con las mismas etiquetas se identifican de este modo con su respectiva muestra. Las especies de bacterias de cada muestra se identifican a continuación emparejando las secuencias de ARNr SSU con las entradas en la base de datos del Ribosomal Database Project (rDp 8.1 o RDP 9.0). La frecuencia normalizada con la que se identifica de este modo una bacteria en una muestra dada es indicativa de su representación relativa en la comunidad microbiana. Los histogramas basados en estas determinaciones de frecuencia se pueden utilizar para el análisis no paramétrico de los desplazamientos disbióticos implicados en los estados de enfermedad.
Por ejemplo, la Figura 3 representa los resultados de tal experimento en el que se analizaron seis muestras de mucosa de control, diez de Crohn, y ocho de colitis ulcerosa por medio de Pirosecuenciación Multietiqueta. Cada uno de los segmentos en las barras apiladas del histograma representa la abundancia normalizada de los taxones específicos en una muestra específica. En este experimento se realizó la identificación de los taxones utilizando análisis BLAST de la base de datos RDP 8.1. Se puede observar que algunos taxones (es decir, el subgrupo de Bacillus fragilis y el subgrupo de Rumanococcus gnavus) están presentes en la misma abundancia en los estados tanto de control como de enfermedad. Otros taxones, tales como Clostridium leptum son más dominantes en la Colitis ulcerosa, mientras que otros (es decir, el subgrupo Gloeothece gloeocapsa) son indicadores de disbiosis en el estado de enfermedad.
Sin embargo, en el procedimiento convencional de 454 Life Science se utiliza una etapa de ligación para conectar los adaptadores de PCR en emulsión a los amplicones de PCR y produce numerosos artefactos en la cuantificación
5
10
15
20
25
30
35
de la abundancia de cada taxón en las muestras. En los resultados que se muestran en la Figura 3, los autores de la presente invención eliminaron algorítmicamente las quimeras, las lecturas inversas y los productos truncados y filtraron los datos para eliminar todos los taxones representados por menos de 5% de la abundancia. Sólo en ese caso los autores de la presente invención fueron capaces de observar una correlación con el estado de enfermedad y los taxones microbianos específicos.
EJEMPLO 4: Distorsión de la distribución de los componentes de una comunidad microbiana mediante la ligación directa de adaptadores de PCR en Emulsión en amplicones de PCR.
En un experimento los autores de la presente invención utilizaron cebadores de PCR etiquetados para amplificar los componentes en muestras de la comunidad microbiana duplicadas, ligaron los adaptadores de PCR en emulsión a estas muestras, y a continuación sometieron estas muestras a rondas de pirosecuenciación separadas. Los amplicones se ejecutan de forma rutinaria en un sistema Agilent Bioanalyzer antes y después de la ligación para cuantificar la mezcla antes de PCR en emulsión. La Figura 4 representa una ronda de la muestra en el Bioanalizador antes y después de la ligación directa y muestra claramente que la etapa de ligación ha alterado drásticamente la distribución de los amplicones.
Adicionalmente, los autores de la presente invención compararon las abundancias normalizadas de los taxones componentes identificados por medio del procedimiento multietiqueta después de la ligación directa de los adaptadores de PCR en emulsión. En este experimento, la identificación de los taxones se realizó utilizando un análisis Bayesiano de la base de datos de rDp 9.0. En la Figura 5 se puede observar que la abundancia de cebadores directo e inverso para varios taxones es diferente dentro de una muestra y entre muestras duplicadas. En varios casos, se pierden familias completas en la comparación entre los duplicados. La Tabla 3 resume las diferencias entre los cebadores directos y los cebadores inversos de las muestras duplicadas y esto es claramente estocástico sin un patrón predecible. Los autores de la presente invención postulan que esta eficacia de ligación diferencial podría ser debida a diversos factores tales como la estructura interna de los amplicones o los sesgos en el nucleótido terminal del adaptador o del amplicón.
Tabla 3 Análisis de muestras duplicadas
FAMILIA RDP 9.0
PROPORCIONES DE CEBADORES PROPORCIONES DE CEBADORES
DIRECTOS INVERSOS
Acidaminococcaceae
544,6% 195,0%
Actinomycetales
144,0% 116,5%
Bacteroidaceae
119,9% 124,5%
Clostridiaceae
97,5% 99,4%
Comamonadaceae
198,0%
Coriobacteriales
181,5% 141,5%
Enterobacteriaceae
4,2%
Eubacteriaceae
88,0% 87,5%
Flavobacteriaceae
34,9%
Incertae sedis 9
106,4% 143,0%
Lachnospiraceae
176,8% 113,1%
Peptococcaceae
91,0%
Peptostreptococcaceae
94,7% 115,4%
Porphyromonadaceae
99,0% 97,3%
Prevotellaceae
264,0% 88,1%
Rikenellaceae
212,2% 106,1%
Streptococcaceae
74,3% 60,7%
Bibliografía
Amann, R. (2000). "Who is out there? Microbial Aspects of Biodiversity". System. Appl. Microbiol. 23: 1-8. Bowman, J. P. y R. D. McCuaig (2003). "Biodiversity, Community Structural Shifts, and Biogeography of Prokaryotes within Antarctic Continental Shelf Sediment". Appl. Environ. Microbiol. 69(5): 2463-2483. Eckburg, P. B., E. M. Bik, et al. (2005). "Diversity of the human intestinal microbial flora". Science 308: 16351638.
5
10
15
20
25
30
35
40
45
50
55
60
65
Fitzgerald, K. M. (1999). Microbial Community Dynamics During the Bench-Scale Bioremediation of Petroleum-Contaminated Soil. Department of Biology. Fairfax, VA, George Mason University: 73.
Frischer, A. E., J. M. Danforth, et al. (2000). "Whole-cell versus total RNA extraction for analysis of microbial community structure with 16S rRNA-targeted oligonucleotide probes in salt marsh sediments". Appl. Environ. Microbiol. 66(7): 3037-3043.
Guarner, F., y J.R. Malagelada. (2003). "Gut flora in health and disease". Lancet 361: 512-9.
Kang, S. y A. L. Mills (2004). "Soil Bacterial Community Changes Following Disturbance of the Overlying Plant Community". Soil Science 169: 55-65.
Klaper, R. y M. Thomas (2004). "At the crossroads of genomics and ecology: the promise of a canary on a chip". BioScience 54: 403-412.
Litchfield, C. D. y P. M. Gillevet (2002). "Microbial diversity and complexity in hypersaline environments: A preliminary assessment". Journal of Industrial Microbiology & Biotechnology 28(1):48-55.
Lydell, C., L. Dowell, et al. (2004). "A population survey of members of the phylum Bacteroidetes isolated from salt marsh sediments along the east coast of the United States". Microbial ecology 48(2): 263-73.
Margulies, M., M. Egholm, et al. (2005). "Genome sequencing in microfabricated high-density picolitre reactors". Nature, 2005 Sep 15, 437(7057):376-80. Epub: 31 julio 2005.
McCraig, A. E., L. Glover, J.I. Prosser (1999). "Molecular analysis of bacterial community structure and diversity in unimproved and improved upland grass pastures". Appl. Environ. Microbiol. 65: 1721-1730.
Mills, D. (2000). Molecular Monitoring of Microbial Populations during Bioremediation of Contaminated Soils. Environmental Sciences and Public Policy/Biology. Fairfax, VA, George Mason University: 217.
Mills, D. K., K. Fitzgerald, et al. (2003). "A Comparison of DNA Profiling Techniques for Monitoring Nutrient Impact on Microbial Community Composition during Bioremediation of Petroleum Contaminated Soils". J. Microbiol. Method 54: 57-74.
Morris, C. E., M. Bardin, et al. (2002). "Microbial biodiversity: approaches to experimental design and hypothesis testing in primary scientific literature from 1975 to 1999". Microbiology and Molecular Biology Reviews 66: 592-616.
Pace, N. R. (1997). "A Molecular View of Microbial Diversity and the Biosphere". Science 276: 734-739.
Poinar, H. N., C. Schwarz, et al. (2006). "Metagenomics to paleogenomics: large-scale sequencing of mammoth DNA". Science, 20 enero 2006, 311(5759):392-4. Epub: 20 Dic 2005.
Pourmand, N., E. Elahi, et al. (2002). "Multiplex Pyrosequencing". Nucleic acids research 30(7): 31.
Ritchie, N. J., M. E. Schutter, et al. (2000). "Use of Length Heterogeneity PCR and Fatty Acid Methyl Ester Profiles to Characterize Microbial Communities in Soil". Applied and Environmental Microbiology 66(4): 16681675.
Schultz, M., y R.B. Sator. (2000). "Probiotics and inflammatory bowel disease". Am. J. of Gastroenterology enero 2000. 95 (1 Supl): S19-21.
Seviour, R. J., T. Mino, et al. (2003). "The microbiology of biological phosphorus removal in activated sludge systems". FEMS Microbiology Reviews 27: 99-127.
Spring, S., R. Schulze, et al. (2000). "Identification and characterization of ecologically significant prokaryotes in the sediment of freshwater lakes: molecular and cultivation studies". FEMS Microbiology Reviews 24: 573590.
Suzuki, M., M. S. Rappe, et al. (1998). "Kinetic bias in estimates of coastal picoplankton community structure obtained by measurements of small-subunit rRNA gene PCR amplicon length heterogeneity". Applied and Environmental Microbiology [Appl. Environ. Microbiol.]. 64(11): 4522-4529.
Suzuki, M. T. (1998). The Effect of Protistan Bacterivory on Bacterioplankton Community Structure:
Dissertation Abstracts International Part B Science and Engineering [Diss. Abst. Int. Pt. B - Sci. & Eng.]. Vol.
59, no. 2, [np]. Agosto 1998.
Theron, J. y T. E. Cloete (2000). "Molecular techniques for determining microbial diversity and community structure in natural environment". Critical Reviews in Microbiology 26: 37-57.
Venter, J. C., S. Levy, et al. (2003). "Massive parallelism, randomness and genomic advances". Nature genetics, marzo 2003, 33 Supl: 219-27.
La solicitud proporciona:
1. Un método múltiplex para la determinación cuantitativa de polinucleótidos en dos o más muestras, que comprende:
hibridar un primer cebador con polinucleótidos en una primera muestra, comprendiendo dicho primer cebador una primera secuencia etiqueta y una primera secuencia sonda específica para una primera secuencia diana, en donde dicha primera secuencia diana se encuentra en posición 3' con respecto a una región genética variable;
alargar los moldes de cebador formados de ese modo para formar una primera población de polinucleótidos etiquetados que comprende: dicho primer cebador incluyendo dicha primera secuencia etiqueta; y secuencias de dicha región genética variable;
hibridar un segundo cebador con polinucleótidos en una segunda muestra, comprendiendo dicho segundo cebador una segunda secuencia etiqueta y una segunda secuencia sonda específica para una segunda secuencia diana, en donde dicha segunda secuencia diana se encuentra en posición 3' con respecto a la misma región genética variable que dicha primera secuencia diana, en donde
5
10
15
20
25
30
35
40
45
50
55
60
65
adicionalmente dicha segunda secuencia sonda puede ser igual o diferente de dicha primera secuencia sonda;
alargar los moldes de cebador formados de ese modo para formar una segunda población de polinucleótidos etiquetados que comprende: dicho segundo cebador incluyendo dicha segunda secuencia etiqueta; y secuencias de dicha región genética variable; mezclar dichas primera y segunda poblaciones entre sí;
determinar las secuencias de polinucleótidos que comprenden secuencias etiqueta y las secuencias del elemento genético variable en dicha mezcla;
a partir de las secuencias etiqueta incluidas en las secuencias de polinucleótidos así determinadas, identificar la muestra en la que aparecen las secuencias de polinucleótidos;
a partir de las secuencias de la región genética variable incluidas en las secuencias de polinucleótidos así determinadas, identificar las variantes particulares de dicho elemento genético variable; a partir de esta información, determinar el número de veces que aparecen una o más variantes dadas en cada muestra, y
a partir del número de cada variante en los polinucleótidos así determinado, cuantificar dichos polinucleótidos en dichas muestras;
en donde dichas secuencias se determinan sin transferencia Southern y/o sin productos de extensión de cebadores separados por tamaños y/o sin electroforesis.
2. Un método múltiplex para la determinación cuantitativa de polinucleótidos en dos o más muestras, que comprende:
hibridar un primer par de cebadores con polinucleótidos en una primera muestra, comprendiendo el primer cebador de dicho primer par de cebadores una primera secuencia etiqueta y una primera secuencia sonda específica para una primera secuencia diana, y comprendiendo el segundo cebador de dicho primer par de cebadores una segunda secuencia etiqueta y una segunda secuencia sonda específica para una segunda secuencia diana, en donde la primera y la segunda secuencia sonda flanquean e hibridan con hebras opuestas de una región genética variable;
alargar los moldes de cebador formados de ese modo para formar una primera población de polinucleótidos etiquetados, comprendiendo cada uno de dichos polinucleótidos: (a) la secuencia de dicho primer cebador de dicho primer par de cebadores, una secuencia de dicha región genética variable, y una secuencia complementaria a la secuencia de dicho segundo cebador de dicho primer par de cebadores o (b) una secuencia complementaria a la secuencia de dicho primer cebador de dicho primer par de cebadores, una secuencia de dicha región genética variable y la secuencia de dicho segundo cebador de dicho primer par de cebadores;
hibridar un segundo par de cebadores con polinucleótidos en una segunda muestra, comprendiendo el primer cebador de dicho segundo par de cebadores una tercera secuencia etiqueta y dicha primera secuencia sonda específica para dicha primera secuencia diana y comprendiendo el segundo cebador de dicho segundo par de cebadores una cuarta secuencia etiqueta y dicha segunda secuencia sonda específica para dicha segunda secuencia diana;
alargar los moldes de cebadores formados de ese modo para formar una segunda población de polinucleótidos etiquetados, comprendiendo cada uno de dichos polinucleótidos: (a) la secuencia de dicho primer cebador de dicho segundo par de cebadores, una secuencia de dicha región genética variable, y una secuencia complementaria a la secuencia de dicho segundo cebador de dicho segundo par de cebadores o (b) una secuencia complementaria a la secuencia de dicho primer cebador de dicho segundo par de cebadores, una secuencia de dicha región genética variable y la secuencia de dicho segundo cebador de dicho segundo par de cebadores; mezclar dichas primera y segunda poblaciones entre sí;
determinar las secuencias de polinucleótidos en dicha mezcla, que comprende las secuencias etiqueta y el elemento genético variable;
a partir de las secuencias etiqueta incluidas en las secuencias de polinucleótidos así determinadas, identificar la muestra en la cual aparecen las secuencias de polinucleótidos;
a partir de las secuencias de la región genética variable incluidas en las secuencias de polinucleótidos así determinadas, identificar las variantes particulares de dicho elemento genético variable; a partir de esta información, determinar el número de veces que aparecen variantes determinadas en cada muestra, y
a partir del número de cada variante en los polinucleótidos así determinado, cuantificar dichos polinucleótidos en dichas muestras.
en donde dichas secuencias se determinan sin transferencia Southern y/o sin productos de extensión de cebadores separados por tamaños y/o sin electroforesis.
3. Un método de acuerdo con la realización 2, en donde el número de dichos polinucleótidos en dicha primera muestra es cualquiera de 5, 10, 25, 50, 100, 150, 200, 250, 500, 1.000, 1.500, 2.000, 2.500, 5.000, 7.500,
10.000, 12.500, 15.000, 17.500, 20.000, 25.000, 30.000, 35.000, 40.000, 50.000, 75.000, 100.000, 150.000,
200.000, 250.000, 500.000, 1.000.000 o más, y el número de dichos polinucleótidos en dicha segunda muestra es cualquiera de 5,10, 25, 50, 100, 150, 200, 250, 500, 1.000, 1.500, 2.000, 2.500, 5.000, 7.500,
5
10
15
20
25
30
35
40
45
50
55
60
65
10.000, 12.500, 15.000, 17.500, 20.000, 25.000, 30.000, 35.000, 40.000, 50.000, 75.000, 100.000, 150.000,
200.000, 250.000, 500.000, 1.000.000 o más.
4. Un método de acuerdo con la realización 2, en donde el número de dichas muestras y de dichas diferentes etiquetas es de 5, 10, 15, 20, 25, 50, 75, 100, 150, 200, 250, 500, 1.000, 2.500, 5.000, 10.000 o más.
5. Un método de acuerdo con la realización 2, en donde las etiquetas son secuencias de nucleótidos que tienen 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36 nucleótidos de longitud o cualquier combinación de los mismos.
6. Un método de acuerdo con la realización 2, en donde dichas etiquetas están incluidas en los cebadores para la amplificación y se incorporan a dichos polinucleótidos mediante amplificación utilizando dichos cebadores.
7. Un método de acuerdo con la realización 6, en donde el cebador para la amplificación comprende una secuencia para la amplificación por PCR, amplificación lineal, amplificación transcripcional, replicación en círculo rodador, o replicación QB.
8. Un método de acuerdo con la realización 7, en donde el cebador para la amplificación comprende una secuencia para la amplificación por PCR.
9. Un método de acuerdo con la realización 2, en donde cada uno de dichos polinucleótidos se dispone individualmente sobre una cuenta aislado de otros polinucleótidos.
10. Un método de acuerdo con la realización 2, en donde cada uno de dichos polinucleótidos está dispuesto individualmente sobre una cuenta aislado de otros de dichos polinucleótidos, se amplifica mientras está dispuesto en ella, y los productos de amplificación del mismo también están dispuestos sobre dicha cuenta.
11. Un método de acuerdo con la realización 2, en donde cada uno de dichos polinucleótidos está dispuesto individualmente sobre una cuenta aislado de otros de dichos polinucleótidos, se amplifica mientras está dispuesto en ella, los productos de amplificación del mismo también están dispuestos sobre dicha cuenta, y cada una de dichas cuentas está dispuesta individualmente en un pocillo aislado de otras de dichas cuentas.
12. Un método de acuerdo con la realización 2, en donde las secuencias se determinan mediante pirosecuenciación.
13. Un método de acuerdo con la realización 2, en donde dichas muestras son muestras biológicas, comprendiendo cada una una o más especies.
14. Un método de acuerdo con la realización 2, en donde las variantes de la región genética variable son específicas para organismos concretos.
15. Un método de acuerdo con la realización 2, en donde dicha región genética variable comprende una secuencia de ARNr 16S variable, una secuencia de ARNr 18S variable, una secuencia de ARNr ITS variable, una secuencia mitocondrial, una secuencia de microsatélites, una secuencia de enzima metabólica y/o una secuencia de enfermedad genética.
16. Un método de acuerdo con la realización 2, en donde las muestras son muestras de una comunidad microbiana.
17. Un método de acuerdo con la realización 2, en donde las muestras son muestras de una comunidad microbiana para el análisis clínico de un paciente.
18. Un método de acuerdo con la realización 2, en donde las muestras son muestras ambientales de una comunidad microbiana.
19. Un método de acuerdo con la realización 2, en donde las muestras son muestras de suelo de una comunidad microbiana.
20. Un método de acuerdo con la realización 2, en donde las muestras son muestras de agua de una comunidad microbiana.
21. Un método de acuerdo con la realización 2, en donde las muestras son muestras para el análisis SNP.
22. Un método de acuerdo con la realización 2, en donde las muestras son muestras para la determinación del genotipo.
5
10
15
20
25
30
35
40
45
23. Un kit que comprende una pluralidad de dos o más cebadores, comprendiendo cada cebador en dicha pluralidad una secuencia etiqueta y una secuencia sonda específicas para una secuencia diana, en donde:
(A) en cada uno de dichos cebadores, la secuencia sonda se encuentra en posición 3' con respecto a la secuencia etiqueta, pero no necesariamente adyacente a ella;
(B) en cada uno de dichos cebadores: la secuencia etiqueta es diferente de la secuencia etiqueta del otro en la pluralidad; la secuencia etiqueta no es la secuencia complementaria a ninguna otra secuencia etiqueta en la pluralidad; la secuencia etiqueta no contiene ninguna secuencia de homodinucleótido; las secuencias de empalme entre la secuencia etiqueta y las porciones adyacentes del cebador, si las hubiera, no son una secuencia de homodinucleótido;
(C) en cada uno de dichos cebadores, la secuencia sonda es complementaria a la secuencia diana y la secuencia diana se encuentra en posición 3' con respecto a una región genética variable, y
(D) cada uno de dichos cebadores está dispuesto separado de los otros en los recipientes de dicho kit.
24. Un kit de acuerdo con la realización 23, en donde cada uno de dichos cebadores comprende adicionalmente una secuencia de cebado 5' con respecto a la secuencia etiqueta, pero no necesariamente adyacente a ésta, y la secuencia de cebado es la misma en todos dichos cebadores, comprendiendo adicionalmente dicho kit un cebador complementario y eficaz para la polimerización de dicha secuencia de cebado.
25. Un kit que comprende una pluralidad de dos o más pares de cebadores, comprendiendo cada cebador de dicha pluralidad una secuencia etiqueta y una secuencia sonda específicas para una secuencia diana, en donde:
(A) en cada uno de dichos cebadores, la secuencia sonda se encuentra en posición 3' con respecto a la secuencia etiqueta, pero no necesariamente adyacente a ella;
(B) en cada uno de dichos cebadores: la secuencia etiqueta es diferente de la secuencia etiqueta del otro en la pluralidad; la secuencia etiqueta no es la secuencia complementaria a ninguna otra secuencia etiqueta en la pluralidad; la secuencia etiqueta no contiene ninguna secuencia de homodinucleótido; las secuencias de empalme entre la secuencia etiqueta y las porciones adyacentes del cebador, si las hubiera, no son una secuencia de homodinucleótido;
(C) en cada uno de dichos cebadores, la secuencia sonda es complementaria a la secuencia diana;
(D) en cada par de cebadores las secuencias sonda son específicas para las secuencias diana que flanquean una región genética variable;
(E) cada uno de dichos cebadores está dispuesto separado de los otros en dicho kit.
26. Un kit de acuerdo con la realización 25, en donde los cebadores comprenden adicionalmente una secuencia de cebado en posición 5' con respecto a la secuencia etiqueta pero no necesariamente adyacente a la misma, la secuencia de cebado es igual en todos los cebadores, o un miembro de cada par tiene la misma primera secuencia de cebado y el segundo miembro de cada par tiene la misma segunda secuencia de cebado, comprendiendo adicionalmente dicho kit, dispuestos por separado entre sí en uno o más recipientes, uno o más cebadores complementarios y eficaces para el alargamiento de dicha secuencia o secuencias de cebado.

Claims (4)

  1. 5
    10
    15
    20
    25
    30
    REIVINDICACIONES
    1. Un kit adecuado para la amplificación y secuenciación múltiplex, que comprende:
    al menos 5 pares de cebadores directos e inversos etiquetados para la amplificación dispuestos por separado, comprendiendo cebador directo e inverso de dicho par de cebadores, en orden 5' a 3':
    una secuencia etiqueta, en donde la secuencia etiqueta en cada uno de dichos pares de cebadores es diferente de la secuencia etiqueta de los otros pares de cebadores; y
    una secuencia de cebado específica para una secuencia diana, en donde la secuencia de cebado en cada uno de dichos pares de cebadores es la misma;
    y en donde:

    la secuencia etiqueta tiene de 4 a 36 nucleótidos de longitud y la secuencia de cebado es

    complementaria a una secuencia diana localizada en posición 3' con respecto a una secuencia de
    ARNr 16S; o

    la secuencia etiqueta tiene de 6 a 36 nucleótidos de longitud y la secuencia de cebado es

    complementaria a una secuencia diana localizada en posición 3' con respecto a una secuencia de
    ARNr 16S, una secuencia de ARNr 18S, una secuencia ITS, una secuencia mitocondrial, una secuencia de microsatélites, una secuencia de enzima metabólica, o una secuencia de enfermedad genética.
  2. 2. El kit de la reivindicación 1, que comprende un conjunto de 10 a 25, o de 20 a 50, o de 25 a 75, o de 50 a 100, o de 50 a 150, o de 100 a 200, o de 250 a 750, o de 100 a 1.000 pares de cebadores etiquetados.
  3. 3. El kit de la reivindicación 1, en donde las secuencias etiqueta tienen 5, 6, 7, u 8 nucleótidos de longitud.
  4. 4. El kit de la reivindicación 1, en donde los cebadores comprenden adicionalmente un radical para la inmovilización.
ES12161878.9T 2006-11-15 2007-11-15 Secuenciación multi-etiqueta y análisis ecogenómico Active ES2679996T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US85894806P 2006-11-15 2006-11-15
US858948P 2006-11-15

Publications (1)

Publication Number Publication Date
ES2679996T3 true ES2679996T3 (es) 2018-09-03

Family

ID=39402482

Family Applications (2)

Application Number Title Priority Date Filing Date
ES12161878.9T Active ES2679996T3 (es) 2006-11-15 2007-11-15 Secuenciación multi-etiqueta y análisis ecogenómico
ES07871488.8T Active ES2490601T3 (es) 2006-11-15 2007-11-15 Secuenciación multi-etiqueta y análisis ecogenómico

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES07871488.8T Active ES2490601T3 (es) 2006-11-15 2007-11-15 Secuenciación multi-etiqueta y análisis ecogenómico

Country Status (6)

Country Link
US (4) US8603749B2 (es)
EP (2) EP2518162B1 (es)
CA (2) CA2958994C (es)
DK (1) DK2518162T3 (es)
ES (2) ES2679996T3 (es)
WO (1) WO2008061193A2 (es)

Families Citing this family (134)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
ES2313143T3 (es) 2005-04-06 2009-03-01 Maurice Stroun Metodo para el diagnostico de cancer mediante la deteccion de adn y arn circulantes.
WO2008109176A2 (en) 2007-03-07 2008-09-12 President And Fellows Of Harvard College Assays and other reactions involving droplets
AR066922A1 (es) * 2007-06-08 2009-09-23 Monsanto Technology Llc Metodos de mejoramiento molecular del germoplasma de una planta por secuenciamiento dirigido
JP5738597B2 (ja) 2007-12-21 2015-06-24 プレジデント アンド フェローズ オブ ハーバード カレッジ 核酸の配列決定のためのシステムおよび方法
EP2326732A4 (en) * 2008-08-26 2012-11-14 Fluidigm Corp TEST METHODS FOR INCREASED SURPLUS OF SAMPLES AND / OR TARGETS
US9909170B2 (en) 2008-09-05 2018-03-06 Washington University Method for multiplexed nucleic acid patch polymerase chain reaction
US8586310B2 (en) * 2008-09-05 2013-11-19 Washington University Method for multiplexed nucleic acid patch polymerase chain reaction
US11111514B2 (en) 2008-09-05 2021-09-07 Washington University Method for multiplexed nucleic acid patch polymerase chain reaction
EP2373812B1 (en) 2008-12-19 2016-11-09 President and Fellows of Harvard College Particle-assisted nucleic acid sequencing
JP5457222B2 (ja) * 2009-02-25 2014-04-02 エフ.ホフマン−ラ ロシュ アーゲー 小型化ハイスループット核酸分析
CN103952482A (zh) 2009-04-02 2014-07-30 弗卢伊蒂格姆公司 用于对目标核酸进行条形码化的多引物扩增方法
JP2012525147A (ja) 2009-04-30 2012-10-22 グッド スタート ジェネティクス, インコーポレイテッド 遺伝マーカーを評価するための方法および組成物
EP2467479B1 (en) 2009-08-20 2016-01-06 Population Genetics Technologies Ltd Compositions and methods for intramolecular nucleic acid rearrangement
EP2522741B1 (en) * 2009-11-16 2015-04-15 Genomictree, Inc. Genotyping method
US9315857B2 (en) 2009-12-15 2016-04-19 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse label-tags
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
DK2623613T3 (en) 2010-09-21 2016-10-03 Population Genetics Tech Ltd Increasing the reliability of the allele-indications by molecular counting
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
WO2012106385A2 (en) 2011-01-31 2012-08-09 Apprise Bio, Inc. Methods of identifying multiple epitopes in cells
WO2012129363A2 (en) * 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
TWI465572B (zh) * 2011-05-19 2014-12-21 Univ Chang Gung Method, composition and system of amplification and detection of target microbial DNA
SG10201605049QA (en) 2011-05-20 2016-07-28 Fluidigm Corp Nucleic acid encoding reactions
US9228233B2 (en) 2011-10-17 2016-01-05 Good Start Genetics, Inc. Analysis methods
JP6375230B2 (ja) 2012-02-27 2018-08-15 セルラー リサーチ, インコーポレイテッド 分子計数のための組成物およびキット
ES2776673T3 (es) 2012-02-27 2020-07-31 Univ North Carolina Chapel Hill Métodos y usos para etiquetas moleculares
WO2013128281A1 (en) 2012-02-28 2013-09-06 Population Genetics Technologies Ltd Method for attaching a counter sequence to a nucleic acid sample
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US10227635B2 (en) 2012-04-16 2019-03-12 Molecular Loop Biosolutions, Llc Capture reactions
EP2852682B1 (en) 2012-05-21 2017-10-04 Fluidigm Corporation Single-particle analysis of particle populations
EP2694669B1 (en) * 2012-06-28 2017-05-17 Taxon Biosciences, Inc. Methods for making or creating a synthetic microbial consortium identified by computational analysis of amplicon sequences
EP3578669A1 (en) 2012-08-08 2019-12-11 F. Hoffmann-La Roche AG Increasing dynamic range for identifying multiple epitopes in cells
US10273541B2 (en) 2012-08-14 2019-04-30 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10323279B2 (en) 2012-08-14 2019-06-18 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10221442B2 (en) 2012-08-14 2019-03-05 10X Genomics, Inc. Compositions and methods for sample processing
US10752949B2 (en) 2012-08-14 2020-08-25 10X Genomics, Inc. Methods and systems for processing polynucleotides
US9951386B2 (en) 2014-06-26 2018-04-24 10X Genomics, Inc. Methods and systems for processing polynucleotides
WO2014028537A1 (en) 2012-08-14 2014-02-20 10X Technologies, Inc. Microcapsule compositions and methods
US9701998B2 (en) 2012-12-14 2017-07-11 10X Genomics, Inc. Methods and systems for processing polynucleotides
US11591637B2 (en) 2012-08-14 2023-02-28 10X Genomics, Inc. Compositions and methods for sample processing
US10584381B2 (en) 2012-08-14 2020-03-10 10X Genomics, Inc. Methods and systems for processing polynucleotides
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
KR102028375B1 (ko) 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CA2894694C (en) 2012-12-14 2023-04-25 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10533221B2 (en) 2012-12-14 2020-01-14 10X Genomics, Inc. Methods and systems for processing polynucleotides
EP3862435A1 (en) 2013-02-08 2021-08-11 10X Genomics, Inc. Polynucleotide barcode generation
EP2774998A1 (en) 2013-03-08 2014-09-10 Roche Diagniostics GmbH Improved sequence tags
WO2014152421A1 (en) 2013-03-14 2014-09-25 Good Start Genetics, Inc. Methods for analyzing nucleic acids
US9328382B2 (en) * 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
EP3597772A1 (en) 2013-04-17 2020-01-22 Agency For Science, Technology And Research Method for generating extended sequence reads
CN105492625B (zh) 2013-04-17 2020-04-07 先锋国际良种公司 用于在基因组中表征dna序列组成的方法
KR20230074639A (ko) 2013-08-28 2023-05-30 벡톤 디킨슨 앤드 컴퍼니 대량의 동시 단일 세포 분석
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
US9582877B2 (en) 2013-10-07 2017-02-28 Cellular Research, Inc. Methods and systems for digitally counting features on arrays
US10851414B2 (en) 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
AU2014369841B2 (en) 2013-12-28 2019-01-24 Guardant Health, Inc. Methods and systems for detecting genetic variants
AU2015209718B2 (en) * 2014-01-25 2021-03-25 Psomagen, Inc. Method and system for microbiome analysis
AU2015243445B2 (en) 2014-04-10 2020-05-28 10X Genomics, Inc. Fluidic devices, systems, and methods for encapsulating and partitioning reagents, and applications of same
WO2015175530A1 (en) 2014-05-12 2015-11-19 Gore Athurva Methods for detecting aneuploidy
KR20170023979A (ko) 2014-06-26 2017-03-06 10엑스 제노믹스, 인크. 핵산 서열 조립을 위한 프로세스 및 시스템
CN106795553B (zh) 2014-06-26 2021-06-04 10X基因组学有限公司 分析来自单个细胞或细胞群体的核酸的方法
WO2016040446A1 (en) 2014-09-10 2016-03-17 Good Start Genetics, Inc. Methods for selectively suppressing non-target sequences
JP2017536087A (ja) 2014-09-24 2017-12-07 グッド スタート ジェネティクス, インコーポレイテッド 遺伝子アッセイのロバストネスを増大させるためのプロセス制御
CA2964472A1 (en) 2014-10-29 2016-05-06 10X Genomics, Inc. Methods and compositions for targeted nucleic acid sequencing
US9975122B2 (en) 2014-11-05 2018-05-22 10X Genomics, Inc. Instrument systems for integrated sample processing
US10233490B2 (en) 2014-11-21 2019-03-19 Metabiotech Corporation Methods for assembling and reading nucleic acid sequences from mixed populations
CA3010579A1 (en) 2015-01-06 2016-07-14 Good Start Genetics, Inc. Screening for structural variants
EP3244992B1 (en) 2015-01-12 2023-03-08 10X Genomics, Inc. Processes for barcoding nucleic acids
JP2018508852A (ja) 2015-01-13 2018-03-29 10エックス ゲノミクス,インコーポレイテッド 構造的変異及び相化情報を視覚化するシステム及び方法
MX2017010142A (es) 2015-02-09 2017-12-11 10X Genomics Inc Sistemas y metodos para determinar variacion estructural y ajuste de fases con datos de recuperacion de variantes.
EP3259371B1 (en) 2015-02-19 2020-09-02 Becton, Dickinson and Company High-throughput single-cell analysis combining proteomic and genomic information
EP3262407B1 (en) 2015-02-24 2023-08-30 10X Genomics, Inc. Partition processing methods and systems
BR112017018054A2 (pt) 2015-02-24 2018-07-24 10X Genomics Inc métodos para a cobertura de sequências de ácidos nucleicos direcionadas
WO2016138496A1 (en) 2015-02-27 2016-09-01 Cellular Research, Inc. Spatially addressable molecular barcoding
CN107430121B (zh) * 2015-03-13 2020-06-23 希森美康株式会社 受试物质的检测方法及在该方法中使用的试剂盒
US11535882B2 (en) 2015-03-30 2022-12-27 Becton, Dickinson And Company Methods and compositions for combinatorial barcoding
US11608516B2 (en) 2015-04-15 2023-03-21 Ecolab Usa Inc. Method for determination of diversity and viability thresholds used to assess microorganisms in process samples
CN107580632B (zh) 2015-04-23 2021-12-28 贝克顿迪金森公司 用于全转录组扩增的方法和组合物
WO2016196229A1 (en) 2015-06-01 2016-12-08 Cellular Research, Inc. Methods for rna quantification
US11302416B2 (en) 2015-09-02 2022-04-12 Guardant Health Machine learning for somatic single nucleotide variant detection in cell-free tumor nucleic acid sequencing applications
JP6940484B2 (ja) 2015-09-11 2021-09-29 セルラー リサーチ, インコーポレイテッド ライブラリー正規化のための方法および組成物
SG10202108763UA (en) 2015-12-04 2021-09-29 10X Genomics Inc Methods and compositions for nucleic acid analysis
EP3390658B1 (en) 2015-12-16 2022-08-03 Standard BioTools Inc. High-level multiplex amplification
SG11201805119QA (en) 2015-12-17 2018-07-30 Guardant Health Inc Methods to determine tumor gene copy number by analysis of cell-free dna
SG11201806757XA (en) 2016-02-11 2018-09-27 10X Genomics Inc Systems, methods, and media for de novo assembly of whole genome sequence data
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
WO2017181146A1 (en) 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer
JP7129343B2 (ja) 2016-05-02 2022-09-01 ベクトン・ディキンソン・アンド・カンパニー 正確な分子バーコーディング
WO2017197338A1 (en) 2016-05-13 2017-11-16 10X Genomics, Inc. Microfluidic systems and methods of use
US10301677B2 (en) 2016-05-25 2019-05-28 Cellular Research, Inc. Normalization of nucleic acid libraries
CN109074430B (zh) 2016-05-26 2022-03-29 贝克顿迪金森公司 分子标记计数调整方法
US10202641B2 (en) 2016-05-31 2019-02-12 Cellular Research, Inc. Error correction in amplification of samples
US10640763B2 (en) 2016-05-31 2020-05-05 Cellular Research, Inc. Molecular indexing of internal sequences
KR102363716B1 (ko) 2016-09-26 2022-02-18 셀룰러 리서치, 인크. 바코딩된 올리고뉴클레오티드 서열을 갖는 시약을 이용한 단백질 발현의 측정
US11854666B2 (en) 2016-09-29 2023-12-26 Myriad Women's Health, Inc. Noninvasive prenatal screening using dynamic iterative depth optimization
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CA3027919C (en) 2016-09-30 2023-02-28 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CN117056774A (zh) 2016-11-08 2023-11-14 贝克顿迪金森公司 用于细胞标记分类的方法
CN109952612B (zh) 2016-11-08 2023-12-01 贝克顿迪金森公司 用于表达谱分类的方法
US10550429B2 (en) 2016-12-22 2020-02-04 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10815525B2 (en) 2016-12-22 2020-10-27 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10011872B1 (en) 2016-12-22 2018-07-03 10X Genomics, Inc. Methods and systems for processing polynucleotides
ES2874143T3 (es) * 2017-01-10 2021-11-04 Paragon Genomics Inc Métodos y composiciones para reducir códigos de barras, moleculares redundantes creados en reacciones de prolongación de cebadores
ES2961580T3 (es) 2017-01-13 2024-03-12 Cellular Res Inc Revestimiento hidrófilo de canales de fluidos
WO2018140966A1 (en) 2017-01-30 2018-08-02 10X Genomics, Inc. Methods and systems for droplet-based single cell barcoding
US11319583B2 (en) 2017-02-01 2022-05-03 Becton, Dickinson And Company Selective amplification using blocking oligonucleotides
WO2018213774A1 (en) 2017-05-19 2018-11-22 10X Genomics, Inc. Systems and methods for analyzing datasets
US10844372B2 (en) 2017-05-26 2020-11-24 10X Genomics, Inc. Single cell analysis of transposase accessible chromatin
SG11201901822QA (en) 2017-05-26 2019-03-28 10X Genomics Inc Single cell analysis of transposase accessible chromatin
EP4345172A2 (en) 2017-06-05 2024-04-03 Becton, Dickinson and Company Sample indexing for single cells
SG11201913654QA (en) 2017-11-15 2020-01-30 10X Genomics Inc Functionalized gel beads
US10829815B2 (en) 2017-11-17 2020-11-10 10X Genomics, Inc. Methods and systems for associating physical and genetic properties of biological particles
WO2019126209A1 (en) 2017-12-19 2019-06-27 Cellular Research, Inc. Particles associated with oligonucleotides
SG11202009889VA (en) 2018-04-06 2020-11-27 10X Genomics Inc Systems and methods for quality control in single cell processing
US11365409B2 (en) 2018-05-03 2022-06-21 Becton, Dickinson And Company Molecular barcoding on opposite transcript ends
CN112272710A (zh) 2018-05-03 2021-01-26 贝克顿迪金森公司 高通量多组学样品分析
EP3861134A1 (en) 2018-10-01 2021-08-11 Becton, Dickinson and Company Determining 5' transcript sequences
US11932849B2 (en) 2018-11-08 2024-03-19 Becton, Dickinson And Company Whole transcriptome analysis of single cells using random priming
WO2020123384A1 (en) 2018-12-13 2020-06-18 Cellular Research, Inc. Selective extension in single cell whole transcriptome analysis
WO2020150356A1 (en) 2019-01-16 2020-07-23 Becton, Dickinson And Company Polymerase chain reaction normalization through primer titration
EP3914728B1 (en) 2019-01-23 2023-04-05 Becton, Dickinson and Company Oligonucleotides associated with antibodies
AU2020216438A1 (en) 2019-01-31 2021-07-29 Guardant Health, Inc. Compositions and methods for isolating cell-free DNA
US11965208B2 (en) 2019-04-19 2024-04-23 Becton, Dickinson And Company Methods of associating phenotypical data and single cell sequencing data
WO2021016239A1 (en) 2019-07-22 2021-01-28 Becton, Dickinson And Company Single cell chromatin immunoprecipitation sequencing assay
CN114729350A (zh) 2019-11-08 2022-07-08 贝克顿迪金森公司 使用随机引发获得用于免疫组库测序的全长v(d)j信息
WO2021146207A1 (en) 2020-01-13 2021-07-22 Becton, Dickinson And Company Methods and compositions for quantitation of proteins and rna
WO2021231779A1 (en) 2020-05-14 2021-11-18 Becton, Dickinson And Company Primers for immune repertoire profiling
US10941453B1 (en) 2020-05-20 2021-03-09 Paragon Genomics, Inc. High throughput detection of pathogen RNA in clinical specimens
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
US11739443B2 (en) 2020-11-20 2023-08-29 Becton, Dickinson And Company Profiling of highly expressed and lowly expressed proteins
US11680293B1 (en) 2022-04-21 2023-06-20 Paragon Genomics, Inc. Methods and compositions for amplifying DNA and generating DNA sequencing results from target-enriched DNA molecules

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5695934A (en) * 1994-10-13 1997-12-09 Lynx Therapeutics, Inc. Massively parallel sequencing of sorted polynucleotides
US5935793A (en) * 1996-09-27 1999-08-10 The Chinese University Of Hong Kong Parallel polynucleotide sequencing method using tagged primers
US6124092A (en) * 1996-10-04 2000-09-26 The Perkin-Elmer Corporation Multiplex polynucleotide capture methods and compositions
US6703228B1 (en) * 1998-09-25 2004-03-09 Massachusetts Institute Of Technology Methods and products related to genotyping and DNA analysis
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7582420B2 (en) 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
WO2001083823A1 (en) 2000-04-28 2001-11-08 Quantum Dot Corporation Methods and compositions for polynucleotide analysis using generic capture sequences
EP1360333A2 (en) 2001-01-31 2003-11-12 Ambion, Inc. Comparative analysis of nucleic acids using population tagging
US20040110191A1 (en) 2001-01-31 2004-06-10 Winkler Matthew M. Comparative analysis of nucleic acids using population tagging
ES2338654T5 (es) * 2003-01-29 2017-12-11 454 Life Sciences Corporation Amplificación de ácidos nucleicos en emulsión de perlas
US7824856B2 (en) * 2003-09-10 2010-11-02 Althea Technologies, Inc. Expression profiling using microarrays
US20050221341A1 (en) * 2003-10-22 2005-10-06 Shimkets Richard A Sequence-based karyotyping
GB0400584D0 (en) 2004-01-12 2004-02-11 Solexa Ltd Nucleic acid chacterisation
WO2005082098A2 (en) * 2004-02-27 2005-09-09 President And Fellows Of Harvard College Polony fluorescent in situ sequencing beads
US7622281B2 (en) * 2004-05-20 2009-11-24 The Board Of Trustees Of The Leland Stanford Junior University Methods and compositions for clonal amplification of nucleic acid
US20060228721A1 (en) * 2005-04-12 2006-10-12 Leamon John H Methods for determining sequence variants using ultra-deep sequencing
CA2910861C (en) * 2005-09-29 2018-08-07 Michael Josephus Theresia Van Eijk High throughput screening of mutagenized populations
US8071310B2 (en) * 2005-11-14 2011-12-06 Keygene Nv Method for the high throughput screening of transposon tagging populations and massive parallel sequence identification of insertion sites

Also Published As

Publication number Publication date
US20140194323A1 (en) 2014-07-10
WO2008061193A2 (en) 2008-05-22
EP2518162A1 (en) 2012-10-31
CA2958994C (en) 2019-05-07
EP2082063B1 (en) 2014-05-07
US9453262B2 (en) 2016-09-27
CA2669728A1 (en) 2008-05-22
US11091813B2 (en) 2021-08-17
ES2490601T3 (es) 2014-09-04
US20100143908A1 (en) 2010-06-10
WO2008061193A3 (en) 2008-11-13
CA2958994A1 (en) 2008-05-22
US20190194727A1 (en) 2019-06-27
DK2518162T3 (en) 2018-06-18
EP2518162B1 (en) 2018-03-07
CA2669728C (en) 2017-04-11
US20160355874A1 (en) 2016-12-08
US8603749B2 (en) 2013-12-10
EP2082063A2 (en) 2009-07-29

Similar Documents

Publication Publication Date Title
ES2679996T3 (es) Secuenciación multi-etiqueta y análisis ecogenómico
US10760123B2 (en) Sequential sequencing
Shendure et al. Next-generation DNA sequencing
Hudson Sequencing breakthroughs for genomic ecology and evolutionary biology
Metzker Sequencing technologies—the next generation
Zhang et al. Application of next generation sequencing to molecular diagnosis of inherited diseases
Strausberg et al. Emerging DNA sequencing technologies for human genomic medicine
US20170145493A1 (en) Nucleic acid ligation systems and methods
Bhaskaran et al. A Review of Next Generation Sequencing Methods and its Applications in Laboratory Diagnosis.
JP2023534882A (ja) キメラアンプリコンアレイ配列決定
Hardiman Application of ultra-high throughput sequencing and microarray technologies in pharmacogenomics testing
Barbaro Overview of NGS platforms and technological advancements for forensic applications
Engstrand How will next-generation sequencing contribute to the knowledge concerning Helicobacter pylori?
Nagymihály et al. Next-Generation Sequencing and its new possibilities in medicine
Ablola et al. The Role of Molecular Systematics in Microbiological Research and Public Health: A Systematic Review
Mandlik et al. Next-Generation Sequencing (NGS): Platforms and Applications
Ogundolie et al. Microbiome characterization and identification: key emphasis on molecular approaches
Kuboniwa et al. Genotyping of Periodontal Anaerobic Bacteria in Relationship to Pathogenesis
Fong A comparison of next-generation sequencing protocols for microbial profiling: a thesis submitted in partial fulfillment of the requirements for the degree of Master of Science in Genetics, Massey University, Palmerston North, New Zealand
Ryan et al. Molecular biological techniques in studies of foodborne parasites
Fong Institute of Fundamental Sciences
Lakshmi Metagenomics-Tool for an inexhaustible access to microbial communities
Sofia et al. A preliminary study on phylogenetic and population genetic study using DYS19 for Orang Asli in Taman Negara Pahang
Xu et al. Characterization of Microbial Diversity in Food Chain: A Molecular Review
Iker et al. ENVIRONMENTAL GENOMICS USING NEXT GENERATION SEQUENCING TECHNOLOGIES: APPLICATIONS AND LIMITATIONS IN ENVIRONMENTAL MICROBIOLOGY