ES2960890T3

ES2960890T3 - Análisis de múltiples analitos utilizando un solo ensayo

Info

Publication number: ES2960890T3
Application number: ES19824423T
Authority: ES
Inventors: Frank J Steemers; Fan Zhang; Dmitry K Pokholok; Steven Norberg
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2018-11-30
Filing date: 2019-11-25
Publication date: 2024-03-07
Anticipated expiration: 2039-11-25
Also published as: MX2021003771A; IL281538A; EP4293126A2; SG11202102700TA; AU2019390388A1; WO2020112604A3; EP3887540B1; CN112867801A; DK3887540T3; BR112021006183A2; US20220195504A1; CN118653217A; FI3887540T3; CN112867801B; EP3887540A2; KR20210098432A; JP2022513561A; US12104281B2; WO2020112604A2; CA3113091A1

Abstract

Las realizaciones de sistemas, métodos y composiciones proporcionadas en el presente documento se relacionan con métodos para analizar simultáneamente múltiples analitos en una sola muestra usando un solo ensayo. Algunas realizaciones se refieren al análisis simultáneo de ADN y ARN en una única muestra, por ejemplo, a la generación simultánea de bibliotecas de ADN y ARN. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Análisis de múltiples analitos utilizando un solo ensayo

Campo

Los sistemas, métodos y composiciones proporcionados en el presente documento se refieren a ensayos para analizar simultáneamente múltiples analitos en una sola muestra. Específicamente, los aspectos desvelados en el presente documento se refieren a métodos para analizar ADN y ARN de una sola muestra en un solo ensayo.

Antecedentes

La detección de secuencias específicas de ácido nucleico presentes en una muestra biológica se ha utilizado, por ejemplo, como un método para identificar y clasificar microorganismos, diagnosticar enfermedades infecciosas, detectar y caracterizar anomalías genéticas, identificar cambios genéticos asociados al cáncer, estudiar la susceptibilidad genética a la enfermedad y medir la respuesta a diversos tipos de tratamiento. Una técnica común para detectar secuencias específicas de ácido nucleico en una muestra biológica es la secuenciación de ácidos nucleicos.

La secuenciación del genoma completo (hologenómica), el genotipado, la resecuenciación dirigida, la expresión génica, la genómica de células individuales, la epigenómica y los análisis de expresión de proteínas de las muestras de tejido pueden ser de importancia significativa para identificar biomarcadores de enfermedades, diagnosticar y pronosticar con precisión enfermedades, y seleccionar el tratamiento adecuado para un paciente. A menudo, esto requiere múltiples ensayos para analizar por separado un analito específico de interés, tal como ADN, ARN o proteínas. Se han establecido diferentes ensayos para analizar por separado e individualmente estos analitos. Sin embargo, un análisis exhaustivo de múltiples analitos requiere mucho tiempo y es tedioso.

Resumen

La presente divulgación se refiere a sistemas, métodos y composiciones para analizar simultáneamente múltiples analitos en una muestra utilizando un solo ensayo.

La divulgación del presente documento se refiere a bibliotecas de ácido nucleico. En algunas realizaciones, las bibliotecas comprenden una biblioteca de ADN complementara (ADNc) y una biblioteca de ADN genómico (ADNg). En algunas realizaciones, la biblioteca de ADNc se obtiene de moléculas de ARN. En algunas realizaciones, la biblioteca de ADNg se obtiene de ADN genómico.

En algunas realizaciones, una sonda de captura se inmoviliza sobre un soporte sólido. En el documento WO 2018/218226 se describen métodos de amplificación y secuenciación de regiones accesibles de cromatina de células individuales mediante la división de células individuales.

Breve descripción de los dibujos

La Figura 1A es un esquema que ilustra métodos tradicionales para analizar múltiples analitos de interés en una muestra, en donde cada analito de interés se analiza por separado en dos observaciones diferentes. La Figura 1B es un esquema de una realización de un proceso para medir simultáneamente diferentes analitos de interés dentro del mismo compartimento.

La Figura 2 es un diagrama esquemático que representa una realización de un ensayo conjunto utilizando diferentes etiquetas para unirse a ADN y ARN. Se muestran las diferentes etiquetas que se introducen en una célula o núcleo individual que tiene el ARN o ADN. La célula o núcleo individual está encapsulado dentro de una gotita o por separado en un pocillo de una placa. Un código de barras se inmoviliza sobre una superficie o se añade en solución y captura el ADN y el ARN a través de las etiquetas.

La Figura 3 es un diagrama esquemático que representa una realización de un ensayo conjunto que utiliza la misma etiqueta para unirse al ADN y al ARN. El ADN se fragmenta primero con un transposoma para que contenga una cola de poliA. Ambos fragmentos de ADN y ARNm se indexan utilizando oligonucleótidos de poliT con un código de barras inmovilizado sobre una superficie o en solución. La reacción de transposición realizada en el ADN permite que el ADN se distinga del ARN gracias a una secuencia específica de transposón interna.

La Figura 4 es un diagrama esquemático que representa una realización del proceso para introducir un transposón de poliA en ADN genómico por transposición. El núcleo/célula se encapsula con el oligonucleótido indexado que tiene una cola de poliT. El oligonucleótido indexado se hibrida y se liga a un fragmento de ADNg transpuesto, y después se hibrida con ARNm para generar un primer ADNc. Después de una segunda síntesis de ADNc, el ADNc bicatenario y el ADNg se transponen nuevamente para añadir un adaptador de PCR en el otro extremo. A continuación, los fragmentos se amplifican por PCR.

Las Figuras 5A-5B representan esquemáticamente un ensayo de cromatina accesible por transposasa utilizando secuenciación (ATAC-seq, por las siglas del inglés assay for transposase accessible chromatic using sequencing). La Figura 5A muestra esquemáticamente los principios generales de ATAC-seq, y la Figura 5B describe etapas para realizar ATAC-seq. de célula individual.

Las Figuras 6A-6B muestran un diagrama esquemático que representa una realización de un ensayo conjunto masivo. Como se muestra en la Figura 6A, se aísla un núcleo celular y el ADN se tagmenta con una cola de poliA. El ADN tagmentado y el ARNm se capturan con una sonda y se purifican para su posterior análisis. La Figura 6B muestra detalles adicionales de los fragmentos de ADN utilizados en el procedimiento de la Figura 6A.

Las Figuras 7A-7B muestran un diagrama esquemático que representa una realización de un ensayo conjunto con perlas. Como se muestra en la Figura 7A, se aísla un núcleo celular y el ADN se tagmenta con una cola de poliA. El ADN tagmentado y el ARNm se capturan con una sonda de biotina. La Figura 7B muestra detalles adicionales de los fragmentos de ADN utilizados en el proceso de la Figura 7A.

La Figura 8 representa datos de ensayos conjuntos masivos de secuenciación de las Figuras 6A-6B. El fragmento para la biblioteca de ATAC tiene una secuencia ME distintiva, resaltada en la Figura 8.

En la Figura 9, los paneles A y B representan datos de ensayos conjuntos masivos de secuenciación de las Figuras 6A-6B. La biblioteca generada se secuenció. Los fragmentos ATAC muestran el enriquecimiento habitual alrededor de las regiones promotoras (panel A), y los fragmentos de ARN para el recuento 3' muestran la acumulación de lecturas alrededor del extremo del gen (panel B).

La Figura 10 es un esquema que ilustra una realización de un ensayo conjunto realizado utilizando indexación combinatoria, tal como SCI-seq.

La Figura 11 es un esquema que ilustra una realización de un método para realizar un ensayo conjunto utilizando secuenciación combinatoria.

La Figura 12 representa una realización ilustrativa de un flujo de trabajo de secuenciación, que muestra un grupo de perlas con códigos de barras insertados en el mismo, y representa cebadores ilustrativos.

La Figura 13 muestra un gráfico que representa el número de lecturas por célula, que muestra que el aumento de la transposasa da como resultado un mayor número de lecturas por célula.

La Figura 14 muestra un gráfico que indica la sensibilidad de células individuales utilizando ATAC-seq en una mezcla de tipos de células.

Descripción detallada

En la siguiente descripción detallada, se hace referencia a los dibujos adjuntos, que forman parte de la misma. En los dibujos, símbolos similares identifican normalmente componentes similares, a menos que el contexto indique lo contrario. Las realizaciones ilustrativas descritas en la descripción detallada, dibujos y reivindicaciones no pretenden ser limitativas.

Las realizaciones de los sistemas, métodos y composiciones proporcionados en el presente documento se refieren al análisis simultáneo de múltiples analitos en una sola muestra. En algunas realizaciones, los múltiples analitos incluyen ADN y ARN.

Los métodos tradicionales para analizar múltiples analitos de una sola muestra requieren ensayos distintos, que implican el uso de reactivos y etapas distintos para aislar cada analito de interés y después analizar cada analito de interés, como se muestra, por ejemplo, en la Figura 1A. Por tanto, los analitos pueden analizarse por separado por tiempo y/o espacio, por ejemplo, en diferentes momentos o en diferentes compartimentos. Por ejemplo, puede ser deseable analizar tanto ADN como ARN de una sola muestra. Los métodos tradicionales analizan por separado ADN utilizando un ensayo, y ARN utilizando otro ensayo, aumentando así el tiempo, el coste y el consumo de recursos. Además, la misma muestra también puede incluir otros analitos de interés, tales como proteínas, y el análisis de proteínas también requiere un ensayo distinto.

Las bibliotecas de ácido nucleico son útiles para determinar productos génicos o para secuenciación del genoma completo. Pueden generarse diferentes tipos de bibliotecas, por ejemplo, bibliotecas de ADN complementario (ADNc), generadas a partir de bibliotecas de ARN de transcripción inversa o de ADN genómico (ADNg), que se incluyen para su uso en epigenómica, tal como mediante el ensayo de cromatina accesible por transposasa utilizando secuenciación (ATAC-seq), un método rápido y sensible de análisis epigenómico integrador. Tradicionalmente, estas bibliotecas se generan por separado e independientemente. Las bibliotecas de ADNc pueden ser útiles para una serie de aplicaciones, que incluyen, por ejemplo, el descubrimiento de nuevos genes, para estudiar la función génica, para determinar la expresión de ARNm, o para determinar el corte y empalme alternativo. Las bibliotecas de ADNg pueden ser útiles para una serie de aplicaciones distintas, que incluyen, por ejemplo, determinar el genoma completo de un organismo, estudiar la función de secuencias reguladoras o estudiar mutaciones genéticas. Los métodos, composiciones y sistemas descritos en el presente documento permiten las generaciones simultáneas de bibliotecas de ADNc y ADNg.

En el presente documento se desvela un sistema y un método para analizar múltiples analitos en una sola muestra utilizando un solo ensayo, en donde cada analito de interés se analiza simultáneamente en un solo compartimento, por ejemplo, como se muestra en la Figura 1B. Aunque la Figura 1B representa dos analitos en una muestra, debe entenderse que puede haber más de dos analitos de interés, y cada analito de interés puede analizarse simultáneamente. Los sistemas, métodos y composiciones descritos en el presente documento se refieren al análisis simultáneo de múltiples analitos en una sola muestra. Los sistemas, métodos y composiciones descritos en el presente documento mejoran la eficiencia del análisis al disminuir la complejidad, los costes y el tiempo del ensayo.

En el presente documento se proporciona una biblioteca de ácidos nucleicos. En algunas realizaciones, la biblioteca de ácidos nucleicos comprende una biblioteca de ADNc procedente de moléculas de ARN y que comprende ácidos nucleicos que tienen una etiqueta.

El método incluye etiquetar. El método incluye además capturar.

Como se utiliza en el presente documento, una muestra incluye cualquier muestra que tenga un analito de interés. La muestra puede ser una muestra biológica, tal como una muestra biológica que tenga un analito de interés, incluyendo, por ejemplo, sangre completa, suero, líquido intersticial, linfa, líquido cefalorraquídeo, esputo, orina, heces, leche, sudor, lágrimas, cordón umbilical, sangre periférica, médula ósea, células o tejido sólido. En algunas realizaciones, la muestra es una población de células, una célula, una población de núcleos celulares o un núcleo celular. La muestra puede obtenerse de un sujeto, en donde es deseable analizar uno o más analitos de interés del sujeto. Como se utiliza en el presente documento, un “sujeto” se refiere a un animal que es el objeto de tratamiento, observación o experimento. “Animal” incluye vertebrados de sangre fría y caliente e invertebrados tales como peces, moluscos y crustáceos (marisco), reptiles y, en particular, mamíferos. “ Mamífero” incluye, sin limitación, ratones, ratas, conejos, cobayas, perros, gatos, ovejas, cabras, vacas, caballos, primates, tales como monos, chimpancés y simios, y, en particular, seres humanos.

La muestra puede ser un líquido o espécimen obtenido de una fuente ambiental. Por ejemplo, el líquido o espécimen obtenido de la fuente ambiental puede obtener o proceder de productos alimenticios, alimentos, aves de corral, carne, pescado, bebidas, productos lácteos, agua (incluyendo aguas residuales), estanques, ríos, depósitos, piscinas, suelos, plantas de procesamiento y/o envasado de alimentos, lugares agrícolas, hidrocultivos (incluyendo granjas de alimentos hidropónicos), plantas de fabricación farmacéutica, instalaciones de colonias animales o cualquier combinación de los mismos. En algunas realizaciones, la muestra es un líquido o espécimen recogido o procedente de un cultivo celular o de una colonia microbiana.

Como se utiliza en el presente documento, “ analito” , “ analito diana” , “ analito de interés” , se utilizan indistintamente y se refieren al analito que se mide en los métodos y sistemas descritos en el presente documento. En algunas realizaciones, el analito puede ser una biomolécula. Como ejemplos no limitantes de biomoléculas se incluyen macromoléculas, tales como, polinucleótidos (p. ej., ADN o ARN), proteínas, lípidos e hidratos de carbono. En determinados casos, el analito puede ser hormonas, anticuerpos, factores de crecimiento, citocinas, enzimas, receptores (p. ej., receptores neuronales, hormonales, nutrientes y de superficie celular) o sus ligandos, marcadores de cáncer (p. ej., PSA, TNF-alfa), marcadores de infarto de miocardio (p. ej., troponina, creatina cinasa y similares), toxinas, fármacos (p. ej., fármacos de adicción), agentes metabólicos (p. ej., incluyendo vitaminas) y similares. Las realizaciones no limitativas de analitos de proteínas incluyen péptidos, polipéptidos, fragmentos de proteínas, complejos de proteínas, proteínas de fusión, proteínas recombinantes, fosfoproteínas, glucoproteínas, lipoproteínas, proteínas marcadas con oligonucleótidos, o similares. El analito diana puede ser un ácido nucleico.

Los ácidos nucleicos diana pueden incluir una muestra en la que el tamaño promedio de un ácido nucleico en la muestra sea menor que, mayor que o igual a aproximadamente 2 kb, 1 kb, 500 pb, 400 pb, 200 pb, 100 pb, 50 pb, o un intervalo entre dos de los tamaños anteriores. En algunas realizaciones, el tamaño promedio de un ácido nucleico en la muestra es menor que, mayor que o igual a aproximadamente 2000 nucleótidos, 1000 nucleótidos, 500 nucleótidos, 400 nucleótidos, 200 nucleótidos, 100 nucleótidos, 50 nucleótidos o un intervalo entre dos de los tamaños anteriores.

Como se utiliza en el presente documento, “ polinucleótido” y “ácido nucleico” pueden utilizarse indistintamente y pueden referirse a una forma polimérica de nucleótidos de cualquier longitud, ya sea ribonucleótidos o desoxirribonucleótidos. Por lo tanto, estos términos incluyen ADN o ARN monocatenario, bicatenario o multicatenario. Los ejemplos de polinucleótidos incluyen un gen o fragmento de gen, ADN genómico completo, ADN genómico, fragmento de ADN genómico epigenómico, exón, intrón, ARN mensajero (ARNm), ARN regulador, ARN de transferencia, ARN ribosomal, ARN no codificante (ARNnc), tal como ARN asociado a PIWI (piARN), ARN de interferencia pequeño (ARNip) y ARN no codificante largo (ARNncl), A r N de horquilla corta (ARNhc), Ar N pequeño nuclear (ARNpn), microARN (miARN), ARN pequeño nucleolar (ARNpnu) y ARN vírico, ribozima, ADNc, polinucleótido recombinante, polinucleótido ramificado, plásmido, vector, ADN aislado de cualquier secuencia, ARN aislado de cualquier secuencia, sonda de ácido nucleico, cebador o copia amplificada de cualquiera de los anteriores. Un polinucleótido puede incluir nucleótidos modificados, tales como nucleótidos metilados y análogos de nucleótidos que incluyen nucleótidos con bases no naturales, nucleótidos con bases naturales modificadas tales como aza- o deaza-purinas. Un polinucleótido puede estar compuesto por una secuencia específica de cuatro bases de nucleótidos: adenina (A); citosina (C); guanina (G); y timina (T). El uracilo (U) también puede estar presente, por ejemplo, como un reemplazo natural de timina cuando el polinucleótido es ARN. En el ADN también puede utilizarse uracilo. La expresión “ secuencia de ácido nucleico” puede referirse a la representación alfabética de un polinucleótido o cualquier molécula de ácido nucleico, incluidas las bases naturales y no naturales.

Un ácido nucleico puede contener enlaces fosfodiéster, y puede incluir otros tipos de cadenas principales, que comprendan, por ejemplo, fosforamida, fosforotioato, fosforoditioato, O-metilfosforoamidita y cadenas principales y enlaces peptídicos de ácido nucleico. Un ácido nucleico puede contener cualquier combinación de desoxirribo- y ribonucleótidos, y cualquier combinación de bases, incluyendo uracilo, adenina, timina, citosina, guanina, inosina, xantanina, hipoxantanina, isocitosina, isoguanina y análogos de bases tales como nitropirrol (incluyendo 3-nitropirrol) y nitroindol (incluyendo 5-nitroindol). En algunas realizaciones, un ácido nucleico puede incluir al menos una base promiscua. Una base promiscua puede emparejarse con más de un tipo diferente de base y puede ser útil, por ejemplo, cuando se incluye en cebadores de oligonucleótidos o insertos que se utilizan para la hibridación aleatoria en muestras complejas de ácido nucleico tales como muestras de ADN genómico. Un ejemplo de una base promiscua incluye inosina que puede emparejarse con adenina, timina o citosina. Otros ejemplos incluyen hipoxantina, 5-nitroindol, 5-nitroindol acíclico, 4-nitropirazol, 4-nitroimidazol y 3-nitropirrol. Pueden utilizarse bases promiscuas que puedan emparejarse con al menos dos, tres, cuatro o más tipos de bases.

Como se utiliza en el presente documento, el término simultáneo se refiere a una acción que tiene lugar al mismo tiempo o sustancialmente al mismo tiempo. Por tanto, el análisis simultáneo de múltiples analitos se refiere a analizar múltiples analitos en un solo ensayo al mismo tiempo o sustancialmente al mismo tiempo. De manera similar, la recogida o derivación simultánea de elementos secuenciables se refiere a recoger o derivar elementos secuenciables al mismo tiempo o sustancialmente al mismo tiempo.

Como se utiliza en el presente documento, el término etiqueta se refiere a una modificación en el analito o analitos de interés de manera que el analito de interés se puede aislar, identificar, rastrear o analizar más tarde. Por tanto, una etiqueta puede identificar el analito de interés en la muestra. En el método según la invención, la etiqueta es una etiqueta de poliadenilación (poliA). En algunas realizaciones, una etiqueta puede incluir una secuencia de nucleótidos que tiene una longitud de al menos 1 nucleótido, al menos 2 nucleótidos, al menos 3 nucleótidos, al menos 4 nucleótidos, al menos 5 nucleótidos, al menos 10 nucleótidos, al menos 15 nucleótidos, al menos 20 nucleótidos, al menos 25 nucleótidos, al menos 30 nucleótidos, al menos 35 nucleótidos, al menos 40 nucleótidos, al menos 45 nucleótidos, al menos 50 nucleótidos o 50 nucleótidos o más, o una longitud dentro de un intervalo de cualquiera de dos de las longitudes anteriores. Según la invención, el marcaje se realiza mediante tagmentación. Como se utiliza en el presente documento “ tagmentación” puede referirse a la inserción de transposones en ácidos nucleicos diana de manera que el transposón escinde los ácidos nucleicos diana y añade secuencias adaptadoras a los extremos de los ácidos nucleicos diana escindidos. Métodos ilustrativos de tagmentación se desvelan en las patentes estadounidenses n.° 9.115.396; 9.080.211; 9.040.256; en la publicación de solicitud de patente estadounidense n.° 2014/0194324

Para fragmentar el ADN, puede utilizarse tecnología basada en transposones, por ejemplo, como se ilustra en el flujo de trabajo de NEXTERA™ XT y en los kits de preparación de muestras de<a>D<n f>L<e>X (Illumina, Inc.), en donde los ácidos nucleicos diana, tal como el ADN genómico, se tratan con complejos transposómicos que fragmentan y etiquetan (tagmentación) simultáneamente la diana, creando así una población de moléculas de ácido nucleico fragmentadas, marcadas con secuencias adaptadoras únicas en los extremos de los fragmentos.

Una reacción de transposición es una reacción en donde uno o más transposones se insertan en ácidos nucleicos diana en sitios aleatorios o sitios casi aleatorios. Como componentes en una reacción de transposición se incluyen una transposasa (u otra enzima capaz de fragmentar y etiquetar un ácido nucleico como se describe en el presente documento, tal como una integrasa) y un elemento transposónico que incluye una secuencia terminal transposónica bicatenaria o que se une a la transposasa (u otra enzima como se describe en el presente documento) y una secuencia adaptadora unida a una de las dos secuencias terminales transposónicas. Una cadena de la secuencia terminal transposónica bicatenaria se transfiere a una cadena del ácido nucleico diana y no es la cadena complementaria de la secuencia terminal transposónica (una secuencia transposónica no transferida). La secuencia adaptadora puede incluir una o más secuencias o componentes funcionales (p. ej., secuencias cebadoras, secuencias de anclaje, secuencias universales, regiones espaciadoras o secuencias de etiquetas de índice) según sea necesario o se desee.

Un “ complejo transposómico” comprende al menos una transposasa (u otra enzima como se describe en el presente documento) y una secuencia de reconocimiento transposónica. En algunos de estos sistemas, la transposasa se une a una secuencia de reconocimiento de transposones para formar un complejo funcional que es capaz de catalizar una reacción de transposición. En algunos aspectos, la secuencia de reconocimiento de transposones es una secuencia terminal transposónica bicatenaria. La transposasa se une a un sitio de reconocimiento de transposasa en un ácido nucleico diana e inserta la secuencia de reconocimiento de transposones en un ácido nucleico diana. En algunos de estos acontecimientos de inserción, una cadena de la secuencia de reconocimiento de transposones (o secuencia terminal) se transfiere al ácido nucleico diana, lo que da como resultado un acontecimiento de escisión. Procedimientos y sistemas de transposición ilustrativos que pueden adaptarse fácilmente para su uso con las transposasas de la presente divulgación se describen, por ejemplo, en la publicación PCT n.° WO10/048605 y en las publicaciones de patente estadounidenses n.° 2012/0301925, 2012/13470087 o 2013/0143774.

Como transposasas ilustrativas que pueden utilizarse con determinadas realizaciones proporcionadas en el presente documento se incluyen (o están codificadas por): Transposasa Tn5 (véase Reznikoff y col., Biochem.

Biophys. Res. Commun. 1999, 266, 729-734), transposasa de la bella durmiente (Sleeping Beauty (SB)” , transposasa de Vibrio harveyi (caracterizada por Agilent y utilizada en el producto SureSelect QXT), transposasa MuA y un sitio de reconocimiento de transposasa Mu que comprende secuencias terminales R1 y R2 (Mizuuchi, K., Cell, 35: 785, 1983; Savilahti, H, y col., e Mb O J., 14:4893, 1995), Tn552 de Staphylococcus aureus (Colegio, O. y col., J. Bacteriol., 183:2384-8, 2001; Kirby, C. y col., Mol. Microbiol., 43:173-86, 2002), Ty1 (Devine y Boeke, Nucleic Acids Res., 22:3765-72, 1994 y publicación PCT n.° WO95/23875), Transposón Tn7 (Craig, N.L., Science, 271:1512, 1996; Craig, N.L., Curr. Top. Microbiol. Immunol., 204:27-48, 1996), Tn/O e IS10 (Kleckner N. y col., Curr. Top. Microbiol. Immunol., 204:49-82, 1996), Mariner transposase (Lampe, D.J. y col., EMBO J., 15:5470-9, 1996), Tc1 (Plasterk, R.H., Curr. Top. Microbiol. Immunol., 204:125-43, 1996), elemento P (Gloor, G.B., Methods Mol. Biol., 260:97-114, 2004), Tn3 (Ichikawa y Ohtsubo, J. Biol. Chem., 265: 18829-32, 1990), secuencias de inserción bacterianas (Ohtsubo y Sekine, Curr. Top. Microbiol. Immunol. 204:1-26, 1996), retrovirus (Brown y col., Proc. Natl. Acad. Sci. EE. UU., 86:2525-9, 1989) y retrotransposón de levadura (Boeke y Corces, Ann. Rev. Microbiol. 43:403-34, 1989). Algunos ejemplos adicionales incluyen IS5, Tn10, Tn903, IS911, y versiones modificadas por ingeniería genética de enzimas de la familia de las transposasas (Zhang y col., (2009) PLoS Genet.

5:e1000689. Epub 16 de oct.; Wilson C. y col. (2007) J. Microbiol. Methods 71:332-5). Los métodos descritos en el presente documento también podrían incluir combinaciones de transposasas y no solo una única transposasa.

En algunas realizaciones, la transposasa es una transposasa Tn5, MuA o de Vibrio harveyi, o un mutante activo de las mismas. En otras realizaciones, la transposasa es una transposasa Tn5 o un mutante activo de la misma. En algunas realizaciones, la transposasa Tn5 es una transposasa Tn5 hiperactiva (véase, p. ej., Reznikoff y col., publicación PCT n.° WO 2001/009363, patentes estadounidenses n.° 5.925.545, 5.965.443, 7.083.980 y 7.608.434, y Goryshin y Reznikoff, J. Biol. Chem. 273:7367, 1998), o un mutante activo de la misma. En algunos aspectos, la transposasa Tn5 es una transposasa Tn5 como se describe en la publicación PCT n.° WO2015/160895. En algunas realizaciones, la transposasa Tn5 es una proteína de fusión. En algunas realizaciones, la proteína de fusión Tn5 transposasa comprende una etiqueta fusionada del factor de elongación Ts (Tsf). En algunas realizaciones, la transposasa Tn5 es una transposasa Tn5 hiperactiva que comprende mutaciones en los aminoácidos 54, 56 y 372 con respecto a la secuencia de tipo silvestre. En algunas realizaciones, la transposasa Tn5 hiperactiva es una proteína de fusión, opcionalmente en donde la proteína fusionada es un factor de elongación Ts (Tsf). En algunas realizaciones, el sitio de reconocimiento es un sitio de reconocimiento de transposasa de tipo Tn5 (Goryshin y Reznikoff, J. Biol. Chem., 273:7367, 1998). En una realización, se utiliza un sitio de reconocimiento de transposasa que forma un complejo con una transposasa Tn5 hiperactiva (p. ej., la transposasa EZ-Tn5™, Epicentre Biotechnologies, Madison, Wis.). En algunas realizaciones, la transposasa Tn5 es una transposasa Tn5 de tipo silvestre.

En cualquiera de las realizaciones de los métodos, composiciones o sistemas descritos en el presente documento, el transposón incluye una secuencia terminal transposónica. En algunas realizaciones, la secuencia terminal transposónica es una secuencia terminal en mosaico (ME, mosaic end). En algunas realizaciones, el ADN se etiqueta utilizando tagmentación, en donde el ADN se etiqueta con una etiqueta, y con la etiqueta se incluye una secuencia específica transposónica, tal como una secuencia ME. Por tanto, el ADN se diferencia del ARN en la muestra basándose en la secuencia específica transposónica.

En cualquiera de las realizaciones de los métodos, composiciones o sistemas descritos en el presente documento, el transposón incluye una secuencia adaptadora. Las secuencias adaptadoras pueden comprender una o más secuencias o componentes funcionales seleccionados del grupo que consiste en secuencias cebadoras, secuencias de anclaje, secuencias universales, regiones espaciadoras, secuencias índice, secuencias de captura, secuencias de código de barras, secuencias de escisión, secuencias relacionadas con la secuenciación y combinaciones de las mismas. En algunas realizaciones, una secuencia adaptadora comprende una secuencia cebadora. En otras realizaciones, una secuencia adaptadora comprende una secuencia cebadora y una secuencia índice o de código de barras. Una secuencia cebadora también puede ser una secuencia universal. Esta divulgación no se limita al tipo de secuencias adaptadoras que podrían utilizarse y un experto en la materia reconocerá secuencias adicionales que pueden ser útiles para la preparación de bibliotecas y secuenciación de nueva generación. Una secuencia universal es una región de secuencia de nucleótidos que es común a dos o más fragmentos de ácido nucleico. Opcionalmente, los dos o más fragmentos de ácido nucleico también tienen regiones de diferencias de secuencia. Una secuencia universal que puede estar presente en diferentes miembros de una pluralidad de fragmentos de ácido nucleico puede permitir la replicación o la amplificación de múltiples secuencias diferentes utilizando un solo cebador universal que sea complementario a la secuencia universal.

Los adaptadores incluyen ácidos nucleicos, tal como ácidos nucleicos monocatenarios. Los adaptadores pueden incluir ácidos nucleicos cortos que tengan una longitud menor que, mayor que o igual a aproximadamente 5 nucleótidos, 10 nucleótidos, 20 nucleótidos, 30 nucleótidos, 40 nucleótidos, 50 nucleótidos, 60 nucleótidos, 70 nucleótidos, 80 nucleótidos, 90 nucleótidos, 100 nucleótidos o un intervalo entre dos de los tamaños anteriores.

En cualquiera de las realizaciones, la secuencia adaptadora o las secuencias terminales transposónicas, incluyendo A14-ME, ME, B15-ME, ME', A14, B15 y ME se proporcionan a continuación:

A14-ME: 5'-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3' (SEQ ID NO: 1)

B15-ME: 5'-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3' (SEQ ID NO: 2)

ME': 5'-fos-CTGTCTCTTATACACATCT-3' (SEQ ID NO: 3)

A14: 5'-TCGTCGGCAGCGTC-3' (SEQ ID NO: 4)

B 15: 5'-GTCTCGTGGGCTCGG-3' (SEQ ID NO: 5)

ME: AGATGTGTATAAGAGACAG (SEQ ID NO: 6)

En algunas realizaciones, las secuencias cebadoras incluyen para preparar las bibliotecas de secuenciación. En algunas realizaciones, la secuencia cebadora es una secuencia cebadora P5 o una secuencia cebadora P7. Los cebadores P5 y P7 se utilizan en la superficie de cubetas de lectura comercializadas vendidas por Illumina, Inc., para la secuenciación en diversas plataformas Illumina. Las secuencias cebadoras se describen en la publicación de patente estadounidense n.° 2011/0059865 A1. Como ejemplos de cebadores P5 y P7, cuyo extremo 5' puede tener un alquino terminal se incluyen los siguientes:

P5: AATGATACGGCGACCACCGAGAUCTACAC (SEQ ID NO: 7)

P7: CAAGCAGAAGACGGCATACGAG*AT (SEQ ID NO: 8)

y derivados o análogos de los mismos. En algunos ejemplos, la secuencia P7 incluye una guanina modificada en la posición G*, p. ej., una 8-oxo-guanina. En otros ejemplos, el * indica que el enlace entre la G* y la A 3' adyacente es un enlace fosforotioato. En algunos ejemplos, los cebadores P5 y/o P7 incluyen enlazadores no naturales. Opcionalmente, uno o ambos de los cebadores P5 y P7 pueden incluir una cola de poli T. La cola de poli T se sitúa generalmente en el extremo 5' de la secuencia mostrada anteriormente, p. ej., entre la base 5' y una unidad de alquino terminal, pero en algunos casos puede situarse en el extremo 3'. La secuencia poli T puede incluir cualquier cantidad de nucleótidos T, por ejemplo, de 2 a 20. Aunque los cebadores P5 y P7 se ofrecen como ejemplos, debe entenderse que puede utilizarse cualquier cebador adecuado de los ejemplos que se muestran en el presente documento. Las secuencias índice que tienen las secuencias cebadoras, incluyendo las secuencias cebadoras P5 y P7 sirven para añadir P5 y P7 para la activación de la biblioteca de secuenciación.

Como se utiliza en el presente documento, el término sonda se refiere a una molécula de captura que tiene suficientes propiedades de unión para unirse específicamente a un analito diana, por ejemplo, a una etiqueta en un analito diana. Por ejemplo, una sonda puede incluir un polinucleótido que tenga suficiente complementariedad para hibridar específicamente con un ácido nucleico diana. Por ejemplo, una sonda puede incluir una secuencia de poliT para unirse específicamente a una etiqueta de poliA. En otro ejemplo, una sonda comprende un anticuerpo o una etiqueta de proteína. Una sonda de captura puede funcionar como una molécula de unión de afinidad para el aislamiento de un ácido nucleico diana a partir de otros ácidos nucleicos y/o componentes en una mezcla. Un ácido nucleico diana también puede unirse específicamente mediante una sonda de captura a través de moléculas intermedias tales como enlazadores, adaptadores y otros ácidos nucleicos puente que tienen una complementariedad suficiente para hibridar específicamente tanto con una secuencia diana como con una sonda de captura.

En algunas realizaciones, la sonda puede inmovilizarse sobre un soporte sólido. Un soporte sólido puede incluir, por ejemplo, una superficie grabada, un pocillo, un pocillo recubierto, una matriz, un dispositivo de cubeta de lectura, un canal de microfluidos, una perla, una perla magnética, una columna, una gotita o una micropartícula. En dichas realizaciones, el analito de interés está unido por la sonda inmovilizada a un soporte sólido, donde el analito de interés experimenta un procesamiento o análisis adicional sobre un soporte sólido. En algunas realizaciones, la sonda inmovilizada y el soporte sólido se utilizan en solución. Por ejemplo, el soporte inmovilizado puede ser una perla, y la sonda, unida a la perla, es soluble en solución para capturar el analito de interés, tal como ADN y ARN, en solución. En dichas realizaciones, el analito de interés marcado se une a la sonda en solución, y el analito de interés marcado es un código de barras en solución. El analito de interés de código de barras puede someterse a un procesamiento o análisis adicional en solución, o puede extraerse mediante un ensayo de extracción, que incluye el uso de perlas magnéticas.

La expresión cubeta de lectura, como se utiliza en el presente documento, se refiere a una cámara que comprende una superficie sólida a través de la cual puede hacerse fluir uno o más reactivos líquidos. Como ejemplos de cubetas de lectura y sistemas de fluido y plataformas de detección relacionados que pueden utilizarse fácilmente en los métodos de la presente divulgación, se incluyen, por ejemplo, dispositivos de microfluidos, microestructuras, micropocillos, placas de microtitulación o similares, y se describen, por ejemplo, en Bentley y col., Nature 456:53-59 (2008), WO 04/018497; patente estadounidense n.° 7.057.026; WO 91/06678; WO 07/123744; patente estadounidense n.° 7.329.492; patente estadounidense n.° 7.211.414; patente estadounidense n.° 7.315.019; patente estadounidense n.° 7.405.281 y documento US 2008/0108082.

Como se utiliza en el presente documento, “ matriz” puede referirse a una población de diferentes microcasillas, tales como microcasillas que comprenden polinucleótidos, que están asociados o unidos con una superficie de manera que las diferentes microcasillas pueden diferenciarse entre sí según la ubicación relativa. Una casilla individual de una matriz puede incluir una sola copia de una microcasilla o puede haber múltiples copias de la microcasilla como una población de microcasillas en una casilla individual de la matriz. La población de microcasillas en cada casilla normalmente es homogénea, con una sola especie de microcasilla. Por tanto, en una casilla puede haber múltiples copias de una secuencia de ácido nucleico individual, por ejemplo, en múltiples moléculas de ácido nucleico que tengan la misma secuencia.

En algunas realizaciones, en una casilla puede haber una población heterogénea de microcasillas. En algunas realizaciones, una casilla puede incluir únicamente una sola especie de microcasilla. En algunas realizaciones, una casilla puede incluir una pluralidad de especies de microcasillas diferentes, tal como una mezcla de ácidos nucleicos que tienen secuencias diferentes. Las casillas colindantes de una matriz pueden estar separadas entre sí. Las casillas pueden ser adyacentes entre sí o estar separadas por un hueco. En realizaciones donde las casillas están espaciadas, los sitios colindantes pueden estar separados, por ejemplo, por una distancia de menos de 100 pm, 50 pm, 10 pm, 5 pm, 1 pm, 0,5 pm, 100 nm, 50 nm, 10 nm, 5 nm, 1 nm, 0,5 nm o cualquier distancia dentro de un intervalo de dos de las distancias anteriores. La disposición de las casillas en una matriz también puede entenderse en términos de distancias de centro a centro entre casillas colindantes. Una matriz útil en la invención puede tener casillas colindantes con una separación de centro a centro de menos de aproximadamente 100 pm, 50 pm, 10 pm, 5 pm, 1 pm, 0,5 pm, 100 nm, 50 nm, 10 nm, 5 nm, 1 nm, 0,5 nm o cualquier distancia dentro de un intervalo de cualquiera de las dos distancias anteriores. En algunas realizaciones, los valores de distancia descritos en el presente documento pueden representar una distancia promedio entre casillas colindantes de una matriz. Como tal, no todas las casillas colindantes han de estar en el intervalo especificado a menos que se indique específicamente lo contrario, por ejemplo, mediante una declaración específica de que la distancia constituye una distancia umbral entre todas las casillas colindantes de una matriz. Las realizaciones pueden incluir matrices que tengan casillas a una variedad de densidades. Los intervalos ilustrativos de densidades para determinadas realizaciones incluyen de aproximadamente 10.000.000 casillas/cm2 a aproximadamente 2.000.000.000 casillas/cm2; de aproximadamente 100.000.000 casillas/cm2 a aproximadamente 1.000.000.000 casillas/cm2; de aproximadamente 100.000 casillas/cm2 a aproximadamente 10.000.000 casillas/cm2; de aproximadamente 1.000.000 casillas/cm2 a aproximadamente 5.000. 000 casillas/cm2; de aproximadamente 10.000 casillas/cm2 a aproximadamente 100.000 casillas/cm2; de aproximadamente 20.000 casillas/cm2 a aproximadamente 50.000 casillas/cm2; de aproximadamente 1.000 casillas/cm2 a aproximadamente 5.000 casillas/cm2 o cualquier densidad dentro de un intervalo de cualquiera de las densidades anteriores.

Como se utiliza en el presente documento, “ superficie” puede referirse a una parte de un sustrato o estructura de soporte que sea accesible para entrar en contacto con reactivos, perlas o analitos. La superficie puede ser sustancialmente llana o plana. Alternativamente, la superficie puede ser redondeada o contorneada. Los contornos ilustrativos que pueden incluirse en una superficie son pocillos, depresiones, pilares, crestas, canales o similares. Los materiales ilustrativos que pueden utilizarse como una estructura de sustrato o soporte incluyen vidrio, tal como vidrio modificado o funcionalizado, plástico, tal como acrílico, poliestireno o un copolímero de estireno y otro material, polipropileno, polietileno, polibutileno, poliuretano o TEFLÓN; polisacáridos o polisacáridos reticulados, tales como agarosa o Sepharose; nailon; nitrocelulosa; resina; sílice o materiales a base de sílice, incluido el silicio y el silicio modificado; fibra de carbono; metal; vidrio inorgánico; haz de fibra óptica, o una variedad de otros polímeros. Un solo material o una mezcla de varios materiales diferentes, puede formar una superficie útil en la invención. En algunas realizaciones, una superficie comprende pocillos.

Como se utiliza en la presente memoria, “ perla” puede referirse a un cuerpo pequeño fabricado con un material rígido o semirrígido. El cuerpo puede tener una forma caracterizada, por ejemplo, como una esfera, un óvalo, una microesfera u otra forma de partícula reconocida que tenga dimensiones regulares o irregulares. Como ejemplos de materiales que son útiles para las perlas se incluyen vidrio, tal como vidrio modificado o funcionalizado, plástico, tal como acrílico, poliestireno o un copolímero de estireno y otro material, polipropileno, polietileno, polibutileno, poliuretano o TEFLÓN; polisacáridos o polisacáridos reticulados, tales como agarosa o Sepharose; nailon; nitrocelulosa; resina; sílice o materiales a base de sílice, incluido el silicio y el silicio modificado; fibra de carbono; metal; vidrio inorgánico; haz de fibra óptica, o una variedad de otros polímeros. Como ejemplos de perlas se incluyen perlas de vidrio de poro controlado, perlas paramagnéticas, sol de thoria, perlas de Sepharose, nanocristales y otros conocidos en la técnica. Las perlas pueden fabricarse con materiales biológicos o no biológicos. Las perlas magnéticas son particularmente útiles por su facilidad de manipulación con imanes. Las perlas utilizadas en determinadas realizaciones pueden tener un diámetro, una anchura o una longitud de 0,1 pm a 100 pm. El tamaño de las perlas puede seleccionarse para que tenga un tamaño reducido y, por lo tanto, tenga una mayor densidad, mientras se mantiene una señal suficiente para analizar las casillas.

Como se utiliza en el presente documento, “ hibridación” , “ hibridar” o equivalente gramatical del mismo, puede referirse a una reacción en la que uno o más polinucleótidos reaccionan para formar un complejo que se forma al menos en parte mediante enlaces de hidrógeno entre las bases de los residuos de nucleótidos. El enlace de hidrógeno puede producirse por emparejamiento de bases de Watson-Crick, unión de Hoogstein o de cualquier otra manera específica de secuencia. El complejo puede tener dos cadenas que formen una estructura dúplex, tres o más cadenas que formen un complejo de múltiples cadenas, una sola cadena de autohibridación, o cualquier combinación de las mismas. Las cadenas también pueden reticularse o unirse de otro modo mediante fuerzas además de enlaces de hidrógeno.

Como se utiliza en el presente documento, “que se extiende” , “ extensión” o cualquier equivalente gramatical de los mismos puede referirse a la adición de los dNTP a un cebador, polinucleótido u otra molécula de ácido nucleico mediante una enzima de extensión tal como una polimerasa. Por ejemplo, en algunas realizaciones desveladas en el presente documento, el cebador extendido resultante incluye información de secuencia de un ácido nucleico. Aunque en algunas realizaciones se indica que la extensión se realiza utilizando una polimerasa, tal como una ADN polimerasa, o una transcriptasa inversa, la extensión puede realizarse de cualquier otra manera bien conocida en la materia. Por ejemplo, la extensión puede realizarse ligando oligonucleótidos entre sí, tal como oligonucleótidos que se han hibridado con una cadena de interés.

Como se utiliza en el presente documento, “ ligamiento” o “ ligar” u otros equivalentes gramaticales de los mismos, pueden referirse a la unión de dos cadenas de nucleótidos mediante un enlace fosfodiéster. El ligamiento puede incluir ligamiento químico. Dicha reacción puede catalizarla una ligasa. Una ligasa se refiere a una clase de enzima que cataliza esta reacción con la hidrólisis de ATP o un trifosfato similar.

Algunas realizaciones proporcionadas en el presente documento se refieren al análisis simultáneo de múltiples analitos en una muestra utilizando un solo ensayo, en donde los múltiples analitos incluyen ADN y ARN. En algunas realizaciones, el ADN diana se modifica mediante marcaje. Por tanto, en algunas realizaciones, el método incluye modificar el ADN en la muestra con una etiqueta. En algunas realizaciones, el método incluye capturar el ADN modificado con una primera sonda complementaria a la primera etiqueta.

En algunas realizaciones, el ADN se etiqueta mediante un proceso de tagmentación, como se muestra en la Figura 2. En la realización de la Figura 2, se muestra una placa de pocillos 10 que tiene una célula o un núcleo 15 individual aislado. El núcleo 15 incluye ADN 20 y ARNm 25 dentro del núcleo 15. La célula o núcleo 15 individual puede encapsularse en una gotita o separarse en pocillos individuales para su análisis. El ADN 20 se muestra marcado con TAG1, que puede haberse obtenido mediante una tagmentación u otro proceso de marcaje, tal como transcripción inversa, ligamiento u otros medios de marcaje de ADN. En la realización de la Figura 2, el ARNm 25 está marcado con TAG2. La Figura 2 también representa sondas 30, 35, que se inmovilizan sobre un soporte sólido 40, que puede ser una perla u otra superficie. La sonda 30 específica para el ADN 20 incluye un elemento de captura TAG1, que es un elemento de captura que se une específicamente a TAG1 en el ADN 20. La sonda 35 específica para el ARNm 25 incluye un elemento de captura TAG2, que es un elemento de captura que se une específicamente a TAG2 en el ARNm 25. Cada sonda también incluye un código de barras, permitiendo de este modo la indexación de los analitos de interés, en este caso, el ADN y el ARNm.

En algunas realizaciones, el ARNm, que incluye una cola de poliA, no está marcado. Por ejemplo, en la realización mostrada en la Figura 3, una placa de pocillos 200 tiene un núcleo 205 que incluye un ARNm 210 que tiene una cola de poliA 215, pero no está marcado de otro modo. En la realización de la Figura 3, el ADNg 220 está marcado con una cola de poliA 215. Después de etiquetar el ADNg 220, tanto el ADNg 220 como el ARNm 210 incluyen una cola de poliA 215. El ADNg 220 puede etiquetarse con una cola de poliA 215 utilizando, por ejemplo, tagmentación. Como se muestra en la Figura 3, el ADNg 220 que tiene una cola de poliA 215 y el ARNm 210 que también tiene una cola de poliA 215, pueden capturarse con la misma sonda 225 que contiene un elemento de captura de poliT 230. La sonda 225 se inmoviliza sobre un soporte sólido 240. Por tanto, el ADNg 220 y el ARNm 210 se procesan simultáneamente y asignan los mismos códigos de barras 235. El ADNg 220 puede diferenciarse del ARNm 210 basándose en una secuencia específica de transposón que se incorporó durante el proceso de tagmentación. Este concepto se detalla adicionalmente con referencia a la Figura 4.

La Figura 4 representa un método ilustrativo para analizar simultáneamente tanto el ADNg como el ARNm en una sola muestra. En esta realización, se introduce un transposón de poliA en el ADN genómico mediante transposición. Los núcleos/células se encapsulan con la sonda indexada que tiene una cola de poliT. La sonda indexada se hibrida después de ligarse al fragmento de ADNg transpuesto, y se hibrida con ARNm. Esto genera un primer ADNc. Después de la transposición, el ADNg incluye una secuencia ME, una secuencia específica de tagmentación. Después de la segunda síntesis de ADNc, el ADNc bicatenario y el ADNg se transponen nuevamente para incorporar un adaptador de PCR. Los fragmentos se preparan después para la amplificación por PCR.

Como se utiliza en el presente documento, el término “ reactivo” describe un agente o una mezcla de dos o más agentes útiles para reaccionar con, interactuar con, diluir o añadir a una muestra, y puede incluir agentes utilizados en los ensayos descritos en el presente documento, incluyendo agentes para la lisis, análisis de ácido nucleico, reacciones de amplificación de ácido nucleico, análisis de proteínas, reacciones de tagmentación, reacciones de ATAC-seq, CPT-seq o SCI-seq, u otros ensayos. Por tanto, los reactivos pueden incluir, por ejemplo, tampones, productos químicos, enzimas, polimerasa, cebadores que tienen un tamaño de menos de 50 pares de bases, ácidos nucleicos molde, nucleótidos, marcadores, colorantes o nucleasas. En algunas realizaciones, el reactivo incluye lisozima, proteinasa K, hexámeros aleatorios, polimerasa (por ejemplo, ADN polimerasa 029, polimerasa Taq, polimerasa Bsu), transposasa (por ejemplo, Tn5), cebadores (por ejemplo, secuencias adaptadoras P5 y P7), ligasa, enzima catalizadora, desoxinucleótidos trifosfato, tampones o cationes divalentes.

En algunas realizaciones, una muestra incluye una célula individual, y la célula individual está fijada. En algunas realizaciones, las células pueden fijarse con un fijador. Como se utiliza en el presente documento, un fijador generalmente se refiere a un agente que puede fijar células. Por ejemplo, las células fijadas pueden estabilizar complejos de proteínas, complejos de ácido nucleico o complejos de proteína-ácido nucleico en la célula. Como agentes fijadores y reticulantes adecuados pueden incluirse fijadores basados en alcohol o aldehído, fijadores basados en formaldehído, glutaraldehído, etanol, fijadores basados en metanol, acetona, ácido acético, tetraóxido de osmio, dicromato de potasio, ácido crómico, permanganato de potasio, mercuriales, picratos, formalina, paraformaldehído, reticulantes de NHS-éster reactivo con amina tales como bis[sulfosuccinimidil] suberato (BS3), 3,3'-ditiobis[sulfosuccinimidilpropionato] (DTSSP), etilenglicol bis[sulfosuccinimidilsuccinato] (sulfo-EGs), glutarato de disuccinimidilo (DSG), ditiobis[succinimidil propionato] (DSP), disuccinimidil suberato (DSS), bis[succinimidilsuccinato] de etilenglicol (EGS), reticulantes NHS-éster/diazirina tales como NHS-diazirina, NHS-LC-diazirina, NHS-SS-diazirina, sulfo-NHS-diazirina, sulfo-NHS-LC-diazirina y sulfo-NHS-SS-diazirina. En algunas realizaciones, la fijación de una célula conserva el estado interno de la célula, evitando así la modificación de la célula durante el análisis posterior o durante el rendimiento de un ensayo.

En algunas realizaciones, la muestra incluye una fuente de ácido nucleico, tal como una célula individual, un núcleo individual o una población de células o una población de núcleos, y la célula individual, el núcleo individual, la población de células o la población de núcleos, se encapsula dentro de una gotita. En algunas realizaciones, la célula se fija antes de la encapsulación. Como se utiliza en el presente documento, una gotita puede incluir una perla de hidrogel, que es una perla para encapsular una célula individual, y está compuesta por una composición de hidrogel. En algunas realizaciones, la gotita es una gotita homogénea de material de hidrogel o es una gotita hueca que tiene una cubierta de hidrogel polimérico. Ya sea homogénea o hueca, una gotita puede ser capaz de encapsular una célula individual. Como se utiliza en el presente documento, el término “ hidrogel” se refiere a una sustancia formada cuando un polímero orgánico (natural o sintético) se reticula mediante enlaces covalentes, iónicos o de hidrógeno para crear una estructura de red abierta tridimensional que atrapa las moléculas de agua para formar un gel. En algunas realizaciones, el hidrogel puede ser un hidrogel biocompatible. Como se utiliza en el presente documento, la expresión “ hidrogel biocompatible” se refiere a un polímero que forma un gel que no es tóxico para las células vivas y permite una difusión suficiente de oxígeno y nutrientes a las células atrapadas para mantener la viabilidad. En algunas realizaciones, el material de hidrogel incluye alginato, acrilamida o polietilenglicol (PEG), PEG-acrilato, PEG-amina, PEG-carboxilato, PEG-ditiol, PEG-epóxido, PEG-isocianato, PEG-maleimida, poli(ácido acrílico) (PAA), poli(metil metacrilato) (PMMA), poliestireno (PS), poliestireno sulfonato (PSS), polivinilpirrolidona (pVpON), N, N'-bis(acriloil)cistamina, óxido de polipropileno (PPO), poli(hidroxietil metacrilato) (PHEMA), poli(N-isopropilacrilamida) (PNIPAAm), poli(ácido láctico) (PLA), poli(ácido láctico-co-glicólico) (PLGA), policaprolactona (PCL), poli(ácido vinilsulfónico) (PVSA), poli(ácido L-aspártico), poli(ácido L-glutámico), polilisina, agar, agarosa, heparina, sulfato de alginato, sulfato de dextrano, hialuronano, pectina, carragenano, gelatina, quitosano, celulosa, colágeno, bisacrilamida, diacrilato, dialilamina, trialilamina, divinil sulfona, dietilenglicol dialil éter, diacrilato de etilenglicol, diacrilato de polimetilenglicol, diacrilato de polietilenglicol, trimetracrilato de trimetilopropoano, triacrilato de trimetilol etoxilado o tetracrilato de pentaeritritol etoxilado, o combinaciones o mezclas de los mismos. En algunas realizaciones, el hidrogel es un material basado en alginato, acrilamida o PEG. En algunas realizaciones, el hidrogel es un material basado en PEG con productos químicos de reacción de acrilatoditiol, epóxido-amina. En algunas realizaciones, el hidrogel forma una cubierta polimérica que incluye PEG-maleido/ditiol, PEG-epóxido/aceite de amina, PEG-epóxido/PEG-amina o PEG-ditiol/acrilato de PEG. En algunas realizaciones, el material de hidrogel se selecciona para evitar la generación de radicales libres que tienen el potencial de dañar biomoléculas intracelulares. En algunas realizaciones, el polímero de hidrogel incluye 60-90 % de líquido, tal como agua y 10-30 % de polímero. En determinadas realizaciones, el contenido acuso de hidrogel es de aproximadamente 70-80 %. Como se utiliza en el presente documento, la expresión “alrededor de” o “aproximadamente” , cuando se modifica un valor numérico, se refiere a variaciones que pueden producirse en el valor numérico. Por ejemplo, las variaciones pueden producirse a través de diferencias en la fabricación de un sustrato o componente particular. En una realización, el término “ aproximadamente” significa dentro de un 1 %, 5 % o hasta un 10 % del valor numérico mencionado.

Los hidrogeles se pueden prepararse mediante la reticulación de biopolímeros hidrófilos o polímeros sintéticos. Por tanto, en algunas realizaciones, el hidrogel puede incluir un reticulante. Como se utiliza en la presente descripción, el término “ reticulante” se refiere a una molécula que puede formar una red tridimensional cuando reacciona con los monómeros base apropiados. Como ejemplos de polímeros de hidrogel, que pueden incluir uno o más reticulantes, se incluyen, pero sin limitación, hialuronanos, quitosanos, agar, heparina, sulfato, celulosa, alginatos (incluyendo sulfato de alginato), colágeno, dextranos (incluyendo sulfato de dextrano), pectina, carragenano, polilisina, gelatinas (incluyendo gelatina tipo A), agarosa, copolímeros de (met)acrilato-oligoláctida-PEO-oligolactida-(met)acrilato, copolímeros de PEO-PPO-PEO (Pluronics), poli(fosfaceno), poli(metacrilatos), poli N-vinilpirrolidona), copolímeros de PL(G)A-PEO-PL(G)A, poli(etilenimina), polietilenglicol (PEG)-tiol, PEG-acrilato, acrilamida, N,N'-bis(acriloil)cistamina, PEG, óxido de polipropileno (PPO), ácido poliacrílico, poli(metacrilato de hidroxietilo) (PHEMA), poli(metacrilato de metilo) (PMMA), poli(N-isopropilacrilamida) (PNIPAAm), poli(ácido láctico) (PLA), poli(ácido láctico-co-glicólico) (PLGA), policaprolactona (PCL), poli(ácido vinilsulfónico) (PVSA), poli(ácido L-aspártico), poli(ácido L-glutámico), bisacrilamida, diacrilato, dialilamina, trialamina, divinilsulfona, éter dialílico de dietilenglicol, diacrilato de etilenglicol, diacrilato de polimetilenglicol, diacrilato de polietilenglicol, trimetracrilato de trimetilopropoano, triacrilato de trimetilol etoxilado o tetracrilato de pentaeritritol etoxilado, o combinaciones de los mismos. Por tanto, por ejemplo, una combinación puede incluir un polímero y un reticulante, por ejemplo, polietilenglicol (PEG)-tiol/PEG-acrilato, acrilamida/N,N'-bis(acriloil)cistamina (BACy) o PEG/óxido de polipropileno (PPO). En algunas realizaciones, la cubierta polimérica incluye un polietilenglicol (PEG) de cuatro brazos. En algunas realizaciones, el polietilenglicol (PEG) de cuatro brazos se selecciona del grupo que consiste en PEG-acrilato, PEG-amina, PEG-carboxilato, PEG-ditiol, PEG-epóxido, PEG-isocianato y PEG-maleimida

En algunas realizaciones, el reticulante es un reticulante instantáneo o un reticulante lento. Un reticulante instantáneo es un reticulante que reticula instantáneamente el polímero de hidrogel, y en el presente documento recibe el nombre de química clic. Los reticulantes instantáneos pueden incluir aceite de ditiol PEG-maleimida o epóxido de PEG aceite de amina. Un reticulante lento es un reticulante que reticula lentamente el polímero de hidrogel, y puede incluir PEG-epóxido PEG-amina o PEG-ditiol PEG-acrilato. Un reticulante lento puede tardar más de varias horas en reticular, por ejemplo, más de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 o 12 horas en reticular. En algunas realizaciones proporcionadas en el presente documento, las gotitas se formulan mediante un reticulante instantáneo y, por lo tanto, conservan el estado celular mejor en comparación con un reticulante lento. Sin pretender imponer ninguna teoría, las células pueden someterse a cambios fisiológicos por mecanismos de señalización intracelular durante tiempos de reticulación más largos.

En algunas realizaciones, un reticulante forma un enlace disulfuro en el polímero de hidrogel, uniendo así polímeros de hidrogel. En algunas realizaciones, los polímeros de hidrogel forman una matriz de hidrogel que tiene poros (por ejemplo, una matriz de hidrogel porosa). Estos poros pueden retener partículas suficientemente grandes, tales como una célula individual o ácidos nucleicos extraídos de la misma dentro de la gotita, pero permiten que otros materiales, tales como reactivos, pasen a través de los poros, pasando así dentro y fuera de las gotitas. En algunas realizaciones, el tamaño de poro de las gotitas se afina meticulosamente modificando la relación de la concentración entre el polímero y la concentración de reticulante. En algunas realizaciones, la relación entre el polímero y el reticulante es de 30:1, 25:1, 20:1, 19:1, 18:1, 17:1, 16:1, 15:1, 14:1, 13:1, 12:1, 11:1, 10:1,9:1, 8:1,7:1, 6:1, 5:1,4:1, 3:1,2:1, 1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9, 1:10, 1:15, 1:20 o 1:30, o una relación dentro de un intervalo definido por dos relaciones cualquiera de las mencionadas anteriormente. En algunas realizaciones, en la matriz polimérica pueden injertarse funciones adicionales, tales como cebadores de ADN, o grupos químicos con carga, para satisfacer las necesidades de las diferentes aplicaciones.

Como se utiliza en el presente documento, el término “ porosidad” significa el volumen fraccionario (adimensional) de un hidrogel que está compuesto por espacio abierto, por ejemplo, poros u otras aberturas. Por lo tanto, la porosidad mide los espacios vacíos en un material y es una fracción del volumen de vacíos sobre el volumen total, como un porcentaje entre 0 y 100 % (o entre 0 y 1). La porosidad del hidrogel puede variar de 0,5 a 0,99, de aproximadamente 0,75 a aproximadamente 0,99 o de aproximadamente 0,8 a aproximadamente 0,95.

En algunas realizaciones, la gotita puede tener cualquier tamaño de poro que permita una difusión suficiente de reactivos mientras se retiene simultáneamente la célula individual o los ácidos nucleicos extraídos de la misma. Como se utiliza en el presente documento, la expresión “tamaño de poro” se refiere a un diámetro o a un diámetro eficaz de una sección transversal de los poros. La expresión “tamaño de poro” también puede referirse a un diámetro promedio o a un diámetro eficaz promedio de una sección transversal de los poros, basándose en las mediciones de una pluralidad de poros. El diámetro eficaz de una sección transversal que no es circular es igual al diámetro de una sección transversal circular que tiene la misma área transversal que la de la sección transversal no circular. En algunas realizaciones, el hidrogel puede hincharse cuando éste se hidrata. Los tamaños del tamaño de los poros pueden cambiar dependiendo del contenido acuoso en el hidrogel. En algunas realizaciones, los poros del hidrogel pueden tener un poro de tamaño suficiente para retener la célula encapsulada dentro del hidrogel pero permitir el paso de reactivos. En algunas realizaciones, el interior de la gotita es un entorno acuoso. En algunas realizaciones, la célula individual dispuesta dentro de la gotita no interacciona con la cubierta polimérica de la gotita y/o no está en contacto con la cubierta polimérica En algunas realizaciones, alrededor de una célula se forma una cubierta polimérica, y la célula está en contacto con la cubierta polimérica debido a que la cubierta polimérica se lleva a la superficie celular debido a la adsorción pasiva o de una manera dirigida, tal como al unirse a un anticuerpo o a otra molécula de unión específica.

En algunas realizaciones, la gotita tiene un tamaño suficiente para encapsular una célula individual. En algunas realizaciones, la gotita tiene un diámetro de aproximadamente 20 pm a aproximadamente 200 pm, tal como de 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190 o 200 pm, o un diámetro dentro de un intervalo definido por dos valores cualquiera de los mencionados anteriormente. El tamaño de la gotita puede cambiar debido a factores ambientales. En algunas realizaciones, las gotitas se expanden cuando se separan de la fase oleaginosa continua y se sumergen en una fase acuosa. En algunas realizaciones, la expansión de la gotita aumenta la eficacia a la hora de realizar ensayos sobre el material genético dentro de las células encapsuladas. En algunas realizaciones, la expansión de la gotita crea un entorno más grande para insertos indexados a amplificar durante la PCR, que de otro modo puede restringirse en ensayos actuales basados en células.

En algunas realizaciones, se prepara una gotita por medios dinámicos, tal como mediante emulsión asistida por vórtice, generación de gotitas para microfluidos o microfluidos basados en válvula. En algunas modalidades, las gotitas se formulan en una distribución de tamaño uniforme. En algunas realizaciones, el tamaño de las gotitas se afina meticulosamente ajustando el tamaño del dispositivo microfluídico, el tamaño de uno o más canales o el caudal a través de los canales microfluídicos. En algunas realizaciones, la gotita resultante tiene un diámetro que varía de 20 a 200 pm, por ejemplo, de 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190 o 200 pm, o un diámetro dentro de un intervalo definido por dos valores cualquiera de los mencionados anteriormente.

En algunas realizaciones, el análisis de uno o más analitos puede incluir varios análisis, dependiendo de cuál sea el analito. Por ejemplo, el análisis puede incluir análisis de ADN, análisis de ARN, análisis de proteínas, tagmentación, amplificación de ácido nucleico, secuenciación de ácido nucleico, preparación de bibliotecas de ácidos nucleicos, ensayo de cromatina accesible por transposasa utilizando secuenciación (ATAC-seq), transposición conservando la contigüidad (CPT-seq), secuenciación indexada combinatoria de célula individual (SCI-seq) o amplificación del genoma de célula individual, o cualquier combinación de los mismos.

El análisis de ADN se refiere a cualquier técnica utilizada para amplificar, secuenciar o analizar de otro modo ADN. La amplificación del ADN puede realizarse mediante técnicas de PCR o pirosecuenciación. El análisis de ADN también puede comprender técnicas no dirigidas de secuenciación de ADN no basadas en PCR (p. ej., metagenómica). Como ejemplo no limitativo, el análisis de ADN puede incluir secuenciar la región hipervariable del ADNr (ADN ribosómico) 16S y utilizar la secuenciación para la identificación de especies mediante ADN.

Análisis de ARN se refiere a cualquier técnica que se utilice para amplificar, secuenciar o analizar de otro modo ARN. Las mismas técnicas utilizadas para analizar el ADN pueden emplearse para amplificar y secuenciar el ARN. El ARN, que es menos estable que el ADN, es la traducción del ADN en respuesta a un estímulo. Por lo tanto, el análisis de ARN puede proporcionar una imagen más precisa de los miembros metabólicamente activos de la comunidad y puede utilizarse para proporcionar información acerca de la función comunitaria de organismos en una muestra. Además, el análisis simultáneo tanto del ADN como del ARN puede ser beneficioso para determinar de manera eficaz las consultas relacionadas tanto con el ADN como con el ARN. La secuenciación de ácido nucleico se refiere al uso de secuenciación para determinar el orden de nucleótidos en una secuencia de una molécula de ácido nucleico, tal como ADN o ARN.

El término “ secuenciación” , como se utiliza en el presente documento, se refiere a un método mediante el cual se obtiene la identidad de al menos 10 nucleótidos consecutivos (p. ej., la identidad de al menos 20, al menos 50, al menos 100 o al menos 200 o más nucleótidos consecutivos) de un polinucleótido.

Las expresiones “ secuenciación de nueva generación” o “ secuenciación de alto rendimiento” o “ NGS” , generalmente se refieren a tecnologías de secuenciación de alto rendimiento, que incluyen, pero sin limitación, secuenciación de firmas masivamente paralela, secuenciación de alto rendimiento, secuenciación por ligamiento (p. ej., secuenciación SOLiD), secuenciación por semiconductores de iones de protones, secuenciación de nanobolas de ADN, secuenciación de molécula individual y secuenciación de nanoporos y pueden referirse a la secuenciación por síntesis paralelizada o a las plataformas de secuenciación por ligamiento empleadas actualmente por Illumina, Life Technologies, o Roche, etc. Los métodos de secuenciación de nueva generación también pueden incluir métodos de secuenciación de nanoporos o métodos basados en detección electrónica, como la tecnología Ion Torrent comercializada por Life Technologies o el método basado en la fluorescencia de molécula individual comercializado por Pacific Biosciences.

Análisis de proteínas se refiere al estudio de proteínas, y puede incluir análisis proteómico, la determinación de la modificación postraduccional de proteínas de interés, la determinación de los niveles de expresión de proteínas o la determinación de las interacciones de proteínas con otras moléculas, incluyendo la interacción con otras proteínas o con ácidos nucleicos.

Como se utiliza en el presente documento, el término “tagmentación” se refiere a la modificación del ADN mediante un complejo transposómico que comprende la enzima transposasa formado un complejo con adaptadores que comprenden la secuencia terminal transposónica. La tagmentación da como resultado la fragmentación simultánea del ADN y el ligamiento de los adaptadores en los extremos 5' de ambas cadenas de los fragmentos dúplex. Después de una etapa de purificación para retirar la enzima transposasa, pueden añadirse secuencias adicionales a los extremos de los fragmentos adaptadores, por ejemplo, mediante PCR, ligamiento o cualquier otra metodología adecuada conocida por los expertos en la materia.

Un ensayo de cromatina accesible por transposasa utilizando secuenciación (ATAC-seq) se refiere a un método rápido y sensible de análisis epigenómico integrador. ATAC-seq captura sitios de cromatina abiertos y revela interacción entre ubicaciones genómicas de cromatina abierta, proteínas de unión a ADN, nucleosomas individuales y compactación de orden superior en regiones reguladoras con resolución de nucleótidos. Se han descubierto clases de factores de unión al ADN que evitan estrictamente los nucleosomas, los toleran o tienden a solaparse con ellos. Utilizando ATAC-seq, se midieron y evaluaron los epigenomas diarios en serie de linfocitos T humanos en reposo y se evaluaron a partir de una pro banda mediante extracciones de sangre estándar, lo que demuestra la viabilidad de la lectura de los epigenomas personales en escalas de tiempo clínicas para monitorizar la salud y la enfermedad. Más específicamente, ATAC-seq puede realizarse tratando la cromatina de una célula individual con un complejo enzimático de inserción para producir fragmentos marcados de ADN genómico. En esta etapa, la cromatina está tagmentada (por ejemplo, fragmentada y marcada en la misma reacción) utilizando una enzima de inserción tal como Tn5 o MuA que escinde el ADN genómico en regiones abiertas en la cromatina y añade adaptadores a ambos extremos de los fragmentos. ATAC-seq permite la transposición únicamente en estados de cromatina abierta, como se describe en la Figura 5A, y como se describe, en líneas generales, en Buenrostro y col., (Nature Methods, 2013, 10, 1213-1218), que se incorpora en la presente descripción como referencia en su totalidad.

En cualquiera de las realizaciones de los métodos, composiciones o sistemas descritos en el presente documento, ATAC-seq puede realizarse en una célula individual o en células totales. ATAC-seq de célula individual permite el análisis epigenético de células individuales, y puede realizarse en compartimentos, por ejemplo, encapsulando una célula individual o un núcleo individual dentro de una gotita o una perla. Como se utiliza en el presente documento, el término compartimento se refiere a la designación física o virtual de un espacio confinado en donde puede tener lugar una reacción. Por ejemplo, un compartimento puede ser una perla, una gotita, un pocillo u otro parámetro físico que defina un área en donde puedan retenerse componentes, por ejemplo, en donde una célula individual puede someterse a experimentación y análisis. El término co-compartimentado se refiere a estar dentro de un solo compartimento. Por ejemplo, cuando se dice que dos analitos están co-compartimentados, los analitos están ambos dentro del mismo compartimento. Los productos de reacción que están co-compartimentados se refieren a productos que se colocan dentro del mismo compartimento o que se prepararon en el mismo compartimento (por ejemplo, se prepararon en un solo entorno en las mismas condiciones de reacción).

La encapsulación de una célula individual o de un núcleo individual dentro de una perla o gotita puede realizarse mediante la división de la célula o núcleo individual dentro de una perla. Tras la encapsulación, la célula individual se somete a ATAC-seq, como se describe en la Figura 5B. En ATAC-seq de célula individual, las células (o los núcleos) pueden compartimentarse, tagmentarse y analizarse individualmente. Esto permite la transposición conservando la contigüidad (CPT-seq), ya que garantiza que todos los ADN o bibliotecas de una célula individual se encapsulen en una gotita individual. Normalmente, la transposición inserta adaptadores y fragmentos del ADN después de eliminar la transposasa. La fragmentación cifra las lecturas de varias células en una gotita, de modo que no puede obtenerse una resolución de célula individual. Por el contrario, los métodos proporcionados en el presente documento permiten que la transposasa mantenga todos los fragmentos individuales de ADN/biblioteca juntos, lo que permite que todos los materiales de una célula individual se desplacen en una gotita individual. Todos los fragmentos de una célula en una gotita individual son indexables a través de PCR utilizando cebadores de código de barras (de una perla cargada en la gotita). CPT-seq se describe, en líneas generales, en Amini y col., (Nat Genet, 2014, 46, 1343-1349), que se incorpora como referencia en la presente descripción en su totalidad. Además, en algunas realizaciones, puede utilizarse ATAC-seq de célula individual para la indexación combinatoria. Puede utilizarse indexación combinada o dividida y en grupo para cargar múltiples células en el mismo pocillo o gota, manteniendo al mismo tiempo la resolución de célula individual/núcleo individual. En algunas realizaciones, el índice puede utilizarse para la identificación de muestras, la condición experimental o para las mismas células. La indexación combinatoria puede utilizarse para aumentar la utilización de gotitas y el rendimiento celular, y puede utilizarse con células o núcleos individuales.

En algunos casos, las condiciones pueden ajustarse para obtener un nivel deseable de inserción en la cromatina (p. ej., para que se produzca una inserción, en promedio, cada 50 a 200 pares de bases en regiones abiertas). La cromatina utilizada en el método, puede fabricarse mediante cualquier método adecuado. En algunas realizaciones, los núcleos pueden aislarse y someterse a lisis, y la cromatina puede purificarse adicionalmente, p. ej., de la envoltura nuclear. En otras realizaciones, la cromatina puede aislarse poniendo en contacto núcleos aislados con el tampón de reacción. En estas realizaciones, se puede producir la lisis de los núcleos aislados al ponerse en contacto con el tampón de reacción (que comprende complejos enzimáticos de inserción y otros reactivos necesarios), lo que permite el acceso de la enzima de inserción a la cromatina. En estas realizaciones, el método puede comprender aislar núcleos de una población de células; y combinar los núcleos aislados con la transposasa y adaptadores, en donde la combinación da como resultado la lisis de los núcleos para liberar dicha cromatina y la producción de fragmentos de ADN genómico marcados con adaptador. La cromatina no requiere reticulación como en otros métodos (p. ej., los métodos ChIP-SEQ).

Después de que la cromatina se ha fragmentado y marcado para producir fragmentos marcados de ADN genómico, al menos algunos de los fragmentos marcados con adaptador se secuencian para producir una pluralidad de lecturas de secuencia. Los fragmentos pueden secuenciarse utilizando cualquier método adecuado. Por ejemplo, los fragmentos pueden secuenciarse utilizando el método de terminador reversible de Illumina, el método de pirosecuenciación de Roche (454), la secuenciación de Life Technologies mediante ligamiento (la plataforma SOLiD) o la plataforma Ion Torrent de Life Technologies. En las siguientes referencias se describen ejemplos de dichos métodos: Margulies y col. (Nature 2005437: 376-80); Ronaghi y col. (Analytical Biochemistry 1996242: 84-9); Shendure y col. (Science 2005309: 1728-32); Imelfort y col. (Brief Bioinform. 2009 10:609-18); Fox y col. (Methods Mol Biol. 2009;553:79-108); Appleby y col. (Methods Mol Biol.

2009; 513:19-39) y Morozova y col. (Genomics. 200892:255-64), que son para las descripciones generales de los métodos y las etapas particulares de los métodos, que incluyen todos los productos de partida, métodos para la preparación de bibliotecas, reactivos y productos finales para cada una de las etapas. Como sería evidente, durante la etapa de amplificación, a los extremos de los fragmentos pueden añadirse sitios cebadores de secuenciación directos e inversos que sean compatibles con una plataforma de secuenciación de próxima generación seleccionada. En determinadas realizaciones, los fragmentos pueden amplificarse utilizando cebadores de PCR que se hibridan con las etiquetas que se han añadido a los fragmentos, donde el cebador utilizado para la PCR tiene colas 5' que son compatibles con una plataforma de secuenciación particular. En la solicitud PCT n.° PCT/U<s>2014/038825, se exponen métodos para realizar ATAC-seq.

El término “ cromatina” , como se utiliza en el presente documento, se refiere a un complejo de moléculas que incluyen proteínas y polinucleótidos (p. ej., ADN, ARN), como se encuentran en un núcleo de una célula eucariota. La cromatina está compuesta en parte por proteínas histonas que forman nucleosomas, ADN genómico y otras proteínas de unión a ADN (p. ej., factores de transcripción) que generalmente están unidas al ADN genómico.

La secuenciación por transposición conservando la contigüidad (CPT-seq, por las siglas del inglés contiguity-preserving transposition sequencing) se refiere a un método de secuenciación que al mismo tiempo conserva la información de contigüidad utilizando transposasa para mantener la asociación de fragmentos de ácido nucleico molde adyacentes en el ácido nucleico diana. Por ejemplo, puede realizarse CPT en un ácido nucleico, tal como en ADN o ARN. El ácido nucleico de CPT puede capturarse mediante hibridación de oligonucleótidos complementarios que tienen índices o códigos de barras únicos e inmovilizarse sobre un soporte sólido. En algunas realizaciones, el oligonucleótido inmovilizado sobre el soporte sólido puede comprender además sitios de unión al cebador, índices moleculares únicos, junto con códigos de barras. Ventajosamente, dicho uso de transposomas para mantener la proximidad física de los ácidos nucleicos fragmentados aumenta la probabilidad de que los ácidos nucleicos fragmentados de la misma molécula original, por ejemplo, cromosoma, reciban el misma código de barras único e información de índice de los oligonucleótidos inmovilizados sobre un soporte sólido. Esto dará como resultado una biblioteca de secuenciación unida de forma contigua con códigos de barras únicos. La biblioteca de secuenciación unida de forma contigua puede secuenciarse para obtener información de secuencia contigua.

Como se utiliza en el presente documento, la expresión “ información de contigüidad” se refiere a una relación espacial entre dos o más fragmentos de ADN basándose en información compartida. El aspecto compartido de la información puede ser con respecto a las relaciones espaciales adyacentes, compartimentales y de distancia. La información con respecto a estas relaciones facilita a su vez el ensamblaje jerárquico o el mapeo de las lecturas de secuencia derivadas de los fragmentos de ADN. Esta información de contigüidad mejora la eficiencia y la precisión de dicho ensamblaje o mapeo, ya que los métodos de ensamblaje o mapeo tradicionales utilizados junto con secuenciación de escopeta (shotgun) convencional, no tienen en cuenta los orígenes genómicos relativos o las coordenadas de las lecturas de secuencias individuales en lo que respecta a la relación espacial entre los dos o más fragmentos de ADN de los que se obtuvieron las lecturas de secuencias individuales.

Por lo tanto, según las realizaciones descritas en el presente documento, los métodos de captura de información de contigüidad pueden lograrse mediante métodos de contigüidad de corto alcance para determinar relaciones espaciales adyacentes, métodos de contigüidad de medio alcance para determinar las relaciones espaciales compartimentales o métodos de contigüidad de largo alcance para determinar las relaciones espaciales de distancia. Estos métodos facilitan la precisión y la calidad del ensamblaje o mapeo de secuencias de ADN, y pueden utilizarse con cualquier método de secuenciación, tal como los descritos en el presente documento.

La información de contigüidad incluye los orígenes genómicos relativos o las coordenadas de las lecturas de secuencias individuales en lo que respecta a la relación espacial entre los dos o más fragmentos de ADN de los que se obtuvieron las lecturas de secuencias individuales. En algunas realizaciones, la información de contigüidad incluye información de secuencia de lecturas de secuencia no superpuestas.

En algunas realizaciones, la información de contigüidad de una secuencia de ácido nucleico diana es indicativa de información de haplotipo. En algunas realizaciones, la información de contigüidad de una secuencia de ácido nucleico diana es indicativa de variantes genómicas.

La secuenciación indexada combinatoria de células individuales (SCI-seq, single cell combinatoria! indexed sequencing) es una técnica de secuenciación para generar simultáneamente miles de bibliotecas de células individuales de paso bajo para la detección de variantes de número de copias somáticas. Algunas realizaciones proporcionadas en el presente documento se refieren a métodos, composiciones y sistemas para el análisis simultáneo de múltiples analitos en una muestra utilizando una estrategia de indexación combinatoria, tal como por SCI-seq. Por ejemplo, como se muestra en la Figura 10, el ADN y el ARN pueden indexarse simultáneamente utilizando SCI-seq. Después de la introducción de etiquetas específicas para ADN y ARN, las células/núcleos se separan físicamente en múltiples grupos. Para cada grupo, el ADN se marca con un primer código de barras (Código de barrasI en la Figura 10), y el ARN se marca con un segundo código de barras (Código de barrasJ en la Figura 10). El marcaje de ADN y ARN puede tener lugar de manera simultánea o secuencial. A continuación, los grupos se agrupan y se dividen aleatoriamente en múltiples grupos, que pueden marcarse adicionalmente con un tercer código de barras (Código de barrasK en la Figura 10). El proceso de agrupamiento y división puede repetirse en múltiples rondas para aumentar la capacidad de indexación. La tasa de colisión de indexación (el mismo código de barras para diferentes celas/núcleos) puede controlarse mediante el número de códigos de barras por ronda y el número de células/núcleos por grupo. Los códigos de barras pueden introducirse a través de transcriptasa inversa, ligamiento, tagmentación u otros medios de introducción de códigos de barras. En algunas realizaciones, las técnicas de secuenciación combinatoria descritas en el presente documento no requieren separar ni aislar núcleos de las células.

La Figura 11 ilustra además detalles de secuenciación combinatoria, tal como por SCI-seq, con indexación por ligamiento y extensión. Un transposón con TAG1 se inserta en el ADN genómico por transposición. El oligonucleótido con el código de barrasI y TAG2 se liga al ADNg a través de hibridación TAG1. Se inicia una primera síntesis de ADNc mediante el oligonucleótido poliT con código de barrasJ y TAG2, seguido de una segunda síntesis de ADNc. Después de un proceso de agrupamiento y división, el oligonucleótido con el código de barrasK se hibrida tanto con ADNg como con ADNc en la región TAG2 y se liga a través de ligamiento de relleno de huecos. TAG3 puede servir como un anclaje para la siguiente indexación redonda después de la división y el agrupamiento. Después de la indexación combinatoria, mediante una segunda transposición, puede añadirse el adaptador de PCR/biblioteca en el otro extremo.

Como se utiliza en el presente documento, los términos “ aislado” , “ aislar” , “ aislamiento” , “ purificado” , “ purificar” , “ purificación” y equivalentes gramaticales de los mismos, como se utilizan en el presente documento, a menos que se especifique lo contrario, se refieren a la reducción de la cantidad de al menos un contaminante (tal como una proteína y/o una secuencia de ácido nucleico) de una muestra o de una fuente (p. ej., una célula) de la que se aísla el material. Por tanto, la purificación da como resultado un “ enriquecimiento” , por ejemplo, un aumento de la cantidad de una proteína y/o una secuencia de ácido nucleico deseables en la muestra.

Después de la lisis y el aislamiento de los ácidos nucleicos, se puede realizar amplificación, tal como la amplificación por desplazamiento múltiple (MDA, múltiple displacement amplification), que es una técnica muy utilizada para amplificar bajas cantidades de ADN, especialmente de células individuales. En algunas realizaciones, los ácidos nucleicos se amplifican, se secuencian o se utilizan para la preparación de bibliotecas de ácido nucleico. Como se utiliza en el presente documento, los términos “ amplificar” , “ amplificado” o “ amplificación” , como se utilizan en referencia a un ácido nucleico o a reacciones de ácido nucleico, se refieren a métodos in vitro para preparar copias de un ácido nucleico particular, tal como un ácido nucleico diana, por ejemplo, mediante una realización de la presente invención. En la técnica se conocen numerosos métodos de amplificación de ácidos nucleicos, y las reacciones de amplificación incluyen reacciones en cadena de la polimerasa, reacciones en cadena de la ligasa, reacciones de amplificación por desplazamiento de cadena, reacciones de amplificación por círculo rodante, ciclos de amplificación basados en emparejamiento y bucles múltiples (MALBAC, múltiple annealing and looping based amplification cycles), métodos de amplificación mediados por transcripción tales como NASBA (nucleic acid sequence based amplification, amplificación basada en secuencias de ácidos nucleicos), métodos de amplificación mediada por bucle (p. ej., amplificación “ LAMP” , loop-mediated isothermal amplification), utilizando secuencias formadoras de bucle. El ácido nucleico que se amplifica puede ser ADN que comprenda, consista en, o derive de ADN o ARN o de una mezcla de ADN y ARN, incluyendo ADN y/o ARN modificados. Los productos resultantes de la amplificación de una molécula o moléculas de ácido nucleico (por ejemplo, “ productos de amplificación” ), tanto si el ácido nucleico de partida es ADN, ARN o ambos, pueden ser ADN o ARN, o una mezcla de nucleósidos o nucleótidos tanto de ADN como de ARN, o pueden comprender nucleósidos o nucleótidos de ADN o ARN modificados. Una “ copia” no significa necesariamente una complementariedad o identidad de secuencia perfecta con la secuencia diana. Por ejemplo, las copias pueden incluir análogos de nucleótidos tales como desoxiinosina o desoxiuridina, alteraciones de secuencia deliberadas (tales como alteraciones de secuencia introducidas a través de un cebador que comprende una secuencia que es hibridable con, pero no complementaria a, la secuencia diana y/o errores de secuencia que se producen durante la amplificación.

Los ácidos nucleicos capturados pueden amplificarse según cualquier metodología de amplificación adecuada conocida en la técnica. Se apreciará que, para amplificar ácidos nucleicos, puede utilizarse cualquiera de las metodologías de amplificación descritas en el presente documento o generalmente conocidas en la técnica, con cebadores universales o específicos de diana Como métodos de amplificación adecuados se incluyen, pero sin limitación, la reacción en cadena de la polimerasa (PCR, polymerase chain reaction), la amplificación por desplazamiento de cadena (SDA, strand displacement amplification), la amplificación mediada por transcripción (TMA, transcription mediated amplification) y la amplificación basada en secuencias de ácidos nucleicos (NASBA, nucleic acid sequence based amplification,), como se describe en la patente estadounidense n.° 8.003.354. Los métodos de amplificación anteriores pueden emplearse para amplificar uno o más ácidos nucleicos de interés. Por ejemplo, para amplificar ácidos nucleicos, puede utilizarse PCR, incluyendo PCR múltiple, SDA, TMA, NASBA y métodos similares. En algunas realizaciones, en la reacción de amplificación se incluyen cebadores dirigidos específicamente al ácido nucleico de interés.

Otros métodos adecuados de amplificación de ácidos nucleicos pueden incluir tecnologías de extensión y ligamiento de oligonucleótidos, amplificación por círculo rodante (RCA, rolling circle amplification) (Lizardi y col., Nat. Genet. 19:225-232 (1998)] y ensayo de ligamiento de oligonucleótidos (OLA, oligonucleotide ligation assay) (Véanse, en líneas generales, las patentes estadounidenses n.° 7.582.420, 5.185.243, 5.679.524 y 5.573.907; y los documentos EP 0320308 B1; EP 0336 731 B1; EP 0 439 182 B1; WO 90/01069; WO 89/12696; y WO 89/09835. Se apreciará que estas metodologías de amplificación pueden diseñarse para amplificar ácidos nucleicos. Por ejemplo, en algunas realizaciones, el método de amplificación puede incluir amplificación de sonda de ligamiento o reacciones de ensayo de ligamiento de oligonucleótidos (OLA) que contienen cebadores dirigidos específicamente al ácido nucleico de interés. En algunas realizaciones, el método de amplificación puede incluir una reacción de extensión-ligamiento de cebador que contenga cebadores dirigidos específicamente al ácido nucleico de interés, y que son capaces de pasar a través de los poros de hidrogel. Como ejemplo no limitativo de cebador de extensión y cebadores de ligamiento que pueden diseñarse específicamente para amplificar un ácido nucleico de interés, la amplificación puede incluir cebadores utilizados para el ensayo GoldenGate (Illumina, Inc., San Diego, CA) como se ilustra en las patentes estadounidenses n.° 7.582.420 y 7.611.869.

En algunas realizaciones, los ácidos nucleicos se amplifican utilizando metodologías de amplificación en grupo como se ilustra en las divulgaciones de patente estadounidense n.° 7.985.565 y 7.115.400. Los materiales de las patentes estadounidenses n.° 7.985.565 y 7.115.400 describen métodos de amplificación de ácido nucleico, que permiten que los productos de amplificación se inmovilicen sobre un soporte sólido para formar matrices compuestas por grupos o “ colonias” de moléculas de ácido nucleico inmovilizadas. Cada grupo o colonia en dicha matriz se forma a partir de una pluralidad de cadenas de polinucleótidos idénticas inmovilizadas y una pluralidad de cadenas de polinucleótidos complementarias inmovilizadas idénticas. Las matrices así formadas se denominan generalmente en el presente documento “ matrices agrupadas” . Los productos de reacciones de amplificación en fase sólida, tales como los descritos en las patentes estadounidenses n.° 7.985.565 y 7.115.400 son los denominadas estructuras “ puente” formados por el emparejamiento de pares de cadenas de polinucleótidos inmovilizadas y cadenas complementarias inmovilizadas, inmovilizándose ambas cadenas sobre el soporte sólido en el extremo 5', preferiblemente mediante una unión covalente. Las metodologías de amplificación de grupos son ejemplos de métodos en donde para producir amplicones inmovilizados se utiliza un molde de ácido nucleico inmovilizado. También pueden utilizarse otras metodologías adecuadas para producir amplicones inmovilizados a partir de fragmentos de ADN inmovilizados producidos según los métodos proporcionados en el presente documento. Por ejemplo, pueden formarse uno o más grupos o colonias mediante PCR en fase sólida si uno o ambos cebadores de cada par de cebadores de amplificación se inmovilizan.

Otros métodos de amplificación incluyen amplificación isotérmica. Como ejemplos de métodos de amplificación isotérmica que pueden utilizarse se incluyen, pero sin limitación, amplificación por desplazamiento múltiple (MDA, multiple displacement amplification) como se ilustra, por ejemplo, en Dean y col., Proc. Natl. Acad. Sci. EE. UU.

99:5261-66 (2002) o amplificación isotérmica de ácido nucleico por desplazamiento de cadena ilustrada, por ejemplo, en la patente estadounidense n.° 6.214.587. Otros métodos no basados en PCR que pueden utilizarse en la presente divulgación incluyen, por ejemplo, amplificación por desplazamiento de cadena (SDA, strand displacement amplification) que se describe, por ejemplo, en Walker y col., Molecular Methods for Virus Detection, Academic Press, Inc., 1995; patentes estadounidenses n.° 5.455.166 y 5.130.238, y en Walker y col., Nucl. Acids Res. 20:1691-96 (1992) o amplificación por desplazamiento de cadena hiperramificada que se describe, por ejemplo, en Lage y col., Genome Research 13:294-307 (2003). Para la amplificación aleatoria de cebador de ADN genómico, pueden utilizarse métodos de amplificación isotérmica con la polimerasa Phi 29 de desplazamiento de cadena o el fragmento grande de ADN polimerasa de Bst, exo- 5'->3'. El uso de estas polimerasas aprovecha su alta procesividad y actividad de desplazamiento de cadenas. La alta procesividad permite que las polimerasas produzcan fragmentos que tienen una longitud de 10-20 kb. Como se ha expuesto anteriormente, pueden producirse fragmentos más pequeños en condiciones isotérmicas utilizando polimerasas que tienen baja procesividad y actividad de desplazamiento de cadena tal como la polimerasa Klenow. Una descripción adicional de reacciones, condiciones y componentes de amplificación, se expone en detalle en la divulgación de patente estadounidense n.° 7.670.810. En algunas realizaciones, los hexámeros aleatorios se emparejan con el ADN desnaturalizado seguido de la síntesis de desplazamiento de cadena a una temperatura constante en presencia de una enzima catalizadora, Phi 29. Esto da como resultado la amplificación de ADN como se confirma por un aumento en la intensidad de fluorescencia (ADN teñido con SYTOX) después de MDA. Independientemente, también puede realizarse tagmentación basada en NEXTERA® después de la lisis y limpieza y posterior amplificación de ADNg mediante PCR, como lo indica un aumento sustancial de la intensidad de fluorescencia después de la tagmentación NEXTERA® y la PCR.

Otro método de amplificación de ácidos nucleicos que es útil en la presente divulgación es la PCR marcada que utiliza una población de cebadores de dos dominios que tienen una región 5' constante seguida por una región 3' aleatoria como se describe, por ejemplo, en Grothues y col. Nucleic Acids Res. 21(5): 1321-2 (1993). Las primeras rondas de amplificación se llevan a cabo para permitir una multitud de iniciaciones en ADN desnaturalizado por calor basadas en hibridación individual de la región 3' sintetizada al azar. Debido a la naturaleza de la región 3', se contempla que los sitios de iniciación sean aleatorios en todo el genoma. Posteriormente, los cebadores no unidos pueden retirarse y puede producirse una replicación adicional utilizando cebadores complementarios a la región 5' constante.

En algunas realizaciones, los ácidos nucleicos se secuencian en total o en parte. Los ácidos nucleicos pueden secuenciarse según cualquier metodología de secuenciación adecuada, tal como secuenciación directa, incluyendo secuenciación por síntesis, secuenciación por ligamiento, secuenciación por hibridación, secuenciación de nanoporos y similares.

Una metodología de secuenciación es la secuenciación por síntesis (SBS, sequencing-by-synthesis). En la SBS, para determinar la secuencia de nucleótidos en el molde, se controla la extensión de un cebador de ácido nucleico a lo largo de un molde de ácido nucleico (p. ej., un ácido nucleico o amplicón del mismo). El proceso químico subyacente puede ser la polimerización (p. ej., catalizada por una enzima polimerasa). En una realización particular de SBS basada en polimerasa, se añaden nucleótidos marcados con fluorescencia a un cebador (extendiéndose de ese modo el cebador) de una manera dependiente del molde, de modo que, para determinar la secuencia del molde, puedan utilizarse la detección del orden y tipo de nucleótidos añadidos al cebador.

Uno o más ácidos nucleicos amplificados pueden someterse a una SBS o a otra técnica de detección que implique el suministro repetido de reactivos en ciclos. Por ejemplo, para iniciar un primer ciclo de SBS, uno o más nucleótidos marcados, una ADN polimerasa, etc., pueden fluir hacia/a través de una gotita que contenga una o más moléculas de ácido nucleico amplificado. Pueden detectarse aquellos sitios en los que la extensión del cebador provoque la incorporación de un nucleótido marcado. Opcionalmente, los nucleótidos pueden incluir además una propiedad de terminación reversible que finalice la extensión adicional del cebador una vez que se haya añadido un nucleótido a un cebador. Por ejemplo, a un cebador se le puede añadir un análogo de nucleótido que tenga una fracción de terminación reversible, de modo que no se pueda producir la extensión posterior hasta que se suministre un agente desbloqueante para eliminar la fracción. Por tanto, en realizaciones que utilicen terminación reversible, puede suministrarse un reactivo desbloqueante a la cubeta de lectura (antes o después de que se produzca la detección). Los lavados pueden llevarse a cabo entre las diversas etapas de suministro. Después, el ciclo puede repetirse n veces para extender el cebador en n nucleótidos, detectando de este modo una secuencia de longitud n. Se describen procedimientos de SBS, sistemas de fluidos y plataformas de detección ilustrativos que pueden adaptarse fácilmente para su uso con amplicones producidos mediante los métodos de la presente divulgación, por ejemplo, en Bentley y col., Nature 456:53-59 (2008), en el documento WO 04/018497; en la patente estadounidense n.° 7.057.026; en los documentos WO 91/06678; WO 07/123744 y en las patentes estadounidenses n.° 7.329.492, 7.211.414, 7.315.019, 7.405.281 y en el documento US 2008/0108082.

Pueden utilizarse otros procedimientos de secuenciación que utilizan reacciones cíclicas, como la pirosecuenciación. La pirosecuenciación detecta la liberación de pirofosfato inorgánico (PPi) a medida que se incorporan nucleótidos particulares en una cadena de ácido nucleico incipiente (Ronaghi, y col., Analytical Biochemistry 242(1), 84-9 (1996); Ronaghi, Genome Res. 11(1), 3-11 (2001); Ronaghi y col. Science 281(5375), 363 (1998); patentes estadounidenses n.° 6.210.891, 6.258.568 y 6.274.320). En la pirosecuenciación, el p Pí liberado se puede detectar convirtiéndolo inmediatamente en trifosfato de adenosina (ATP) por la ATP sulfurilasa, y el nivel de ATP generado se puede detectar mediante fotones producidos por luciferasa. Por lo tanto, la reacción de secuenciación se puede controlar a través de un sistema de detección de luminiscencia. Las fuentes de radiación de excitación utilizadas para los sistemas de detección a base de fluorescencia no son necesarias para los procedimientos de pirosecuenciación. Sistemas de fluidos, detectores y procedimientos útiles que pueden adaptarse para la aplicación de la pirosecuenciación a los amplicones producidos según la presente divulgación se describen, por ejemplo, en la solicitud de patente WIPO n.° de serie PCT/US11/57111, en el documento US 2005/0191698 A1 y en las patentes estadounidenses n.° 7.595.883 y 7.244.559.

Algunas realizaciones pueden utilizar métodos que suponen la monitorización en tiempo real de la actividad de la ADN polimerasa. Por ejemplo, las incorporaciones de nucleótidos pueden detectarse a través de interacciones de transferencia de energía por resonancia de fluorescencia (FRET, fluorescence resonance energy transfer) entre una polimerasa portadora de fluoróforo y nucleótidos marcados con Y-fosfato, o con guías de onda de modo cero (ZMW, zero mode waveguides). Se describen técnicas y reactivos de secuenciación basada en FRET, por ejemplo, en Levene y col. Science 299, 682-686 (2003); Lundquist y col. Opt. Lett. 33, 1026-1028 (2008); Korlach y col. Proc. Natl. Acad. Sci. EE. UU. 105, 1176-1181 (2008).

Algunas realizaciones de SBS (secuenciación por síntesis) incluyen la detección de un protón liberado tras la incorporación de un nucleótido en un producto de extensión. Por ejemplo, en la secuenciación basada en la detección de protones liberados, puede utilizarse un detector eléctrico y técnicas asociadas que están disponibles en el comercio. Son ejemplos de dichos sistemas de secuenciación, la pirosecuenciación (p. ej., la plataforma de 454 Life Sciences, una filial de Roche, disponible en el comercio), la secuenciación utilizando nucleótidos marcados con Y-fosfato (p. ej., la plataforma de Pacific Biosciences disponible en el comercio) y la secuenciación utilizando detección de protones (p. ej., la plataforma de Ion Torrent filial de Life Technologies, disponible en el comercio) o los métodos y sistemas de secuenciación descritos en los documentos US 2009/0026082 A1; US 2009/0127589 A1; US 2010/0137143 A1; o US 2010/0282617 A1. Los métodos expuestos en el presente documento para amplificar ácidos nucleicos diana utilizando exclusión cinética pueden aplicarse fácilmente a sustratos utilizados para detectar protones. Más específicamente, los métodos expuestos en el presente documento pueden utilizarse para producir poblaciones clonales de amplicones que se utilizan para detectar protones.

Otra técnica de secuenciación es la secuenciación de nanoporos (véase, por ejemplo, Deamer y col. Trends Biotechnol. 18, 147-151 (2000); Deamer y col. Acc. Chem. Res. 35:817-825 (2002); Li y col. Nat. Mater. 2:611-615 (2003)). En algunas realizaciones de secuenciación de nanoporos, el ácido nucleico diana o los nucleótidos individuales eliminados de un ácido nucleico diana pasan a través de un nanoporo. A medida que el ácido nucleico o el nucleótido pasa a través del nanoporo, cada tipo de nucleótido puede identificarse midiendo las fluctuaciones en la conductancia eléctrica del poro. (Patente estadounidense n.° 7.001.792; Soni y col. Clin. Chem. 53, 1996 2001 (2007); Healy, Nanomed. 2, 459-481 (2007); Cockroft y col. J. Am. Chem. Soc. 130, 818-820 [2008]).

Los métodos ilustrativos para el análisis de expresión y genotipado basados en matriz que pueden aplicarse a la detección según la presente divulgación se describen en las patentes estadounidenses n.° 7.582.420; 6.890.741; 6.913.884 o 6.355.431 o en las publicaciones de patente estadounidenses n.° 2005/0053980 A1; 2009/0186349 A1 o en el documento US 2005/0181440 A1.

En los métodos de aislamiento de ácidos nucleicos, amplificación y secuenciación, como se describe en el presente documento, se utilizan diversos reactivos para el aislamiento y la preparación de ácido nucleico. Dichos reactivos pueden incluir, por ejemplo, lisozima, proteinasa K, hexámeros aleatorios, polimerasa (por ejemplo, ADN polimerasa de 029, polimerasa de Taq, polimerasa de Bsu), transposasa (por ejemplo, Tn5), cebadores (por ejemplo, secuencias adaptadoras P5 y P7), ligasa, enzima catalizadora, desoxinucleótido trifosfatos, tampones o cationes divalentes.

Los adaptadores pueden incluir sitios de cebadores de secuenciación, sitios de cebadores de amplificación e índices. Como se utiliza en el presente documento, un “ índice” puede incluir una secuencia de nucleótidos que puede utilizarse como un identificador molecular y/o código de barras para etiquetar un ácido nucleico y/o para identificar la fuente de un ácido nucleico. En algunas modalidades, puede utilizarse un índice para identificar un ácido nucleico individual, o una subpoblación de ácidos nucleicos. En algunas realizaciones, puede utilizarse una célula individual para la indexación combinatoria, por ejemplo, utilizando una estrategia de transposición conservando la contigüidad (CPT-seq).

Los índices pueden ser útiles para identificar la fuente de una molécula de ácido nucleico. En algunas realizaciones, un adaptador puede modificarse para impedir la formación de concatámeros, por ejemplo mediante la adición de grupos de bloqueo que impidan la extensión del adaptador en uno o ambos extremos. Como ejemplos de grupos de bloqueo en 3' se incluyen un C3 espaciador en 3', un didesoxinucleótido y una unión a un sustrato. Como ejemplos de grupos de bloqueo en 5' se incluyen un nucleótido desfosforilado en 5' y la unión a un sustrato.

Un método de ejemplo incluye desfosforilar los extremos 5' de los ácidos nucleicos diana para impedir la formación de concatámeros en etapas de ligamiento posteriores; ligar los primeros adaptadores a los extremos 3' de las dianas desfosforiladas utilizando una ligasa, en la que se bloquean los extremos 3' de los primeros adaptadores volver a fosforilar los extremos 5' de las dianas ligadas; ligar un segundo adaptador a los extremos 5' de las dianas desfosforiladas utilizando la ligasa monocatenaria, en la que los extremos 5' de los segundos adaptadores no están fosforilados.

Otro ejemplo incluye la digestión parcial del ácido nucleico con una exonucleasa 5' para formar un ácido nucleico bicatenario con salientes 3' monocatenarios. Un adaptador que contiene un grupo bloqueante 3' puede ligarse a los extremos 3' del ácido nucleico bicatenario con salientes 3'. El ácido nucleico bicatenario con salientes 3' con adaptadores ligados puede deshibridarse para formar ácidos nucleicos monocatenarios. Un adaptador que contiene un extremo 5' no fosforilado puede ligarse al extremo 5' del ácido nucleico monocatenario.

Como un método para desfosforilar ácidos nucleicos, tales como el nucleótido 5' de un ácido nucleico, se incluye poner en contacto un ácido nucleico con una fosfatasa. Como ejemplos de fosfatasas se incluyen fosfatasa intestinal de ternera, fosfatasa alcalina de camarón, fosfatasa antártica y fosfatasa alcalina APEX (Epicentre).

Como un método para ligar ácidos nucleicos se incluye poner en contacto los ácidos nucleicos con una ligasa. Como ejemplos de ligasas se incluyen ARN ligasa 1 de T4, ARN ligasa 2 de T4, ligasa de RtcB, ARN ligasa de Methanobacterium y ARN ligasa de TS2126 (CIRCLIGASA).

Como un método para fosforilar ácidos nucleicos, tal como el nucleótido 5 'de un ácido nucleico, se incluye poner en contacto un ácido nucleico con una cinasa. Como ejemplo de cinasa se incluye la polinucleótido cinasa t 4.

Ejemplos

Ejemplo 1-Preparación simultánea de biblioteca de ADN y ARN a partir de células totales

El siguiente ejemplo demuestra una realización de analizar simultáneamente ADN y ARN en una muestra de células totales.

Se obtuvieron células y para aislar los núcleos celulares, se sometieron a lisis, como se muestra en la Figura 6A. El ADN del genoma completo (ADNg) se tagmentó utilizando transposomas con transposones de poliA. Los transposomas entran en los núcleos y tagmentan la cromatina abierta (el ADNg no está unido por histonas).

Después de la tagmentación, tanto el ADNg como el ARN contenían colas de poliA 3'. Tanto el ADNg como el ARN se capturaron utilizando sondas de captura de poliT, que hibridaron con las colas de poliA 3' de ADNg y ARN. Las sondas de captura contenían una primera secuencia común (CS1, Common Sequence 1) para la amplificación en dirección 3' y la indexación molecular de las muestras, células o para la desmultiplexación de moléculas. Para convertir el ARN en ADN, se utilizaron sondas de captura como cebadores para la síntesis de ADNc mediante transcriptasa inversa.

El ADNg y el ADNc generado se purificaron del núcleo utilizando purificación en columna (ZYMO), como se muestra en la Figura 6B. La preparación de una biblioteca mediante cromatina accesible utilizando secuenciación (ATAC) se completó con una reacción de extensión/ligamiento, y la preparación de la biblioteca de ARN se completó con una segunda síntesis de cadena de ADNc. Se utilizó una segunda ronda de tagmentación para incorporar una segunda secuencia común (CS2) e índices moleculares. Se realizó una limpieza de muestras para eliminar Tn5 y se generó la biblioteca de secuenciación final con PCR utilizando cebadores complementarios a CS1 y CS2.

También se utilizaron metodologías similares para analizar simultáneamente ADN y ARN en la perla. Como se muestra en las Figuras 7A y 7B, el análisis puede realizarse para mejorar la manipulación de muestras y/o para permitir bibliotecas de ARN de longitud completa. Como se muestra en el esquema de las Figuras 7A y 7B, se obtuvieron células, y para aislar los núcleos, estas se sometieron a lisis. El ADNg se tagmentó con dos transposomas que contenían transposones de poliA y una secuencia común (CS2). Los transposomas entran en los núcleos y tagmentan la cromatina abierta (el ADNg no está unido por histonas). Las sondas de captura con colas de poliT que contenían una secuencia común (CS1) se hibridaron con la cola de poliA de las bibliotecas de a Dn y ARN. Para completar la preparación de la biblioteca de ARN, se utilizaron sondas de hibridación para iniciar la síntesis de ADNc. La segunda secuencia común (CS2) se añadió a bibliotecas de ARN utilizando la actividad de cambio de molde de la transcriptasa inversa y un oligonucleótido de cambio de molde (TSO, template switching oligonucleotide), que permite la fabricación de ARN de longitud completa. Para mejorar la manipulación de la muestra, se utilizó una sonda de captura biotinilada para unir bibliotecas de ARN y ADN a perlas magnéticas de estreptavidina. Los lavados, intercambios de tampón y manipulación se realizaron fácilmente en moléculas unidas a perlas.

La Figura 8 representa los resultados de la ATAC (cromatina accesible por transposasa) y de las preparaciones de la biblioteca de ARN. El fragmento para la biblioteca de ATAC tiene una secuencia ME distintiva, una secuencia específica de transposón, en el recuadro de la Figura 8. Como se muestra en la Figura 9, los fragmentos ATAC muestran el enriquecimiento habitual alrededor de las regiones promotoras (panel A), y los fragmentos de ARN del recuento en 3' muestran la acumulación de lecturas alrededor del extremo del gen (panel B). Las Tablas 1 y 2 resumen los resultados de las métricas de ATAC-seq y ARN para el análisis simultáneo de ADN y ARN.

Tabla 1: Métricas ATAC-seq

Tabla 2: Métricas de ARN

Ejemplo 2 ATAC-seq de célula individual

El siguiente ejemplo demuestra una realización de cómo llevar a cabo ATAC-seq de célula individual en compartimentos.

La transposición en cromatina se realizó, como se describe en la Figura 5B. Después de la transposición, las células individuales o los núcleos individuales se dividieron en compartimentos, en este caso, en gotitas. La transposasa mantiene todos los fragmentos de ADN/biblioteca individuales juntos, lo que permite que todos los materiales de una célula individual se encapsulen dentro de una sola gotita. Todos los fragmentos de la célula en una sola gotita se indexaron mediante PCR utilizando cebadores de código de barras.

Para garantizar que las células individuales se dividían apropiadamente en gotitas individuales, células humanas y de ratón mezcladas se sometieron al proceso. La muestra incluyó 500.000 células humanas y 500.000 células de ratón. Cada ensayo incluyó 34.000 núcleos, que se agruparon para generar una microplaca de PCR en gotita, que contenía aproximadamente 300.000 gotitas. El ensayo incluyó 140.000 perlas (11 pl de 3.200 perlas por canal). Se realizaron cuatro ciclos de PCR en gotita seguido de diez ciclos en total. En la Figura 12 se describe un ejemplo del flujo de trabajo de secuenciación, que proporciona una secuencia que tiene códigos de barras insertados en ella. Se observó que al aumentar la transposasa Tn5 aumentaba el rendimiento, la sensibilidad y el porcentaje de los sitios de inicio de la transcripción (TSS, transcription start sites), como se muestra en la Figura 13.

Se leyeron los códigos de barras que identificaban las lecturas de secuencia como de ratón o de ser humano, y como se refleja en la Figura 14, los resultados indican que las lecturas se alinearon con las de ratón o ser humano, lo que indica que una célula individual estaba encapsulada dentro de una gotita individual, permitiendo así la división de células individuales, lo que permite el análisis de una célula individual. Como se esperaba, los resultados de lectura de ATAC se distribuyeron alrededor de los sitios de inicio de la transcripción.

El término “ comprende” tal como se utiliza en el presente documento, es sinónimo de “ incluye” , “ contiene” o “ caracterizado por” y es inclusivo o abierto y no excluye elementos o etapas de método adicionales no enumerados.

Claims

REIVINDICACIONES

i. Un método para preparar simultáneamente bibliotecas de ARN y ADN en un solo compartimento a partir de una muestra, que comprende:

proporcionar una muestra que comprende ADN y ARN, en donde el ARN comprende una cola de poliA 3';

tagmentar el ADN con una cola de poliA 3' utilizando transposomas con transposones de poliA; poner en contacto la muestra en un solo compartimento con una sonda de captura de poliT configurada para hibridar con la cola de poliA 3' del ARN y el ADN, en donde la sonda de captura comprende una primera secuencia común (CS1);

hibridar la sonda de captura con el ARN y el ADN, capturando así simultáneamente el ADN y el ARN;

convertir el ARN en ADNc; y

generar simultáneamente una biblioteca de ADNc y una biblioteca de ADNg.
2. El método de la reivindicación 1, en donde la sonda de captura se inmoviliza sobre un soporte sólido.
3. El método de la reivindicación 1, en donde la sonda de captura comprende además una secuencia de reconocimiento de sustrato.
4. El método de la reivindicación 1, en donde la muestra es una población de células, una célula individual, una población de núcleos celulares o un núcleo celular.
5. El método de la reivindicación 2, en donde el soporte sólido es un sustrato, una superficie grabada, un pocillo, un pocillo recubierto, un pocillo sellado, una matriz, un dispositivo de cubeta de lectura, un canal de microfluidos, una perla, una perla magnética, una columna, una gotita o una micropartícula.
6. El método de la reivindicación 1, que comprende además realizar análisis de ADN, análisis de ARN, análisis de proteínas, tagmentación, amplificación de ácido nucleico, secuenciación de ácido nucleico, ensayo de cromatina accesible por transposasa utilizando secuenciación (ATAC-seq), transposición conservando la contigüidad (CPT-seq), secuenciación indexada combinatoria de células individuales (SCI-seq) o amplificación del genoma de célula individual, o cualquier combinación de los mismos.
7. El método de la reivindicación 1, que comprende además analizar simultáneamente en el compartimento individual una proteína, en donde la proteína está marcada.
8. El método de la reivindicación 1, en donde la muestra comprende una célula, y en donde la célula se fija con un fijador.
9. El método de la reivindicación 8, en donde el fijador comprende un alcohol, que incluye opcionalmente metanol, etanol, un aldehído o un paraformaldehído.
10. El método de la reivindicación 1, en donde la CS1 se utiliza para la amplificación en dirección 3', la indexación molecular o la desmultiplexación molecular.
11. El método de la reivindicación 1, en donde la transcriptasa inversa convierte el ARN en ADNc.
12. El método de la reivindicación 1, que comprende además purificar el ADNc y el ADNg de un núcleo celular utilizando purificación en columna.
13. El método de la reivindicación 1, que comprende además tagmentar el ADNc y el ADN para incorporar una segunda secuencia común (CS2) configurada para generar ARN de longitud completa e incorporar índices moleculares.
14. El método de la reivindicación 13, en donde el ARN de longitud completa se genera utilizando la actividad de cambio de molde de la transcriptasa inversa y un oligonucleótido de cambio de molde (TSO).