ES2912183T3

ES2912183T3 - Análisis de ácidos nucleicos asociados a células individuales utilizando códigos de barras de ácidos nucleicos

Info

Publication number: ES2912183T3
Application number: ES14830928T
Authority: ES
Inventors: Yann Chong Tan; Gary Withey
Original assignee: Atreca Inc
Current assignee: Atreca Inc
Priority date: 2013-12-30
Filing date: 2014-12-30
Publication date: 2022-05-24
Anticipated expiration: 2034-12-30
Also published as: CN106460033B; US20250059576A1; JP6608368B2; CA2935122C; PT3089822T; US10316345B2; DK3089822T3; US20170369921A1; KR20160108377A; SG11201605344YA; EP4094834A1; US20220243240A1; US20220389471A1; US20150329891A1; CN114717291A; KR20220119751A; AU2014373757B2; PL3089822T3; EP3089822A1; CA2935122A1

Abstract

Un método para producir uno o más polinucleótidos de interés, comprendiendo el método: obtener una pluralidad de ARN asociados a una o más muestras, en donde las muestras se obtienen de uno o más sujetos, y los ARN asociados con una muestra están presentes en un volumen de reacción separado; generar una molécula adaptadora mediante una reacción enzimática en el volumen de reacción en el que están presentes los ARN a los que se añade la molécula adaptadora, y añadir la molécula adaptadora a los ARN asociados a la muestra, en donde la molécula adaptadora comprende una secuencia de cebado universal, una secuencia de código de barras y un sitio de unión; en donde la molécula adaptadora es una molécula de ARN generada al poner en contacto una molécula molde con una o más enzimas y la molécula molde es una molécula de ADNdh que comprende un promotor de ARN polimerasa (ARNP), y las una o más enzimas incluyen una ARN polimerasa, opcionalmente seleccionada del grupo que consiste en T7, T3 y SP6; y someter a transcripción inversa los ARN asociados con la muestra para obtener una pluralidad de ADNc, en donde que la transcripción inversa de un ARN comprende la síntesis de una primera hebra de ADNc utilizando una transcriptasa inversa y un cebador de la primera hebra, en donde la transcripción inversa de los ARN asociados con la muestra ocurre en el mismo volumen de reacción donde se genera la molécula adaptadora añadida a los ARN e incorpora la secuencia adaptadora a la primera hebra de ADNc, produciendo así los uno o más polinucleótidos de interés.

Description

DESCRIPCIÓN

Análisis de ácidos nucleicos asociados a células individuales utilizando códigos de barras de ácidos nucleicos

Antecedentes de la invención

Los genes variables tales como los genes de inmunoglobulina (Ig) y del receptor de células T (TCR) se forman a partir de la reorganización de los segmentos génicos V(D)J con adiciones de nucleótidos P/N entre las uniones. Una proteína Ig o TCR totalmente funcional se forma mediante la asociación de dos genes - genes de cadena pesada y ligera para Ig, genes alfa y beta para un apTCR y genes gamma y delta para ySTCR. Este enfoque combinatorio da como resultado una variedad extremadamente grande de diferentes secuencias posibles.

Este repertorio permite que el sistema inmunitario sea capaz de responder a nuevas agresiones inmunológicas que el organismo aún no ha encontrado. Los genes de inmunoglobulina también sufren una hipermutación somática que aumenta aún más el tamaño del repertorio.

En consecuencia, cualquier análisis de ácido nucleico de genes variables que permita la expresión de la proteína Ig o TCR nativa para investigar sus propiedades funcionales requiere no solo la secuenciación de células B individuales (para los genes de Ig) o T (para los genes de TCR), sino también el emparejamiento nativo de los dos genes que componen la proteína. Esto se puede realizar mediante la clonación de células individuales y la secuenciación de Sanger, pero es lento y laborioso (véase, p. ej., Wrammert et al., Nature, 2008, 453:667-671).

Se han desarrollado métodos de alto rendimiento para la secuenciación de alto rendimiento de genes emparejados de forma nativa y se dividen en dos enfoques. El primer enfoque consiste en anclar un identificador de código de barras de ácido nucleico único a los ácidos nucleicos de una célula, y el emparejamiento se logra mediante la vinculación bioinformática de genes si comparten el mismo código de barras y, por lo tanto, se originan en la misma célula (documento WO 2012/148497 - PCT/US2012/000221). El segundo enfoque consiste en vincular físicamente los ácidos nucleicos de los dos genes (véase, p. ej., la Patente de Estados Unidos Núm. 7.749.697).

El primer enfoque es superior ya que permite el emparejamiento de múltiples genes (tales como genes co-expresados de células B o T que identifican subconjuntos específicos de células T o células B), mientras que el segundo enfoque se limita a vincular físicamente algunos ácidos nucleicos. Hasta la fecha, solo existen datos experimentales para casos en los que no se han vinculado físicamente más de dos ácidos nucleicos.

La asociación de ácidos nucleicos sin ambigüedades a una sola célula (el primer enfoque) en lugar de asociarlos entre sí mediante vinculación (el segundo enfoque) tiene ventajas. Cuando los ácidos nucleicos se asocian entre sí, puede ser difícil distinguir los errores de PCR y secuenciación de la verdadera variación biológica. Deben hacerse suposiciones sobre la precisión de la plataforma de secuenciación y las lecturas asignadas arbitrariamente a diferentes secuencias en función de un límite de similitud porcentual, es decir, todas las lecturas con una similitud >95% se asignan a una secuencia y se supone que cualquier diferencia entre ellas se debe a errores de secuenciación. Esta es incapaz de distinguir entre secuencias que son muy similares entre sí (véase Zhu et al., Frontiers in Microbiology, 2012, 3:315).

Además, las suposiciones sobre cuántas células comparten una secuencia idéntica se realizan utilizando la frecuencia relativa de lecturas asignadas a la secuencia. Esta es una medida aproximada y se ve afectada por sesgos de amplificación por PCR, como es bien conocido en el campo. Por lo tanto, asociar ácidos nucleicos de Ig o TCR entre sí solo puede proporcionar una representación aproximada, pero no verdadera, del repertorio secuenciado (véase Zhu et al., Frontiers in Microbiology, 2012, 3:315).

Sin embargo, la asociación de ácidos nucleicos a células individuales mediante códigos de barras de ácidos nucleicos permite una diferenciación inequívoca entre secuencias similares o incluso idénticas de células B o T individuales, ya que cada lectura puede asignarse a una célula.

Además, al construir una secuencia consenso con todas las lecturas asociadas con una célula, se pueden obtener secuencias muy precisas y casi completamente libres de errores y se puede obtener una representación precisa del repertorio secuenciado. Esto también es generalizable al análisis de todos los ácidos nucleicos en una célula.

Aun así, persisten las dificultades técnicas para suministrar códigos de barras únicos a cada célula individual. La mejor tecnología actual para anclar códigos de barras de ácidos nucleicos a genes variables tiene códigos de barras únicos en solución acuosa y cada código de barras existe en un recipiente de almacenamiento separado incluso antes de la reacción para anclar códigos de barras a ácidos nucleicos de genes variables (documento WO 2012/148497 -PCT/US2012/000221), de lo contrario, los códigos de barras de ácido nucleico se mezclarán antes de su uso. Esto crea una dificultad logística en el registro con códigos con barras de muchos miles de células, debido a la gran cantidad de recipientes necesarios para contener los códigos de barras individuales.

El requisito de una gran cantidad de recipientes de almacenamiento también hace que este enfoque sea incompatible con cualquier tipo de enfoque en el que no se pueda pipetear individualmente un código de barras único en cada recipiente de reacción individual (que también contendrá una sola célula). Un ejemplo son los recipientes de reacción del tamaño de nanolitros, tal como un enfoque de nanopocillos, donde no es práctico pipetear un código de barras único individualmente en cada nanopocillo, ya que hay miles o cientos de miles de nanopocillos.

Esto tampoco es factible en un enfoque de nanogotitas, en el que las gotitas se fabrican utilizando una emulsión de agua en aceite, ya que se generan cientos de miles de nanogotitas con solo unas pocas corrientes acuosas (véase, p. ej., productos de Dolomite Microfluidics o Raindance Technologies), y no es posible tener códigos de barras únicos en recipientes de almacenamiento individuales antes de suministrarlos a la nanogotita.

Un método para suministrar códigos de barras únicos a recipientes de reacción individuales consiste en la utilización de dilución limitante para depositar un código de barras único en la mayoría de los recipientes de reacción. Se puede realizar una dilución limitante de códigos de barras anclados a objetos manipulables, tales como cuentas, cada una de las cuales tiene ancladas múltiples copias de un código de barras particular, o se puede realizar una dilución limitante de códigos de barras en solución. Al diluir tales cuentas, están presentes múltiples copias de un código de barras de ácido nucleico particular en un recipiente de reacción, mientras que, al diluir códigos de barras en solución, está presente solo una única copia de un código de barras de ácido nucleico particular en un recipiente de reacción.

Por otra parte, la adición de un código de barras de ácido nucleico a los ácidos nucleicos de interés derivados de muestras presentes en un recipiente de reacción será más completa si se amplifica el código de barras introducido, para garantizar que esté presente en una cantidad suficiente en la cámara de reacción. Por ejemplo, una célula de mamífero típica contiene aproximadamente 400.000 copias de ARNm. Para maximizar la eficiencia del análisis unicelular general, se debe codificar la mayor cantidad posible de estas copias de ARNm. Por lo tanto, como mínimo, en el recipiente de reacción debe estar presente aproximadamente el mismo número de copias de un código de barras de ácido nucleico particular que copias de ARNm. La dilución limitante de los códigos de barras en la solución conduce a una sola copia de un código de barras en particular en el recipiente de reacción, mientras que se espera que la dilución de pequeñas cuentas (p. ej., 1-2 gm de diámetro) con códigos de barras proporcione un máximo de decenas de miles de copias. Por lo tanto, la amplificación del código de barras en cualquier caso es importante para generar cantidades suficientes de un código de barras de ácido nucleico particular en un recipiente de reacción de modo que se produzca una adición satisfactoria del código de barras al mayor número de ácidos nucleicos derivados de la muestra. Sin embargo, se espera que las cuentas proporcionen significativamente más material de partida y, por lo tanto, una amplificación de código de barras significativamente mejor. Asimismo, una cuenta suficientemente grande puede contener cientos de miles de moléculas de código de barras de ácido nucleico. En este caso, la escisión de los códigos de barras de ácido nucleico de la cuenta puede ser suficiente para generar cantidades suficientes de un código de barras de ácido nucleico particular en un recipiente de reacción.

Además, si los ácidos nucleicos están anclados a una superficie sólida, no tendrán tanta libertad de movimiento en comparación con los ácidos nucleicos en solución. La cinética de la fase sólida es mucho más lenta que la cinética de la fase acuosa para el emparejamiento de bases complementarias de ácidos nucleicos y puede dar como resultado una adición mucho menos eficiente de códigos de barras a los ácidos nucleicos de interés. Preferiblemente, los códigos de barras de ácido nucleico deberían existir en la fase acuosa antes de participar en la reacción de registro con códigos de barras.

Esta invención actual mejora una invención anterior (documento WO 2012/148497 - PCT/US2012/000221) para anclar códigos de barras únicos a cada muestra, donde cada muestra suele ser una sola célula, pero se puede generalizar a cualquier tipo de muestra. La invención actual permite el suministro de códigos de barras únicos a cualquier tipo de recipiente de reacción, y también es adecuada para recipientes de reacción del tamaño de nanolitros y no requiere mantener códigos de barras de ácido nucleico únicos en recipientes de almacenamiento separados. Se puede modificar, pero no requiere, pipetear manualmente un código de barras único en cada recipiente de reacción. Se suministran una o más copias de un código de barras único o un conjunto de códigos de barras únicos a cada recipiente de reacción y el código de barras se anclada a los ácidos nucleicos de interés en una reacción que ocurre en la fase acuosa con una cinética de fase acuosa rápida. Como la reacción anclada códigos de barras a todos los ácidos nucleicos de interés en una célula, es decir, todo el ARN transcrito de forma inversa en una célula, la presente invención permite el análisis transcriptómico de células individuales y no se limita a asociar genes variables de inmunoglobulina a muestras específicas. Además, la reacción de amplificación puede ocurrir a una temperatura lo suficientemente baja como para que sea compatible con las enzimas mesófilas (que de otro modo se inactivan a altas temperaturas) para añadir códigos de barras a los ácidos nucleicos de interés.

Compendio de la invención

La invención se expone en el conjunto de reivindicaciones anclado. En el presente documento se divulgan métodos y composiciones para analizar ácidos nucleicos asociados con células individuales utilizando códigos de barras de ácidos nucleicos. Un método divulgado en el presente documento para producir uno o más polinucleótidos de interés comprende la obtención de una pluralidad de ácidos nucleicos asociados con una o más muestras, en donde las muestras se obtienen de uno o más sujetos, y los ácidos nucleicos asociados con una muestra están presentes en un volumen de reacción separado. Los ácidos nucleicos pueden ser moléculas de ARN o ADN (por ejemplo, moléculas de ADNc). Como se divulga en el presente documento, se añade una molécula adaptadora a los ácidos nucleicos asociados con la muestra. Como se divulga en el presente documento, la molécula adaptadora se genera utilizando una reacción enzimática y comprende una secuencia de cebado universal, una secuencia de código de barras y un sitio de unión. La secuencia de código de barras se incorpora a uno o más polinucleótidos asociados con la muestra, produciendo así los uno o más polinucleótidos de interés. El método comprende añadir una molécula adaptadora a los ácidos nucleicos asociados con la muestra, en donde la molécula adaptadora se genera mediante una reacción enzimática y comprende una secuencia de cebado universal, una secuencia de código de barras y un sitio de unión; e incorporar la secuencia de código de barras a uno o más polinucleótidos asociados con la muestra, produciendo así los uno o más polinucleótidos de interés.

En el presente documento se divulga un método para producir uno o más polinucleótidos de interés. El método divulgado en el presente documento comprende obtener una pluralidad de ARN asociados con una o más muestras, en donde las muestras se obtienen de uno o más sujetos, y los ARN asociados con la muestra están presentes en un volumen de reacción separado; añadir una molécula adaptadora a los ARN asociados con la muestra, en donde la molécula adaptadora se genera utilizando una reacción enzimática y comprende una secuencia de cebado universal, una secuencia de código de barras y un sitio de unión; e incorporar la secuencia de código de barras a uno o más polinucleótidos asociados con la muestra, produciendo así los uno o más polinucleótidos de interés. En algunas realizaciones, cada ARN, o al menos uno de la pluralidad de ARN, está asociado con una muestra única de una o más muestras. Algunas realizaciones del método comprenden adicionalmente generar la molécula adaptadora utilizando la reacción enzimática.

La molécula adaptadora se genera poniendo en contacto una molécula molde con una o más enzimas. La molécula molde es una molécula de ADN que comprende un promotor de ARN polimerasa (ARNP), y las una o más enzimas incluyen una ARN polimerasa. El promotor de ARNP se puede seleccionar del grupo que consiste en T7, T3 y SP6. En algunas realizaciones, la molécula molde es una molécula de ADN que comprende un sitio de restricción de endonucleasa de mellado, y las una o más enzimas incluyen una endonucleasa de mellado y una ADN polimerasa de desplazamiento de hebra. El sitio de restricción de la endonucleasa de mellado se puede seleccionar del grupo que consiste en Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI. La ADN polimerasa de desplazamiento de hebra se puede seleccionar del grupo que consiste en Klenow exo-, Fragmento Grande de Bst y variantes modificadas genéticamente del Fragmento Grande de Bst. La molécula de ADN puede ser una molécula de doble hebra o una molécula de hebra sencilla que es útil como molde para generar una molécula de doble hebra.

En algunas realizaciones, la molécula molde se une a un soporte sólido, el soporte sólido se pone en contacto con una solución acuosa y la molécula adaptadora se libera a la solución acuosa a medida que se genera. En algunas realizaciones, la solución acuosa está presente en el mismo volumen de reacción que los ARN asociados con una muestra. En algunas realizaciones, la molécula molde comprende un sitio de restricción de endonucleasa, las una o más enzimas comprenden una endonucleasa de restricción, y la molécula adaptadora comprende una porción de la molécula molde, generándose y liberándose dicha porción en la solución acuosa al entrar en contacto la molécula molde con la endonucleasa de restricción. En algunas realizaciones, el soporte sólido es una cuenta o una superficie (p. ej., la superficie de un pocillo o tubo de microtitulación).

En algunas realizaciones del método, la molécula adaptadora está libre en solución antes de añadir la molécula adaptadora a los ARN asociados con una muestra. La molécula adaptadora se genera en el volumen de reacción en el que están presentes los ARN a los que se añade la molécula adaptadora. En algunas realizaciones, la reacción enzimática es una reacción isotérmica. En algunas realizaciones, la molécula adaptadora comprende adicionalmente una secuencia de identificador molecular único (UMI). En algunas realizaciones, la molécula adaptadora es una molécula de ARN. La molécula adaptadora se puede generar utilizando ARNP.

En algunos aspectos divulgados en el presente documento, la molécula adaptadora es una molécula de ADN. La molécula adaptadora se puede generar utilizando ADNP.

En algunas realizaciones, la producción de los uno o más polinucleótidos de interés comprende la transcripción inversa de los ARN asociados con la muestra, sintetizando así una pluralidad de ADNc de primera hebra, al menos algunos de los ARN asociados con la muestra comprenden una región de secuencia complementaria al sitio de unión de la molécula adaptadora, y la molécula adaptadora se utiliza como cebador para la transcripción inversa, de modo que la secuencia de código de barras se incorpora a los ADNc de primera hebra asociados con la muestra. En estas realizaciones, el sitio de unión puede comprender un tramo de poli-T o un tramo aleatorio. El sitio de unión puede aparecer en el extremo 3' de la molécula adaptadora. La transcripción inversa de los ARN asociados con la muestra se produce en el mismo volumen de reacción en el que se genera la molécula adaptadora añadida a los ARN.

Algunas realizaciones del método comprenden adicionalmente la transcripción inversa de los ARN asociados con la muestra para obtener una pluralidad de ADNc, en donde la transcripción inversa de un ARN comprende sintetizar una primera hebra de ADNc utilizando una transcriptasa inversa y un cebador de primera hebra. En estas realizaciones, la transcriptasa inversa puede ser transcriptasa inversa de MMLV H-. Las primeras hebras de ADNc se pueden sintetizar antes o después de combinar el compartimento con el volumen de reacción.

La transcripción inversa de los ARN asociados con la muestra se produce en el mismo volumen de reacción en el que se genera la molécula adaptadora añadida a los ARN. En estas realizaciones, un tampón en el volumen de reacción puede comprender al menos uno de Tris, iones de potasio, iones de cloruro, iones de sulfato, iones de amonio, iones de ácido acético o iones de magnesio en un rango de pH de 8,0 a pH 8,8.

En algunas realizaciones, la transcriptasa inversa tiene actividad de cambio de molde, al menos algunas primeras hebras de ADNc asociadas con la muestra comprenden un saliente 3', el sitio de unión de la molécula adaptadora comprende una porción 3' complementaria al saliente 3', y la molécula adaptadora sirve como molde para la transcriptasa inversa, de modo que la secuencia de código de barras se incorpora a las primeras hebras de ADNc asociadas con la muestra. En estas realizaciones, el saliente 3' puede comprender uno o más nucleótidos de C y la porción 3' del sitio de unión puede comprender uno o más nucleótidos de G. El cebador de la primera hebra puede comprender un tramo de poli-T o una secuencia aleatoria.

En algunas realizaciones, la producción de polinucleótidos de interés comprende amplificar las primeras hebras de ADNc para cada muestra utilizando un primer cebador (p. ej., directo) y un segundo cebador (p. ej., inverso), teniendo el segundo cebador la misma secuencia que al menos una porción del cebador de la primera hebra, en donde el primer cebador o el segundo cebador son la molécula adaptadora. En estas realizaciones, el primer cebador o el segundo cebador pueden ser la molécula adaptadora. El cebador de la primera hebra puede comprender un tramo de poli-T o una secuencia aleatoria.

En algunas realizaciones del método, cada muestra comprende una célula. La célula puede ser una célula sanguínea, una célula inmunitaria, una célula tisular o una célula tumoral. En algunas realizaciones, la célula es una célula B o una célula T. La célula B puede ser un plasmablasto, una célula B de memoria o una célula plasmática. En algunas realizaciones, los ARN asociados con cada muestra comprenden ARNm, por ejemplo, al menos 1,3, 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000 de ARNm. En algunas realizaciones, los ARN asociados con cada muestra comprenden el transcriptoma de una célula o el ARN total de una célula. En algunas realizaciones, se producen por muestra al menos 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000 de polinucleótidos de interés. En algunas realizaciones, una o más muestras comprenden al menos 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000 de células. En algunas realizaciones, las una o más muestras se obtienen del mismo sujeto. Algunas realizaciones comprenden adicionalmente poner en contacto las muestras con un tampón de lisis.

Algunas realizaciones comprenden adicionalmente poner en contacto las muestras con un marcador de ácido nucleico, permitiendo así que el marcador de ácido nucleico se una a un subconjunto de las muestras; y lavar las muestras, eliminando así el marcador de ácido nucleico de las muestras a las que no se une el marcador de ácido nucleico, en donde, para las muestras dentro del subconjunto, la molécula adaptadora añadida a los ARN asociados con la muestra también se añade al marcador de ácido nucleico, y se producen uno o más polinucleótidos de interés utilizando el marcador de ácido nucleico marcado. En estas realizaciones, el marcador de ácido nucleico puede comprender un ácido nucleico acoplado a una marca molecular. La marca molecular puede ser un anticuerpo, un antígeno o una proteína. La marca molecular puede tener afinidad por uno o más radicales de la superficie celular. En algunas realizaciones, el ácido nucleico es un ARN. En algunas realizaciones, el ácido nucleico es un ADN y puede comprender un promotor de ARNP. En algunas realizaciones, la muestra se pone en contacto con un primer marcador de ácido nucleico y un segundo marcador de ácido nucleico, en donde el primer marcador de ácido nucleico comprende un primer ácido nucleico acoplado a una primera marca molecular, y el segundo marcador de ácido nucleico comprende un segundo ácido nucleico acoplado a una segunda marca molecular. El primer ácido nucleico y el segundo ácido nucleico pueden comprender diferentes regiones de secuencia. En algunas realizaciones, la primera y segunda marcas moleculares son diferentes (p. ej., dos anticuerpos diferentes para antígenos de superficie celular diferentes). Por lo tanto, el método permite el marcaje multiplex de muestras, tales como células individuales, con marcadores de ácido nucleico que comprenden moléculas adaptadoras, y la producción de uno o más polinucleótidos de interés que están asociados con la muestra.

En algunas realizaciones del método, las una o más muestras se obtienen del mismo sujeto. En algunas realizaciones, las una o más muestras se obtienen de al menos 3, 10, 30 o 100 sujetos diferentes.

También se divulgan en el presente documento construcciones de adaptadores de códigos de barras. Algunas de tales construcciones de adaptadores de códigos de barras comprenden un promotor de ARNP, una secuencia de cebado universal, una secuencia de código de barras y un sitio de unión. El promotor de ARNP se puede seleccionar del grupo que consiste en T7, T3 y SP6. Otras construcciones de adaptadores de códigos de barras comprenden un sitio de restricción de endonucleasa de mellado, una secuencia de cebado universal, una secuencia de código de barras y un sitio de unión. El sitio de restricción de la endonucleasa de mellado se puede seleccionar del grupo que consiste en Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI.

Adicionalmente se divulga en el presente documento un soporte sólido que comprende una construcción adaptadora de código de barras como se describe anteriormente. En algunas realizaciones, la construcción adaptadora de código de barras se une al soporte sólido a través de un enlace covalente. En algunas realizaciones, múltiples copias de la construcción adaptadora de código de barras se unen al soporte sólido. Por ejemplo, se pueden unir al menos 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000 copias de la construcción adaptadora de código de barras al soporte sólido. En algunas realizaciones, cada copia de la construcción adaptadora de código de barras comprende la misma secuencia de código de barras. También se divulga en el presente documento una biblioteca de moldes de adaptadores que comprende una pluralidad de soportes sólidos acoplados a múltiples copias de la construcción adaptadora. En algunas realizaciones, la pluralidad de soportes sólidos comprende al menos 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000 de soportes sólidos. En algunas realizaciones, al menos dos de los soportes sólidos comprenden construcciones de adaptadores con diferentes secuencias de código de barras o secuencias UMI. En algunas realizaciones, cada soporte sólido de la pluralidad de soportes sólidos comprende una construcción adaptadora con una secuencia de código de barras diferente o una secuencia UMI diferente.

También se divulga en el presente documento un marcador de ácido nucleico que comprende un ácido nucleico acoplado a una marca molecular. En algunos aspectos divulgados en el presente documento, el marcador molecular es un anticuerpo, antígeno o proteína. En algunos aspectos divulgados en el presente documento, la marca molecular tiene afinidad por uno o más radicales de la superficie celular. En algunos aspectos divulgados en el presente documento, el ácido nucleico es un ARN. En algunos aspectos divulgados en el presente documento, el ácido nucleico es un ADN. El ADN puede comprender una secuencia del promotor de ARNP. En algunos aspectos divulgados en el presente documento, se describe una pluralidad de marcadores de ácido nucleico, donde al menos uno de la pluralidad comprende una primera marca molecular (es decir, un primer anticuerpo) y al menos uno de la pluralidad comprende una segunda marca molecular (es decir, un segundo anticuerpo). En algunos aspectos divulgados en el presente documento, la primera y segunda marcas moleculares son diferentes, proporcionando así composiciones útiles para el marcaje multiplex de diferentes radicales de la superficie celular (p. ej., diferentes antígenos de la superficie celular) con los marcadores de ácido nucleico descritos en el presente documento.

En el presente documento se divulgan adicionalmente kits que comprenden construcciones adaptadoras descritas en el presente documento. El kit puede comprender una pluralidad de soportes sólidos acoplados a construcciones adaptadoras descritas en el presente documento. En algunos aspectos divulgados en el presente documento, el kit comprende una biblioteca de moldes de adaptadores que comprende una pluralidad de construcciones de adaptadores. En algunos aspectos divulgados en el presente documento, el kit comprende una biblioteca de moldes de adaptadores que comprende una pluralidad de construcciones de adaptadores acoplados a una pluralidad de soportes sólidos. El kit puede comprender adicionalmente enzimas para generar una molécula adaptadora descrita en el presente documento a partir de la construcción adaptadora mediante una reacción enzimática. En algunos aspectos divulgados en el presente documento, el kit comprende un tampón de suspensión celular descrito en el presente documento.

En el presente documento se divulga adicionalmente un tampón de suspensión celular que comprende un osmoprotector. En algunos aspectos divulgados en el presente documento, el osmoprotector es una betaína o un análogo estructural cercano de la misma. Por ejemplo, el osmoprotector puede ser una glicina betaína. En algunos aspectos divulgados en el presente documento, el osmoprotector es un azúcar o un poliol. Por ejemplo, el osmoprotector puede ser trehalosa. En algunos aspectos divulgados en el presente documento, el osmoprotector es un aminoácido. Por ejemplo, el osmoprotector puede ser prolina. En algunos aspectos del tampón de suspensión celular divulgado en el presente documento, la osmolaridad del tampón es de aproximadamente 250-350 mOsm/L. En algunos aspectos divulgados en el presente documento, el osmoprotector contribuye hasta 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% o 100% de la osmolaridad del tampón. En algunos aspectos divulgados en el presente documento, el tampón comprende betaína aproximadamente 230-330 mM y NaCl aproximadamente 10 mM.

También se divulga en el presente documento un método para anclar un polinucleótido a un soporte sólido, en donde el polinucleótido contiene una secuencia de código de barras. El método descrito en el presente documento comprende las etapas de: a) generar un compartimento hidrófilo de una emulsión inversa, conteniendo el compartimento hidrófilo: un soporte sólido, un oligonucleótido de código de barras que comprende una secuencia de código de barras y un oligonucleótido unido a una superficie del soporte sólido a través de un radical de captura, en donde el oligonucleótido unido comprende una secuencia 3' complementaria a una secuencia 3' del oligonucleótido de código de barras; y b) realizar una reacción de extensión de polimerasa para incorporar la secuencia de código de barras al oligonucleótido unido sobre el soporte sólido. En algunos aspectos divulgados en el presente documento, el oligonucleótido de código de barras comprende adicionalmente una secuencia 5' idéntica o complementaria a una secuencia de cebador inverso de PCR. Estos aspectos divulgados en el presente documento pueden comprender adicionalmente la realización de una reacción de PCR utilizando un cebador inverso marcado con fluoróforo. En algunas realizaciones, el soporte sólido es una cuenta. En algunos aspectos divulgados en el presente documento, el radical de captura es estreptavidina. En algunos aspectos divulgados en el presente documento, el radical de captura comprende un grupo carboxilo, un grupo epoxi o un grupo hidroxilo. En algunas realizaciones, el radical de captura comprende oro para capturar oligonucleótidos tiolados.

En algunas realizaciones, el oligonucleótido de código de barras comprende adicionalmente una secuencia de cebado universal y un sitio de unión. El oligonucleótido de código de barras puede comprender adicionalmente un promotor de ARNP seleccionado del grupo que consiste en T7, T3 y SP6. Como alternativa o, además, el oligonucleótido de código de barras puede comprender adicionalmente un sitio de restricción de endonucleasa de mellado seleccionado del grupo que consiste en Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI. El sitio de unión puede ser uno o más nucleótidos de G.

También se describe otro método para anclar un polinucleótido a un soporte sólido, en donde el polinucleótido contiene una secuencia de código de barras. El método comprende las etapas de: a) proporcionar: un soporte sólido, un primer oligonucleótido de código de barras que comprende una secuencia W y un oligonucleótido unido a una superficie del soporte sólido a través de un radical de captura, en donde el oligonucleótido unido comprende (i) una secuencia S1x y (ii) una secuencia complementaria a una secuencia 3' del primer oligonucleótido de código de barras; b) realizar una reacción de extensión de polimerasa o una reacción de ligación para incorporar la secuencia W al oligonucleótido unido; c) proporcionar un segundo oligonucleótido de código de barras que comprende una (i) secuencia S2y y (ii) una secuencia 3' complementaria al extremo 3' del oligonucleótido unido resultante de la etapa b); y d) realizar una reacción de extensión de polimerasa o una reacción de ligación para incorporar la secuencia S2y al oligonucleótido unido, anclando así un polinucleótido al soporte sólido, en donde el polinucleótido contiene una secuencia de código de barras, y la secuencia de código de barras comprende las secuencias S1x, W y S2y.

En aspectos de este método descrito en el presente documento, el soporte sólido es una cuenta. En algunos aspectos divulgados en el presente documento, el radical de captura es estreptavidina. En algunos aspectos divulgados en el presente documento, el radical de captura comprende un grupo carboxilo, un grupo epoxi o un grupo hidroxilo. En algunos aspectos divulgados en el presente documento, el radical de captura comprende oro para capturar oligonucleótidos tiolados. En algunos aspectos divulgados en el presente documento, un oligonucleótido de código de barras elegido, siendo el oligonucleótido de código de barras elegido el primer oligonucleótido de código de barras o el segundo oligonucleótido de código de barras, comprende adicionalmente una secuencia de cebado universal y un sitio de unión. El oligonucleótido de código de barras elegido puede comprender adicionalmente un promotor de ARNP seleccionado del grupo que consiste en T7, T3 y SP6. Alternativamente o, además, el oligonucleótido de código de barras elegido puede comprender adicionalmente un sitio de restricción de endonucleasa de mellado seleccionado del grupo que consiste en Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI. El sitio de unión puede ser uno o más nucleótidos G.

En el presente documento se divulga adicionalmente un soporte sólido preparado mediante cualquier realización de los métodos anteriores, en donde el soporte sólido se anclada a un polinucleótido y el polinucleótido contiene una secuencia de código de barras. También se divulga una biblioteca de códigos de barras que comprende una pluralidad de estos soportes sólidos.

Además, en el presente documento se divulga un dispositivo de gotitas de microfluido para encapsular células, moldes adaptadores de código de barras y reactivos para producir polinucleótidos de interés. El dispositivo comprende (a) tres fuentes de presión controladas de forma independiente, (b) tres vías de microfluido, (c) tres sensores de flujo, (d) dos bucles de muestra, (e) un chip de gotitas de microfluido y (f) un recipiente de recolección de muestras en donde: cada fuente de presión está acoplada a, y conduce el fluido a través de, una de las vías de microfluido, uno de los sensores de flujo está dispuesto a lo largo de cada vía de microfluido aguas abajo de la fuente de presión respectiva, una primera vía de microfluido pasa a través de un primer bucle de muestra, una segunda vía de microfluido pasa a través de un segundo bucle de muestra, estando el primer y segundo bucles de muestra en contacto con una unidad de refrigeración térmica, la primera y la segunda vías de microfluido se fusionan en una primera unión para formar una vía combinada, la vía combinada y la tercera vía de microfluido se fusionan en una segunda unión para formar una vía de muestra, produciéndose la segunda unión dentro del chip de gotitas de microfluido y aguas abajo de la primera unión, y la vía de la muestra pasa al recipiente de recolección aguas abajo de la segunda unión, de modo que (a)-(f) estén conectados de forma fluida.

En algunos aspectos del dispositivo divulgado en el presente documento, cada fuente de presión comprende una bomba de presión. En algunos aspectos divulgados en el presente documento, cada fuente de presión comprende una bomba de jeringa. En algunos aspectos divulgados en el presente documento, el primer bucle de muestra está configurado para medir el flujo de una solución acuosa hacia el chip de gotitas de microfluido, en donde la solución acuosa comprende células y moldes de adaptadores de códigos de barras. En algunos aspectos divulgados en el presente documento, el segundo bucle de muestra está configurado para medir el flujo de una mezcla de reacción hacia el chip de gotitas de microfluido, en donde la mezcla de reacción comprende reactivos para la lisis celular y reactivos para producir polinucleótidos de interés. En algunos aspectos divulgados en el presente documento, la tercera vía de microfluido está configurada para suministrar una mezcla de aceite/tensioactivo al chip de gotitas de microfluido. En algunos aspectos divulgados en el presente documento, la unidad de refrigeración térmica comprende un dispositivo Peltier. En algunos aspectos divulgados en el presente documento, la unidad de refrigeración térmica comprende un depósito Peltier. En algunos aspectos divulgados en el presente documento, la unión de refrigeración térmica comprende una cubeta de hielo. En algunos aspectos divulgados en el presente documento, la primera unión se produce dentro del chip de gotitas. En algunos aspectos divulgados en el presente documento, la tercera vía de microfluido se divide en dos subvías aguas arriba del chip de gotitas de microfluido, las dos subvías se fusionan con la vía combinada en la segunda unión, y la segunda unión tiene una geometría de enfoque de flujo. En algunos aspectos divulgados en el presente documento, la segunda unión tiene una geometría de unión en T. En algunos aspectos divulgados en el presente documento, la primera vía de microfluido está configurada para acomodar células, y la segunda vía de microfluido está configurada para acomodar moldes de adaptadores de códigos de barras unidos a soportes sólidos.

En el presente documento se divulga un método para producir uno o más polinucleótidos de interés, que comprende obtener una biblioteca de ADNc que comprende una pluralidad de ADNc asociados con una o más muestras obtenidas de uno o más sujetos, en donde cada ADNc está asociado con una muestra única en las una o más muestras, y en donde los ADNc asociados con cada muestra están presentes en un recipiente o compartimento separados. En algunos aspectos divulgados en el presente documento, se añade una molécula adaptadora a los ADNc asociados con cada muestra para producir los uno o más polinucleótidos de interés. En algunos aspectos divulgados en el presente documento, la molécula adaptadora se genera a partir de una construcción adaptadora que comprende una secuencia de cebado universal, un código de barras y un sitio de unión a ADNc.

En algunos aspectos, las moléculas adaptadoras se generan mediante una reacción isotérmica. En algunos aspectos, la construcción adaptadora comprende adicionalmente un promotor de ARN polimerasa (ARNP). En algunos aspectos, el promotor de ARNP se selecciona del grupo que consiste en T7, T3 y SP6. En algunos aspectos, la construcción adaptadora comprende adicionalmente un sitio de restricción de endonucleasa de mellado. En algunos aspectos, el sitio de restricción de la endonucleasa de mellado se selecciona del grupo que consiste en Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI. En algunos aspectos, el adaptador es un adaptador de ARN generado por ARNP. En algunos aspectos, el adaptador es un adaptador de ADN generado por una endonucleasa de mellado y una ADN polimerasa de desplazamiento de hebra. En algunos aspectos, la ADN polimerasa de desplazamiento de hebra se selecciona del grupo que consiste en Klenow exo- y el Fragmento Grande de Bst y sus variantes modificadas genéticamente, tales como Bst 2.0.

En algunos aspectos, el método comprende adicionalmente permitir que el extremo 3' de la molécula adaptadora se ancle al extremo 3' de cada ADNc en la biblioteca para producir los uno o más polinucleótidos de interés.

En algunos aspectos, el adaptador se añade reasociando el adaptador a la cola 3' de un ADNc generado durante una reacción de transcripción inversa. En algunos aspectos, cada ADNc comprende al menos un nucleótido de C, en donde C se ubica en el extremo 3' de cada ADNc, en donde la región de adaptador comprende al menos un nucleótido de G, en donde G se ubica en el extremo 3' de la región de adaptador, y en donde la región de adaptador se anclada a cada ADNc mediante la unión entre G y C. En algunos aspectos, la molécula adaptadora es de hebra sencilla y comprende adicionalmente la incorporación del complementario de la molécula adaptadora a cada ADNc al permitir que una enzima produzca la molécula adaptadora de doble hebra. En algunos aspectos, el complementario de la molécula adaptadora se incorpora a cada ADNc para producir el polinucleótido de interés mediante una transcriptasa inversa de m MlV H-.

En algunos aspectos, cada muestra comprende una célula. En algunos aspectos, la célula es una célula sanguínea, una célula inmunitaria, una célula tisular o una célula tumoral. En algunas realizaciones, la célula es una célula B o una célula T. En algunos aspectos, la célula B es un plasmablasto, una célula B de memoria o una célula plasmática.

También se divulga en el presente documento un método para anclar un código de barras a un soporte sólido que comprende las etapas de: a) generar un compartimento hidrófilo de una emulsión inversa, comprendiendo el compartimento hidrófilo: un soporte sólido contenido en el mismo, en donde el soporte sólido comprende un oligonucleótido unido a la superficie a través de un radical de captura, en donde el oligonucleótido comprende una secuencia 3' complementaria a una secuencia 3' en un oligonucleótido de código de barras; un oligonucleótido de código de barras que comprende una secuencia 3' complementaria al extremo 3' del oligonucleótido unido y una secuencia de código de barras; y b) realizar una reacción de extensión de polimerasa para añadir la secuencia de código de barras al oligonucleótido unido sobre el soporte sólido.

En algunos aspectos, el oligonucleótido de código de barras comprende adicionalmente una secuencia 5' idéntica o complementaria a un cebador de PCR inverso. En algunos aspectos, el método comprende adicionalmente realizar una reacción de PCR utilizando un cebador inverso marcado con fluoróforo.

En algunos aspectos, el soporte sólido es una cuenta o una superficie. En algunos aspectos, el radical de captura es estreptavidina. En algunos aspectos, el oligonucleótido de código de barras comprende adicionalmente un promotor de ARN polimerasa (ARNP) y/o un sitio de restricción de endonucleasa, una secuencia de cebado universal, un sitio de unión a ADNc. En algunos aspectos, el promotor de ARNP se selecciona del grupo que consiste en T7, T3 y SP6. En algunos aspectos, el sitio de restricción de la endonucleasa de mellado se selecciona del grupo que consiste en Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI. En algunos aspectos, el sitio de unión a ADNc es uno o más nucleótidos de G.

También se divulga en el presente documento un método para anclar un código de barras a un soporte sólido que comprende las etapas de a) proporcionar un soporte sólido, con un oligonucleótido unido sobre el soporte sólido a través de un radical de captura, en donde el oligonucleótido comprende una secuencia S1x y una secuencia complementaria a una secuencia 3' en un primer oligonucleótido de código de barras; un primer oligonucleótido de código de barras que comprende una secuencia 3' complementaria a una secuencia del oligonucleótido unido y una secuencia W; y b) realizar una reacción de extensión de polimerasa o una reacción de ligación para añadir la secuencia W a la secuencia S1x del oligonucleótido unido sobre el soporte sólido; c) proporcionar un segundo oligonucleótido de código de barras con una secuencia S2y que comprende una secuencia 3' complementaria al extremo 3' del oligonucleótido extendido en la etapa b); d) realizar una reacción de extensión de polimerasa o una reacción de ligación para añadir la secuencia S2y a las secuencias S1x y W del oligonucleótido unido sobre el soporte sólido, donde la secuencia de código de barras comprende las secuencias S1x, W y S2y.

En algunos aspectos, el soporte sólido es una cuenta. En algunos aspectos, el radical de captura es estreptavidina. En algunos aspectos, el primer o segundo oligonucleótidos de código de barras comprenden adicionalmente un promotor de ARN polimerasa (ARNP) y/o un sitio de restricción de endonucleasa de mellado, una secuencia de cebado universal, un sitio de unión a ADNc. En algunos aspectos, el promotor de ARNP se selecciona del grupo que consiste en T7, T3 y SP6. En algunos aspectos, el sitio de restricción de la endonucleasa se selecciona del grupo que consiste en Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI. En algunos aspectos, el sitio de unión a ADNc es uno o más nucleótidos de G.

También se divulga en el presente documento un soporte sólido con un código de barras anclado generado por cualquiera de los métodos divulgados anteriormente. También se divulga en el presente documento una biblioteca de códigos de barras con cuentas que comprende una pluralidad de tales soportes sólidos con códigos de barras anclados.

También se divulga en el presente documento una construcción adaptadora de código de barras que comprende una secuencia de cebado universal, un código de barras y un sitio de unión a ADNc. En algunos aspectos, la construcción comprende adicionalmente un promotor de ARNP. En algunos aspectos, el promotor de ARNP se selecciona del grupo que consiste en T7, T3 y SP6. En algunos aspectos, la construcción comprende adicionalmente un sitio de restricción de endonucleasa de mellado. En algunos aspectos, el sitio de restricción de la endonucleasa de mellado se selecciona del grupo que consiste en Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI.

También se divulga en el presente documento una cuenta con molde de adaptador de código de barras que comprende un soporte sólido y una molécula adaptadora de código de barras unida al soporte sólido a través de un radical de captura, en donde la molécula adaptadora de código de barras comprende una secuencia de código de barras y un sitio de unión a ADNc. En algunos aspectos, el sitio de unión a ADNc comprende uno o más nucleótidos de G. En algunos aspectos, la secuencia de código de barras comprende una secuencia S1x-W-S2y. También se divulga en el presente documento una biblioteca de códigos de barras con cuentas que comprende una pluralidad de cuentas con moldes de adaptadores de códigos de barras como se divulga anteriormente.

También se divulga en el presente documento una biblioteca de polinucleótidos que comprende una pluralidad de cuentas con moldes de adaptadores de códigos de barras que comprende un soporte sólido y una molécula adaptadora de código de barras unida al soporte sólido a través de un radical de captura, en donde la molécula adaptadora de código de barras comprende una secuencia de código de barras y un sitio de unión a ADNc, en donde una región de ADNc se acopla al extremo 3' del adaptador.

En algunos aspectos, el sitio de unión a ADNc comprende uno o más nucleótidos de G. En algunos aspectos, la secuencia de código de barras comprende una secuencia S1x-W-S2y.

En algunos aspectos, el ADNc se obtiene a partir de una célula B. En algunos aspectos, la célula B es un plasmablasto, una célula B de memoria o una célula plasmática. En algunos aspectos, el ADNc es una región de inmunoglobulina variable obtenida a partir de células B.

También se divulga en el presente documento un dispositivo de gotitas de microfluido como se muestra en las FIGS.

17-19.

Breve descripción de los dibujos

Estas y otras características, aspectos y ventajas se comprenderán mejor con respecto a la siguiente descripción y los dibujos anclados, donde:

La FIG. 1 es un mapa de una molécula adaptadora, o una molécula molde para generar una molécula adaptadora, según algunas realizaciones de la invención. La secuencia de una molécula adaptadora puede incluir un promotor de ARN polimerasa y/o un sitio de endonucleasa de mellado, seguidos de una secuencia de cebado universal (utilizada en etapas posteriores de PCR para reasociar cebadores) seguida de una secuencia de código de barras y una secuencia de unión a ácido nucleico.

Las FIG. 2A y 2B muestran métodos para amplificar o generar una molécula adaptadora según algunas realizaciones de la invención. En la FIG. 2A, los adaptadores de códigos de barras de ARN se sintetizan en una reacción de amplificación lineal mediante un ARNP, tal como T7, que se une a una secuencia del promotor sobre un molde de ADN y sintetiza el ARN adaptador de código de barras de hebra sencilla. En la FIG. 2B, se utiliza una endonucleasa de mellado tal como Nt.BbvCI (NEB) para introducir una mella en la hebra efectora de un molde de ADN. A continuación, los adaptadores de códigos de barras de ADN se sintetizan en una reacción de amplificación mediante una enzima que desplaza de hebra, tal como Klenow exo-, que extiende la mella y desplaza el adaptador de código de barras de hebra sencilla.

La FIG. 3 muestra la incorporación de secuencias de código de barras a la primera hebra de ADNc según algunas realizaciones de la invención. Aquí se sintetizan adaptadores de códigos de barras de ARN para demostrar el registro con código de barras de ADNc. También se pueden utilizar adaptadores de códigos de barras de ADN (sintetizados en la FIG. 2B). Una ARNP ceba su promotor y sintetiza adaptadores de códigos de barras de ARN (FIG. 3, Parte Superior Izquierda). En la misma reacción, se produce la transcripción inversa y se genera la 1a hebra de ADNc (Parte Superior Derecha). La transcriptasa inversa H- basada en MMLV tiene actividad de cola 3' y añade varios dC al extremo 3' de la 1a hebra de ADNc. El adaptador de código de barras experimenta emparejamiento de bases con los dC de cola (Parte Inferior) y la transcriptasa inversa continúa la transcripción utilizando el adaptador de código de barras como molde, incorporando la secuencia de código de barras a la 1a hebra de ADNc. Por lo tanto, todos los ARNm de la reacción están registrados con códigos de barras.

La FIG. 4 muestra que los adaptadores de códigos de barras de ARN tienen menos fondo que los adaptadores de códigos de barras de ADN en las realizaciones de la invención. En la reacción de registro con código de barras en la FIG. 3, están presentes tanto adaptadores de oligo(dT) como de código de barras, y ambos oligos pueden cebar la reacción de transcripción inversa. Cuando la reacción se ceba con oligo(dT) (FIG. 4, Parte Superior), la reacción transcurre normalmente. Cuando la reacción de RT se ceba incorrectamente con un adaptador de código de barras de ADN (Parte Media), durante la PCR, el cebador directo puede cebar las hebras efectora y antisentido y crear la amplificación de productos no deseados. Cuando la reacción de RT se ceba con un adaptador de código de barras de ARN (Parte Inferior), la hebra en crecimiento no puede utilizar nucleótidos de ARN como molde cuando se utiliza una ADN polimerasa de lectura de pruebas en PCR1 y, como resultado, los ADNc mal cebados no contendrán secuencias adaptadoras de código de barras en las cadenas efectora y antisentido. Por lo tanto, los productos no deseados no deben amplificarse exponencialmente, lo que da como resultado un fondo significativamente menor.

Las FIG. 5A-C son viñetas que ilustran la segregación de los volúmenes de reacción para generar adaptadores de códigos de barras y realizar la transcripción inversa, según algunas realizaciones de la presente invención. Las moléculas adaptadoras de códigos de barras se pueden generar enzimáticamente en una pluralidad de primeros volúmenes de reacción, tales como gotitas, que están representados por las líneas verticales en la FIG. 5A. Cada primer volumen de reacción puede contener moléculas adaptadoras de códigos de barras en solución acuosa, todas con la misma secuencia de código de barras. Por separado, las moléculas de ARN se pueden transcribir inversamente en una pluralidad de segundos volúmenes de reacción, que están representados por las líneas horizontales en la FIG.

5B. Cada segundo volumen de reacción puede contener moléculas de ARN todas derivadas de la misma muestra. El primer y segundo volúmenes de reacción se pueden combinar a continuación, por ejemplo, mediante la fusión de gotitas, como se representa por las líneas cruzadas en la FIG. 5C. Los productos de las reacciones en las FIG. 5A y 5B se mezclan, de modo que se introduce una secuencia de código de barras en el volumen de reacción correspondiente a cada muestra. La secuencia de código de barras se puede incorporar a la primera hebra de ADNc o productos de PCR.

Las FIG. 6A-D muestran la amplificación de moldes de adaptadores de códigos de barras para producir moléculas adaptadoras de códigos de barras, en varias realizaciones de la invención. La FIG. 6A muestra moldes de adaptadores de códigos de barras anclados a una superficie sólida, tal como una cuenta. La FIG. 6B muestra moléculas adaptadoras de códigos de barras en solución acuosa, resultantes de la amplificación de los moldes de adaptadores de códigos de barras en la FIG. 6A. La FIG. 6C muestra una sola molécula de molde de adaptador de código de barras. La molécula está en solución acuosa y se mantiene dentro de un recipiente. La FIG. 6D muestra el recipiente de la FIG. 6C con múltiples moléculas adaptadoras de códigos de barras, que resultan de la amplificación de la única molécula molde.

Las FIG. 7A-D muestran la generación de moléculas adaptadoras de códigos de barras a partir de moldes, en donde los moldes se anclan a superficies sólidas. T ras la generación, las moléculas adaptadoras de códigos de barras están en solución acuosa. Las FIG. 7A y 7B muestran moldes de adaptadores de códigos de barras anclados a superficies sólidas. La FIG. 7C muestra moléculas adaptadoras de códigos de barras amplificadas enzimáticamente a partir de los moldes de adaptadores de códigos de barras en la FIG. 7A. La FIG. 7D muestra las moléculas adaptadoras de códigos de barras liberadas a la solución tras la escisión química o enzimática de los moldes de adaptadores de códigos de barras en FIG. 7B de la superficie sólida.

La FIG. 8 muestra la incorporación de una secuencia de código de barras a una primera hebra de ADNc utilizando un adaptador de código de barras de ADN. (Parte Superior) El adaptador de código de barras, incluido un tramo de poli-T 3', se genera a partir de un molde de adaptador de código de barras utilizando una ADN polimerasa. Las moléculas adaptadoras de códigos de barras están en solución acuosa. (Parte Inferior) El adaptador de código de barras se reasocia con la cola poli-A de un ARNm y sirve como cebador para la transcripción inversa. La secuencia de código de barras se incorpora al extremo 5' de la primera hebra de ADNc.

La FIG. 9 muestra la incorporación de una secuencia de código de barras a una primera hebra de ADNc utilizando un adaptador de código de barras de ADN. (Parte Superior) El adaptador de código de barras, que incluye un tramo de secuencia aleatoria o semialeatoria 3', se genera a partir de un molde de adaptador de código de barras utilizando una ADN polimerasa. Las moléculas adaptadoras de códigos de barras están en solución acuosa. (Parte Inferior) El adaptador de código de barras, se mediante reasociación con una región de un ARN que es al menos parcialmente complementario al tramo de secuencia 3', sirve como cebador para la transcripción inversa. La secuencia de código de barras se incorpora al extremo 5' de la primera hebra de ADNc.

La FIG. 10 es una descripción general esquemática de un flujo de trabajo de código de barras que elimina las etapas de pipeteo individuales. En resumen, las reacciones de códigos de barras se producen en gotitas de agua en aceite, donde las células y las cuentas que contienen adaptadores de códigos de barras se distribuyen mediante un dispositivo generador de gotitas. Los adaptadores de códigos de barras se amplifican enzimáticamente o se liberan desde una superficie sólida, tal como una cuenta, y los códigos de barras se añaden a todos los transcritos de una célula.

La FIG. 11 solo con fines ilustrativos muestra la incorporación de una secuencia de código de barras a un amplicón utilizando un adaptador de código de barras de ADN que sirve como cebador directo para RT-PCR. El adaptador de código de barras se genera enzimáticamente a partir de un molde de ADN utilizando una ADN polimerasa (Parte Superior Izquierda). Las moléculas adaptadoras de códigos de barras están en solución acuosa. En un volumen de reacción separado, o en el mismo volumen de reacción, se sintetiza una primera hebra de ADNc (Parte Superior Derecha) utilizando un molde de ARNm, una transcriptasa inversa, un cebador que contiene un tramo de poli-T y un oligonucleótido de cambio de molde. El oligonucleótido de cambio de molde contiene una región de secuencia complementaria a una región de secuencia en el adaptador de código de barras. A continuación, la secuencia de código de barras se incorpora a un amplicón durante la amplificación por PCR del ADNc (Parte Inferior). El adaptador de código de barras sirve como cebador directo para PCR.

La FIG. 12 solo con fines ilustrativos muestra la incorporación de una secuencia de código de barras a un amplicón utilizando un adaptador de código de barras de ADN que sirve como cebador inverso para RT-PCR. El adaptador de código de barras se genera enzimáticamente a partir de un molde de ADN utilizando una ADN polimerasa (Parte Superior Izquierda). Las moléculas adaptadoras de códigos de barras están en solución acuosa. En un volumen de reacción separado, o en el mismo volumen de reacción, se sintetiza una primera hebra de ADNc (Parte Superior Derecha) utilizando un molde de ARNm, una transcriptasa inversa, un cebador que contiene un tramo de poli-T y un oligonucleótido de cambio de molde. El cebador contiene una región de secuencia 5' complementaria a una región de secuencia 3' en el adaptador de código de barras. A continuación, la secuencia de código de barras se incorpora a un amplicón durante la amplificación por PCR del ADNc (Parte Inferior). El adaptador de código de barras sirve como cebador inverso para la PCR.

La FIG. 13 solo con fines ilustrativos, muestra la incorporación de una secuencia de código de barras a un amplicón utilizando un adaptador de código de barras de ADN que sirve como cebador inverso para RT-PCR. El adaptador de código de barras se genera enzimáticamente a partir de un molde de ADN utilizando una ADN polimerasa (Parte Superior Izquierda). Las moléculas adaptadoras de códigos de barras están en solución acuosa. En un volumen de reacción separado, o en el mismo volumen de reacción, se sintetiza una primera hebra de ADNc (Parte Superior Derecha) utilizando un molde de ARNm, una transcriptasa inversa, un cebador que contiene un tramo de secuencia aleatoria 3' y un oligonucleótido de cambio de molde. El cebador se puede reasociar con el ARNm a través del tramo de secuencia aleatoria y también contiene una región de secuencia 5' complementaria a una región de secuencia 3' en el adaptador de código de barras. A continuación, la secuencia de código de barras se incorpora a un amplicón durante la amplificación por PCR del ADNc (Parte Inferior). El adaptador de código de barras sirve como cebador inverso para PCR.

La FIG. 14A-C ilustra métodos de interrogación de una población de células para un fenotipo seleccionado utilizando un marcador de ácido nucleico, solo con fines ilustrativos. Además de registrar con código con barras el ARN de las células, se puede registrar con código con barras cualquier ARN, incluido el ARN de fuentes no celulares. El ARN no celular puede introducirse en los volúmenes de reacción por cualquier medio, por ejemplo, marcando las células con un marcador de ácido nucleico. Este marcador puede incluir un ácido nucleico acoplado a una marca molecular, tal como un anticuerpo (FIG. 14A), un antígeno (FIG. 14B) o pMHC (FIG. 14C). El marcador de ácido nucleico puede unirse a algunas o todas las células de la población, según los fenotipos de las células y sus afinidades por la marca molecular. A continuación, se pueden lisar todas las células de la población y se pueden registrar con códigos con barras los ARNm de cada célula. Para las células que se unen al marcador de ácido nucleico, el ácido nucleico asociado también se puede registrar con código de barras. Este ácido nucleico puede ser un molde de ARN o de ADNdh con un promotor de ARNP, tal como un promotor de T7, T3 o SP6. La secuenciación puede asociar a continuación secuencias de ARN no endógenas con células específicas, detectando así qué células se unieron a la marca molecular. Se pueden acoplar diferentes marcas moleculares a diferentes secuencias de ácidos nucleicos, lo que permite la identificación de múltiples fenotipos celulares.

La FIG. 15 muestra la síntesis de cuentas de molde de adaptador de código de barras en una reacción solo con fines ilustrativos. (Parte Izquierda) Las cuentas se acoplan a un oligonucleótido. El acoplamiento se puede realizar acoplando oligos biotinilados sobre cuentas recubiertas de estreptavidina, y también se pueden acoplar utilizando otros medios conocidos en el campo. (Parte Derecha) Las cuentas acopladas, los cebadores directo e inverso y un oligo de código de barras que contiene una secuencia de código de barras y secuencias complementarias a los cebadores directo e inverso están todos presentes en un recipiente de reacción, con el oligo de código de barras preferiblemente presente en una sola copia. A continuación, se lleva a cabo la PCR para amplificar la secuencia de código de barras e incorporarla a los oligonucleótidos acoplados a cuentas para formar cuentas con moldes de adaptadores de códigos de barras.

La FIG. 16 muestra la síntesis de cuentas de moldes de adaptadores de códigos de barras en múltiples etapas solo con fines ilustrativos. (Parte Superior) Las cuentas se acoplan a (múltiples copias de) un oligonucleótido que contiene una secuencia S1 única. Se realizan múltiples reacciones de acoplamiento separadas, utilizando cada reacción de acoplamiento un oligonucleótido que contiene una secuencia S1 única diferente. Las cuentas, cada una acoplada a un oligonucleótido con una secuencia S1 única diferente, se agrupan después entre sí, formando una biblioteca de cuentas que tienen secuencias S1x. (Parte Media) Estas cuentas se utilizan a continuación en una reacción de extensión. En cada reacción, un oligonucleótido que contiene una secuencia W única experimenta emparejamiento de bases de manera complementaria con el oligonucleótido que contiene S1x acoplado a la cuenta, y se realiza una reacción de extensión utilizando una ADN polimerasa. Se agrupan las cuentas de todas las reacciones de extensión y se crea una biblioteca de cuentas que contiene una combinación de secuencias S1x cada una con la secuencia W única. (Parte Inferior) El ADN de doble hebra de la etapa anterior se desnaturaliza y la hebra antisentido se separa de las cuentas mediante lavado. Se realizan reacciones de extensión separadas adicionales sobre las cuentas como antes, pero el oligonucleótido que experimenta emparejamiento de bases de manera complementaria con el oligonucleótido que contiene S1x y W acoplado a las cuentas contiene una secuencia S2 única diferente en cada reacción separada. Se agrupan las cuentas de todas las reacciones de extensión y se obtiene una biblioteca de cuentas que contienen moldes de adaptadores de códigos de barras, con una combinación de secuencias S1x, W y S2y que forman la secuencia de código de barras. Por lo tanto, se puede obtener una gran cantidad de secuencias de códigos de barras únicas en este enfoque combinatorio. Además, se pueden combinar múltiples secuencias W únicas con las secuencias S1x y S2y, produciendo códigos de barras del formato general S1x - Wz - S2y.

La FIG. 17 muestra un dispositivo de gotitas solo con fines ilustrativos. Se equipan tres Bombas P de Dolomite con sensores de flujo. La primera Bomba P está conectada directamente a un Chip de Gotitas de 2 Reactivos a través de un tubo de microfluido que incorpora una unión en T para dividir la línea en dos entradas. Esta es la línea de entrada de aceite. Las otras dos Bombas P están conectadas a través de un tubo de fluido a los bucles de muestras de FEP que encajan en las ranuras de un dispositivo Peltier que se utiliza para mantener las muestras enfriadas mientras el dispositivo está en funcionamiento, y cada uno de estos bucles está conectado al Chip de Gotitas de 2 Reactivos. Cada bucle de muestra incorpora una válvula de cuatro vías en su extremo frontal para que la muestra se pueda cargar en el bucle por medio de una jeringa. El primer bucle de muestra debe llenarse con la suspensión de células y cuentas con códigos de barras, mientras que el segundo bucle debe llenarse con la mezcla de RT/lisis. Los bucles de muestra se pueden orientar horizontalmente y por encima o nivelarse con el chip de gotitas para evitar cualquier sección ascendente a través de la cual puede ser difícil que las células y las cuentas se desplacen.

La FIG. 18 proporciona detalles de la configuración del dispositivo de gotitas que se muestra en la FIG. 17. Piezas proporcionadas por número de pieza IDEX H&S: 1.0.A ) 1528 (110 mm); 1.0.B ) P-732; 1.0.C ) P-232 / P-248; 1.0.D ) 1688 (300 mm); 1.0.E ) M-645; 1.0.F ) P-630; 1.0.H ) P-632; 1.0.J ) P-702; 1.0.K ) 1529 (50 mm); 1.0.L ) V-101 D; 1.0.N ) P-732; 1.0.O ) P-624; 1.0.T ) 1531 (900 mm); 1.2.A ) P-630; 1.2.B ) 1516 (500 mm); 1.2.C ) P-702; 1.2.D ) 1529 (150 mm); 1.2.E ) P-702; 1.2.G ) 1560 (150 mm); 1.3.A ) 1528 (135 mm); 1.5.A ) 1516 (150 mm); 1.5.B ) 1529 (300 mm); 1.7.A ) 61005; 1.7.B ) 65020; 2.0.A ) 1477 (1254 mm); 2.0.B ) 1527 (1254 mm); 2.0.C ) 1520 (120 mm); 2.0.D ) 1520 (600 mm); 2.0.E ) 1520 (200 mm); 2.0.F ) 1520 (200 mm). El tubo de salida (desde el chip hasta el tubo de recogida de muestras) es de 180 mm de 1562.

La FIG. 19 muestra una realización alternativa del dispositivo de gotitas descrito en el presente documento. Los bucles de muestra están en contacto con una cubeta de hielo.

La FIG. 20 muestra adaptadores de códigos de barras de ARN amplificados a partir de cuentas con moldes de adaptadores de códigos de barras, que se fabricaron utilizando un enfoque de múltiples etapas. Se utilizaron cuentas con moldees de adaptadores de códigos de barras en una reacción de transcripción in vitro. Las bandas estaban presentes en cuentas preparadas utilizando oligo S1 oligo W-a oligo S2-a y oligo S1 oligo W-b oligo S2-b respectivamente.

La FIG. 21 muestra una reacción de registro con códigos de barras realizada en una variedad de tampones. 1, 2, y 3 se refieren a tres tampones de reacción, que eran respectivamente los tampones 0,5x MMLV, 1x Thermopol DF y 0,5x TAE descritos a continuación. K, L y G se refieren a cadenas de inmunoglobulina kappa, lambda y gamma. Todas las cadenas se amplificaron en los diferentes tampones de reacción utilizados.

La FIG. 22 muestra que una reacción de registro con códigos de barras funciona mejor utilizando códigos de barras de ARN. 1, 2, y 3 se refieren a tres condiciones de reacción, que fueron las condiciones 1x MMLV y 0,5x MMLV utilizando adaptadores de códigos de barras de ARN, y 1x MMLV utilizando adaptadores de códigos de barras de ADN. K, L y G se refieren a cadenas de inmunoglobulina kappa, lambda y gamma. Las bandas en la reacción utilizando adaptadores de ADN se oscurecieron debido al alto fondo.

La FIG. 23 muestra productos amplificados a partir del registro con códigos de barras de células B individuales en recipientes de reacción de gotitas con moldes de adaptadores de códigos de barras. Se pueden observar claramente las bandas correspondientes a las cadenas ligeras kappa y lambda ("K/L") y la cadena pesada mu ("M").

La FIG.24 muestra la amplificación por RT/PCR de dianas de cadena ligera (kappa/lambda) y cadena pesada (gamma) después de la encapsulación conjunta con cuentas con código de barras en una emulsión acuosa en aceite. Cada muestra se hace circular en calles emparejadas: una para la cadena ligera kappa/lambda (izquierda) y otra para la cadena pesada gamma (derecha). Las muestras de la emulsión incluyeron la muestra experimental encapsulada conjuntamente de célula cuenta (Célula cuenta), así como dos muestras de control preparadas de manera idéntica excepto que, en una, las cuentas con adaptador de molde de código de barras se reemplazaron por moldes de adaptadores de códigos de barras acuosos (Célula BC ac), y una en la que las células se reemplazaron por molde de ARN de PBMC humanas purificadas obtenidas de AllCells (ARN+cuenta). También se incluyeron controles positivos y negativos a granel, que no entraron en el dispositivo de emulsión (R- y R+1 Respectivamente). Las bandas de producto eran visibles para la muestra experimental y todos los controles positivos y estaban ausentes en el control negativo.

La FIG. 25 ilustra los métodos para preparar cuentas con moldes de adaptadores de códigos de barras utilizando múltiples tipos de moldes de adaptadores de códigos de barras. Los oligos que contenían códigos de barras se generaron con éxito con la longitud esperada de 82 pb (Parte Superior Izquierda). Se obtuvieron con éxito cuentas con moldes de adaptadores de códigos de barras de un solo color (Parte Derecha). El gráfico superior se acotó primero con cuentas AF647 y el gráfico inferior se acotó primero con cuentas FAM-Cy3, de modo que las ventanas dibujadas en ambos gráficos mostraran solo cuentas de un solo color. Las cuentas se utilizaron con éxito para registrar con códigos de barras ARN (Parte Inferior Izquierda). Aquí, se codificaron con códigos de barras y amplificaron con éxito las cadenas alfa y beta del receptor de células T. Las cuentas generadas previamente se utilizaron como controles positivos (calles 1-2) y las cuentas de molde de adaptador de código de barras de un solo color (calles 4-7) se compararon con un control negativo (calle 3). El ADN se analizó en un gel de agarosa al 2%, con una escalera de 100 pb cargada en la calle izquierda.

La FIG. 26 ilustra el registro con códigos de barras eficiente de la cadena alfa del receptor de células T encapsulando cuentas con moldes de adaptadores de códigos de barras y células en gotitas de diferentes tamaños. El ARN con código de barras se amplificó después del registro con códigos de barras y se analizó en un gel de agarosa al 2%.

La FIG. 27 muestra los productos de amplificación por PCR de la biblioteca de cadenas alfa y beta de TCR. Los productos se visualizaron en un gel de agarosa al 2%. Se cargó una escalera de 100 pb en la calle derecha.

La FIG. 28 muestra los productos de amplificación por PCR de la biblioteca de los genes de IFNy, CD8 y CD4. Los productos se visualizaron en un gel de agarosa al 2%. Se cargó una escalera de 100 pb en la calle derecha.

La FIG. 29 muestra los productos de amplificación por PCR de la biblioteca de una biblioteca transcriptómica. Los productos se visualizaron en un gel de agarosa al 2%. Se cargó una escalera de 100 pb en la calle derecha.

Definiciones

Como se emplea el término en el presente documento, "incorporar" una secuencia a un polinucleótido se refiere a conectar covalentemente una serie de nucleótidos con el resto del polinucleótido, por ejemplo, en el extremo 3' o 5' del polinucleótido, mediante enlaces fosfodiéster, en donde los nucleótidos se conectan en el orden prescrito por la secuencia. Una secuencia se ha "incorporado" a un polinucleótido, o de manera equivalente, el polinucleótido "incorpora" la secuencia, si el polinucleótido contiene la secuencia o un complemento de la misma. La incorporación de una secuencia a un polinucleótido se puede producir enzimáticamente (p. ej., mediante ligación o polimerización) o utilizando síntesis química (p. ej., mediante química de fosforamidita).

Como se emplean en el presente documento, los términos "amplificar" y "amplificación" se refieren a copiar enzimáticamente la secuencia de un polinucleótido, en su totalidad o en parte, para generar más polinucleótidos que también contengan la secuencia o un complemento de la misma. La secuencia que se copia se denomina secuencia molde. Los ejemplos de amplificación incluyen la síntesis de ARN con molde de ADN mediante ARN polimerasa, la síntesis de primera hebra de ADNc con molde de ARN mediante transcriptasa inversa y la amplificación por PCR con molde de ADN utilizando una ADN polimerasa termoestable. La amplificación incluye todas las reacciones de extensión del cebador.

Como se emplea en el presente documento, el término "isotérmica" se refiere a una reacción, tal como una reacción enzimática, que se lleva a cabo a una temperatura constante o a un rango de temperaturas.

El término "asociado" se emplea en el presente documento para referirse a la relación entre una muestra y las moléculas de ADN, las moléculas de ARN u otros polinucleótidos que se originan o se obtienen a partir de esa muestra. Un polinucleótido está asociado con una muestra si es un polinucleótido endógeno, es decir, se encuentra en la muestra en el momento en que se selecciona la muestra, o se obtiene a partir de un polinucleótido endógeno. Por ejemplo, los ARNm endógenos de una célula están asociados con esa célula. Los ADNc resultantes de la transcripción inversa de estos ARNm y los amplicones de ADN resultantes de la amplificación por PCR de los ADNc contienen las secuencias de los ARNm y también están asociados con la célula. Los polinucleótidos asociados con una muestra no necesitan localizarse o sintetizarse en la muestra, y se consideran asociados con la muestra incluso después de que la muestra haya sido destruida (por ejemplo, después de que se haya lisado una célula). Se puede utilizar el registro con código de barras moleculares u otras técnicas para determinar qué polinucleótidos en una mezcla están asociados con una muestra concreta.

Como se emplea el término en el presente documento, un "volumen de reacción" (o de manera equivalente, un "recipiente" o "compartimento") es un espacio donde un volumen de líquido, por ejemplo, una solución acuosa, puede mantenerse y permanecer segregado (por ejemplo, aislado) de otros volúmenes de líquido o del medio circundante. La segregación entre un volumen de reacción y su entorno puede resultar de barreras sólidas alrededor del volumen de reacción o de la separación de fases. Por ejemplo, una gotita de microfluido acuoso suspendida en un fluido portador hidrófobo puede constituir un volumen de reacción ya que el agua es inmiscible en el fluido portador. Por tanto, dos gotitas que están separadas entre sí en el fluido portador permanecen segregadas, y los ácidos nucleicos u otras especies hidrófilas disueltas en una gotita no pueden salir de la gotita ni pasar a otra gotita. Los volúmenes de reacción también se pueden definir, por ejemplo, mediante matraces, vasos de precipitados, tubos de centrífuga y pocillos en una placa multipocillo.

"Añadir" un adaptador de código de barras a los ARN asociados con una muestra implica introducir la molécula adaptadora en el volumen de reacción que contiene estos ARN, de modo que los ARN puedan participar en una reacción de registro con códigos de barras. Una vez añadido, el adaptador de código de barras puede reaccionar directamente con uno o más ARN, por ejemplo, hibridando con un ARN, o puede participar en una reacción de polimerización o en una serie de reacciones (por ejemplo, transcripción inversa o RT-PCR) en las que las moléculas de ARN sirven como moldes.

En algunos aspectos, una composición puede incluir un polinucleótido. El término "polinucleótido(s)" se refiere a ácidos nucleicos tales como moléculas de ADN y moléculas de ARN y análogos de los mismos (p. ej., ADN o ARN generados utilizando análogos de nucleótidos o utilizando química de ácidos nucleicos). Según se desee, los polinucleótidos pueden fabricarse sintéticamente, p. ej., utilizando química de ácidos nucleicos reconocida en la técnica o enzimáticamente utilizando, p. ej., una polimerasa y, si se desea, pueden modificarse. Las modificaciones típicas incluyen metilación, biotinilación y otras modificaciones conocidas en la técnica. Además, un polinucleótido puede ser de hebra sencilla o de doble hebra y, cuando se desee, estar conectado a un radical detectable. En algunos aspectos, un polinucleótido puede incluir moléculas híbridas, p. ej., que comprenden ADN y ARN.

"G", "C", "A", "T" y "U" generalmente representan un nucleótido que contiene guanina, citosina, adenina, timidina y uracilo como base, respectivamente. Sin embargo, se entenderá que el término "ribonucleótido" o "nucleótido" también se puede referir a un nucleótido modificado o a un radical de reemplazo sustituto. El experto en la técnica es muy consciente de que la guanina, la citosina, la adenina y el uracilo pueden reemplazarse por otros radicales sin alterar sustancialmente las propiedades de emparejamiento de bases de un oligonucleótido que comprende un nucleótido que porta tal radical de reemplazo. Por ejemplo, sin limitación, un nucleótido que comprende inosina como base puede experimentar emparejamiento de bases con nucleótidos que contienen adenina, citosina o uracilo. Por lo tanto, los nucleótidos que contienen uracilo, guanina o adenina pueden reemplazarse en las secuencias de nucleótidos por un nucleótido que contiene, por ejemplo, inosina. En otro ejemplo, la adenina y la citosina en cualquier parte del oligonucleótido se pueden reemplazar por guanina y uracilo, respectivamente, para formar un emparejamiento de bases G-U tipo Wobble con el ARNm diana. Las secuencias que contienen tales radicales de reemplazo son adecuadas para las composiciones y métodos descritos en el presente documento.

Como se emplea en el presente documento, y a menos que se indique lo contrario, el término "complementario", cuando se utiliza para describir una primera secuencia de nucleótidos con relación a una segunda secuencia de nucleótidos, se refiere a la capacidad de un polinucleótido que comprende la primera secuencia de nucleótidos para hibridar y formar una estructura dúplex bajo ciertas condiciones con un polinucleótido que comprende la segunda secuencia de nucleótidos, como entenderá el experto en la técnica. Tales condiciones pueden ser, por ejemplo, condiciones estrictas, donde las condiciones estrictas pueden incluir: NaCl 400 mM, PIPES 40 mM pH 6,4, EDTA 1 mM, 50°C o 70°C durante 12-16 horas seguido de lavado. Pueden aplicarse otras condiciones, tales como las condiciones fisiológicamente relevantes que pueden encontrarse dentro de un organismo. El experto en la técnica será capaz de determinar el conjunto de condiciones más apropiado para una prueba de complementariedad de dos secuencias de acuerdo con la aplicación final de los nucleótidos hibridados.

Las secuencias complementarias incluyen el emparejamiento de bases de una región de un polinucleótido que comprende una primera secuencia de nucleótidos con una región de un polinucleótido que comprende una segunda secuencia de nucleótidos sobre la longitud o una porción de la longitud de una o ambas secuencias de nucleótidos. Tales secuencias pueden denominarse "complementarias" entre sí en el presente documento. Sin embargo, cuando una primera secuencia se denomina "sustancialmente complementaria" con respecto a una segunda secuencia en el presente documento, las dos secuencias pueden ser complementarias, o pueden incluir una o más, pero generalmente no más de aproximadamente 5, 4, 3 o 2 pares de bases no coincidentes dentro de regiones que han experimentado emparejamiento de bases. Para dos secuencias con pares de bases no coincidentes, las secuencias se considerarán "sustancialmente complementarias" siempre que las dos secuencias de nucleótidos se unan entre sí a través del emparejamiento de bases.

Secuencias "complementarias", como se emplea en el presente documento, también pueden incluir, o estar formadas completamente a partir de, pares de bases que no sean de Watson-Crick y/o pares de bases formados a partir de nucleótidos no naturales y modificados, en la medida en que se cumplan las realizaciones anteriores con respecto a su capacidad para hibridar. Tales pares de bases que no son de Watson-Crick incluyen, pero no se limitan a, emparejamiento de bases G:U tipo Wobble o Hoogstein.

El término porcentaje de "identidad", en el contexto de dos o más secuencias de ácidos nucleicos o polipéptidos, se refiere a dos o más secuencias o subsecuencias que tienen un porcentaje específico de nucleótidos o residuos de aminoácidos que son iguales, cuando se comparan y alinean para obtener la correspondencia máxima, medida utilizando uno de los algoritmos de comparación de secuencias descritos a continuación (p. ej., BLASTP y BLASTN u otros algoritmos disponibles para los expertos) o mediante inspección visual. Dependiendo de la aplicación, el porcentaje de "identidad" puede existir en una región de la secuencia que se compara, p. ej., en un dominio funcional o, alternativamente, puede existir en la longitud total de las dos secuencias que se comparan.

Para la comparación de secuencias, típicamente una secuencia actúa como secuencia de referencia con la que se comparan las secuencias de prueba. Cuando se utiliza un algoritmo de comparación de secuencias, las secuencias de prueba y de referencia se introducen en un ordenador, se designan las coordenadas de la subsecuencia, si fuera necesario, y se designan los parámetros del programa del algoritmo de secuencia. A continuación, el algoritmo de comparación de secuencias calcula el porcentaje de identidad de secuencia para la(s) secuencia(s) de prueba con respecto a la secuencia de referencia, en función de los parámetros de programa designados.

El alineamiento óptimo de las secuencias para la comparación se puede realizar, p. ej., mediante el algoritmo de homología local de Smith & Waterman, Adv. Appl. Math. 2:482 (1981)), mediante el algoritmo de alineamiento de homología de Needleman y Wunsch, J. Mol. Biol. 48:443 (1970)), mediante el método de búsqueda de similitud de Pearson y Lipman, Proc. Nat. Acad. Sci. USA 85:2444 (1988), mediante implementaciones computarizadas de estos algoritmos (GAP, BESTFIT, FASTA y TFASTA en Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, Wis.), o mediante inspección visual (véase generalmente Ausubel et al., más abajo).

Un ejemplo de un algoritmo que es adecuado para determinar el porcentaje de identidad de secuencia y la similitud de secuencia es el algoritmo BLAST, que describen Altschul et al., en J. Mol. Biol. 215:403-410 (1990). El soporte lógico para realizar análisis BLAST está disponible públicamente a través del sitio web del Centro Nacional de Información Biotecnológica. Los parámetros del algoritmo BLAST W, T y X determinan la sensibilidad y la velocidad del alineamiento. El programa BLASTN (para secuencias de nucleótidos) utiliza por defecto una longitud de palabra (W) de 11, una expectativa (E) de 10, M=5, N=-4 y una comparación de ambas hebras.

Las secuencias idénticas incluyen una identidad de 100% de un polinucleótido que comprende una primera secuencia de nucleótidos con un polinucleótido que comprende una segunda secuencia de nucleótidos en toda la longitud de una o ambas secuencias de nucleótidos. Tales secuencias pueden denominarse "totalmente idénticas" entre sí en el presente documento. Sin embargo, en algunos aspectos, cuando una primera secuencia se denomina "sustancialmente idéntica" con respecto a una segunda secuencia en el presente documento, las dos secuencias pueden ser completamente complementarias, o pueden tener uno o más, pero generalmente no más de aproximadamente 5, 4, 3 o 2 nucleótidos no coincidentes tras el alineamiento. En algunos aspectos, cuando una primera secuencia se denomina "sustancialmente idéntica" con respecto a una segunda secuencia en el presente documento, las dos secuencias pueden ser completamente complementarias, o pueden ser al menos aproximadamente 50, 60, 70, 80, 81,82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98 o 99% idénticas entre sí. Para determinar el porcentaje de identidad de dos secuencias de nucleótidos descritas en el presente documento, se pueden utilizar los ajustes predeterminados de BLASTN descritos anteriormente.

Cuando una primera secuencia se denomina "distinta" con respecto a la identidad de una segunda secuencia en el presente documento, las dos secuencias tienen al menos uno o más nucleótidos no coincidentes tras el alineamiento. En algunos aspectos, distintas secuencias pueden tener 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50 o más nucleótidos no coincidentes tras el alineamiento. En algunos aspectos, las distintas secuencias pueden ser 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21 , 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46 ,47 , 48, 49, 50, 60, 70, 80, 81,82, 83, 84, 85, 86, 87, 88, 89, 90, 91,92, 93, 94, 95, 96, 97, 98,99, o menos de 100% idénticos entre sí. En algunos aspectos, cuando una primera secuencia se denomina "distinta" con respecto a una segunda secuencia en el presente documento, las dos secuencias pueden tener secuencias sustancialmente o completamente idénticas, pero en cambio difieren entre sí en función de los diferentes patrones de modificación dentro de las secuencias. Tales modificaciones son generalmente conocidas en la técnica, p. ej., metilación.

En algunos aspectos, un polinucleótido puede estar presente en una biblioteca de polinucleótidos. En algunos aspectos, una biblioteca de polinucleótidos puede incluir una pluralidad de polinucleótidos. En algunos aspectos, cada polinucleótido de la pluralidad de polinucleótidos se puede obtener a partir de una única muestra. En algunos aspectos, una muestra única puede incluir una sola célula, tal como una célula B.

La notación convencional se emplea en el presente documento para describir secuencias de nucleótidos: el extremo izquierdo de una secuencia de nucleótidos de hebra sencilla es el extremo 5'; la dirección hacia la izquierda de una secuencia de nucleótidos de doble hebra se denomina dirección 5'. La dirección de la adición de nucleótidos de 5' a 3' a los transcritos de ARN naciente se denomina dirección de transcripción. La hebra de ADN que tiene la misma secuencia que un ARNm se denomina "hebra codificante"; las secuencias en la hebra de ADN que tienen la misma secuencia que un ARNm transcrito a partir de ese ADN y que están ubicadas en posición 5' con respecto al extremo 5' del transcrito de ARN se denominan "secuencias aguas arriba"; las secuencias en la hebra de ADN que tienen la misma secuencia que el ARN y que están en posición 3' con respecto al extremo 3' del transcrito de ARN codificante se denominan "secuencias aguas abajo".

El término "ARN mensajero" o "ARNm" se refiere a un ARN que no tiene intrones y que puede traducirse a un polipéptido.

El término "ADNc" se refiere a un ADN que es complementario o idéntico a un ARNm, ya sea en forma de hebra sencilla o doble hebra.

El término "amplicón" se refiere al producto amplificado de una reacción de amplificación de ácidos nucleicos, por ejemplo, RT-pCr .

El término "hibridar" se refiere a una interacción de unión no covalente específica de secuencia con un ácido nucleico complementario. La hibridación puede ocurrir en toda o una parte de una secuencia de ácido nucleico. Los expertos en la técnica reconocerán que la estabilidad de un dúplex o híbrido de ácido nucleico puede determinarse mediante Tm. Se puede encontrar orientación adicional sobre las condiciones de hibridación en: Current Protocols in Molecular Biology, John Wiley & Sons, N.Y., 1989, 6.3.1-6.3.6 y en: Sambrook et al., Molecular Cloning, a Laboratory Manual, Cold Spring Harbor Laboratory Press, 1989, vol. 3.

Como se emplea en el presente documento, "región" se refiere a una porción contigua de la secuencia de nucleótidos de un polinucleótido. En el presente documento se describen ejemplos de regiones que incluyen regiones de identificación, regiones de identificación de la muestra, regiones de identificación de placas, regiones de adaptadores y similares. En algunos aspectos, un polinucleótido puede incluir una o más regiones. En algunos aspectos, un polinucleótido puede incluir menos de 2, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50 o más regiones. En algunos aspectos, las regiones se pueden acoplar. En algunos aspectos, las regiones se pueden acoplar operativamente. En algunos aspectos, las regiones se pueden acoplar físicamente.

Como se emplea en el presente documento, "región variable" se refiere a una secuencia de nucleótidos variable que surge de un evento de recombinación o conversión de genes, tal como la recombinación V(D)J y la recombinación homóloga entre los segmentos del gen VH aguas arriba y los genes VDJ reorganizados para producir un producto génico expresado, final. Los ejemplos son, pero no se limitan a, genes de inmunoglobulina y genes de receptores de células T. Por ejemplo, puede incluir una región V, J y/o D de una inmunoglobulina o una secuencia receptora de células T aislada de una célula T o una célula B de interés, tal como una célula T activada o una célula B activada.

Como se emplea en el presente documento, "región de inmunoglobulina variable de células B" se refiere a una secuencia de nucleótidos de inmunoglobulina variable aislada de una célula B. Por ejemplo, una secuencia de inmunoglobulina variable puede incluir una región V, J y/o D de una secuencia de inmunoglobulina aislada de una célula B de interés tal como una célula B de memoria, una célula B activada o un plasmablasto.

Como se emplea en el presente documento, "código de barras" o "secuencia de código de barras" se refieren a cualquier marca de secuencia única que se puede acoplar a al menos una secuencia de nucleótidos para, p. ej., la identificación posterior de al menos una secuencia de nucleótidos.

Como se emplea en el presente documento, "conjunto de código de barras" se refiere a cualquier conjunto único de secuencias que se pueden acoplar a secuencias de nucleótidos de una muestra, donde una secuencia de nucleótidos se acopla a una secuencia de código de barras en el conjunto, p. ej., para la identificación posterior de las secuencias de nucleótidos.

Los términos "adaptador de código de barras", "adaptador de registro con códigos de barras" y "molécula adaptadora de código de barras" se utilizan indistintamente en el presente documento para referirse a un oligonucleótido que comprende una secuencia de código de barras única.

Los términos "molde de adaptador de código de barras", "molde de adaptador", "molécula molde", "construcción adaptadora de código de barras" y "construcción adaptadora" se utilizan indistintamente en el presente documento para referirse a una molécula de ácido nucleico que comprende una secuencia de código de barras que se puede utilizar como molde para amplificar y producir moléculas adaptadoras de códigos de barras de hebra sencilla.

Como se emplea en el presente documento, "cuenta con molde de adaptador de código de barras" se refiere a una cuenta acoplada a uno o más moldes de adaptadores de códigos de barras.

Como se emplea en el presente documento, "registro con código de barras" o "reacción de registro con códigos de barras" se refiere a una reacción que conecta una secuencia de código de barras, o el complemento de una secuencia de código de barras, con un ácido nucleico. El adaptador de código de barras no tiene que estar necesariamente conectado covalentemente con el ácido nucleico, pero la propia información de la secuencia de código de barras está conectada o incorporada al ácido nucleico. "Ácidos nucleicos con registro con códigos de barras", "células con registro con códigos de barras", "ácidos nucleicos de células con registro con códigos de barras", "ácidos nucleicos de recipientes de reacción con registro con códigos de barras " y "recipientes de reacción con registro con códigos de barras" se utilizan indistintamente.

Como se emplea en el presente documento, "región de identificación" se refiere a una marca de secuencia de nucleótidos (p. ej., una secuencia de código de barras única) que se puede acoplar a al menos una secuencia de nucleótidos para, p. ej., la identificación posterior de al menos una secuencia de nucleótidos. En algunos aspectos, se utiliza una secuencia de código de barras como región de identificación de la muestra. En algunos aspectos, se utiliza un conjunto de códigos de barras como región de identificación de la muestra.

Como se emplea en el presente documento, "región de inmunoglobulina" se refiere a una porción contigua de la secuencia de nucleótidos de una o ambas cadenas (pesada y ligera) de un anticuerpo.

Como se emplea en el presente documento, "región de adaptador" o "molécula adaptadora" se refiere a un conector que acopla una primera secuencia de nucleótidos a una segunda secuencia de nucleótidos. En algunos aspectos, una región de adaptador puede incluir una porción contigua de la secuencia de nucleótidos que actúa como conector. En algunos aspectos, una región de adaptador o molécula adaptadora puede incluir un sitio de unión, tal como un sitio de unión a ADNc. Por ejemplo, un sitio de unión puede tener la secuencia GGG y acopla una primera secuencia a una segunda secuencia a través de la unión entre GGG y CCC. En algunos aspectos, la región de adaptador o la molécula adaptadora pueden comprender elementos tales como un promotor de ARN polimerasa, un sitio de restricción de endonucleasa de mellado, una secuencia de cebado universal, un código de barras y un sitio de unión a ADNc.

El término "muestra" puede incluir ARN, ADN, una sola célula o múltiples células o fragmentos de células o una alícuota de fluido corporal, tomados de un sujeto (p. ej., un sujeto mamífero, un sujeto animal, un sujeto humano o un sujeto animal no humano). Las muestras pueden ser seleccionadas por un experto en la técnica utilizando cualquier medio ahora conocido o descubierto más adelante, incluyendo centrifugación, venopunción, extracción de sangre, excreción, frotamiento, eyaculación, masaje, biopsia, aspiración con aguja, muestra de lavado, raspado, incisión quirúrgica, microdisección por captura láser, separación en gradiente o intervención u otros medios conocidos en la técnica. Las muestras también pueden ser seleccionadas por un experto en la técnica utilizando uno o más marcadores que se sabe que están asociados con una muestra de interés. Las muestras también se pueden seleccionar utilizando métodos conocidos en la técnica, tales como clasificación de células y FACS.

Descripción detallada de la invención

Las realizaciones de la invención proporcionan un método como se define en las reivindicaciones ancladas para generar adaptadores con códigos de barras de ácido nucleico únicos en cada recipiente de reacción, de modo que los adaptadores con códigos de barras de ácido nucleico estén en fase acuosa pero el molde a partir del cual se generaron pueda anclarse a una superficie sólida (por ejemplo, anclados a cuentas) o estar libre en solución. Los adaptadores con códigos de barras de ácido nucleico son cualquier secuencia de polinucleótidos que comprende una secuencia de código de barras única y pueden tener modificaciones o no (por ejemplo, estar biotinilados o contener espaciadores C18) o contener polinucleótidos modificados (tales como bases de 2'-O-metil ARN).

También se describen en el presente documento composiciones generadas utilizando los métodos divulgados en el presente documento. También se describen en el presente documento bibliotecas de cuentas con moldes de adaptadores de códigos de barras, bibliotecas de gotitas de emulsión cargadas con adaptadores de códigos de barras de ARN, emulsiones que contienen bibliotecas de códigos de barras con células, bibliotecas de ADNc con códigos de barras y dispositivos generadores de gotitas de microfluidos, entre otros.

En algunas realizaciones, el molde de adaptador con código de barras es un molde de ADN de doble hebra (ADNdh) que comprende la siguiente secuencia: 5'- promotor de T7 - secuencia de cebado universal - secuencia de código de barras - secuencia de unión -3'. La secuencia del promotor de T7 permite la síntesis de un adaptador con código de barras de ARN a partir del molde mediante la ARN polimerasa de T7. La secuencia de cebado universal se utiliza para la complementariedad con los cebadores de PCR que se utilizan aguas abajo. La secuencia de unión consiste en 1 o más bases de guanina (G) y permite el emparejamiento de bases complementarias del adaptador con código de barras al extremo 3' de la 1a hebra de ADNc (FIG. 1).

Se pueden utilizar otras secuencias promotoras, tales como, sin limitarse a, secuencias promotoras de T3 y SP6, que permiten la síntesis de un adaptador con código de barras de ARN mediante las ARN polimerasas de T3 y Sp6, respectivamente. También se pueden utilizar otras ARN polimerasas que no tienen una secuencia promotora específica, siempre que se sintetice un adaptador con código de barras de longitud completa o casi completa en una gran fracción de los casos (FIG. 2A). También se puede utilizar la amplificación isotérmica, típicamente utilizando ADN polimerasas con actividad de desplazamiento de hebra, tales como fragmento grande de Bst y Klenow 3 5' exosiempre que se sinteticen adaptadores con códigos de barras de longitud completa o casi completa en una gran fracción de casos. En lugar de una secuencia promotora, se pueden utilizar secuencias de cebadores o endonucleasas de mellado específicas, según el método de amplificación isotérmica utilizado (FIG. 2B). Los adaptadores con códigos de barras así generados comprenderán nucleótidos de ADN en lugar de nucleótidos de ARN. Tanto los adaptadores con códigos de barras de ARN como los de ADN se pueden anclar a los polinucleótidos de interés.

El anclaje de adaptadores con códigos de barras al extremo de 3' de la 1a hebra de ADNc se ha descrito previamente (documento PCT/US2012/000221). Brevemente, las transcriptasas inversas de MMLV H- tienen una actividad de formación de cola de dC 3' y añaden dC que no forman parte del molde a la 1a hebra de ADNc. Si también está presente un adaptador con código de barras que termina en al menos 1 G, el adaptador puede experimentar emparejamiento de bases con la dC 3' de la 1a hebra de ADNc y la transcriptasa inversa experimenta un cambio de molde y continúa la transcripción utilizando el adaptador con código de barras como molde. La transcriptasa inversa añade así covalentemente la secuencia de código de barras al extremo 3' de la 1a hebra de ADNc a través de enlaces fosfodiéster (FIG. 3).

En algunas realizaciones, los adaptadores con códigos de barras se amplifican linealmente a partir de ADN de doble hebra (ADNdh) que contiene un promotor de T7 5' utilizando una ARN polimerasa de T7. En algunas realizaciones, los adaptadores con códigos de barras se amplifican linealmente en la misma reacción que la reacción de transcripción inversa. La amplificación de adaptadores con códigos de barras a partir de un molde de ADNdh proporciona al menos las siguientes ventajas:

1. Los moldes de adaptadores con códigos de barras se pueden anclar a las cuentas (un código de barras único por cuenta) y almacenarse en el mismo recipiente de almacenamiento

2. Se pueden suministrar múltiples copias de un adaptador con código de barras único a un recipiente de reacción sin utilizar una etapa de pipeteo individual

3. Los adaptadores con códigos de barras se amplifican, superando la cantidad limitada de polinucleótidos que se pueden anclar a cada cuenta

4. Los códigos de barras amplificados están en fase acuosa y utilizan una cinética de fase líquida mucho más rápida que la de fase sólida

También hay ventajas implicadas en el uso de un adaptador con código de barras de ARN en lugar de un adaptador con código de barras de ADN:

1. Un adaptador con código de barras de ARN puede ser más eficaz en la reacción de cambio de molde que ancla la secuencia de código de barras a los polinucleótidos de interés, ya que las transcriptasas inversas suelen utilizar ARN en lugar de ADN como molde y la transcriptasa inversa utiliza el cambio de molde in vivo para cambiar a un molde de ARN en la replicación del retrovirus.

2. El uso de un transcrito completamente de ARN como adaptador da como resultado menos fondo cuando se utilizan ADN polimerasas de corrección de errores en reacciones de PCR aguas abajo. El fondo aparece cuando el adaptador de código de barras se ceba incorrectamente e inicia la transcripción inversa, lo que da como resultado que se añadan secuencias de adaptadores de código de barras a los extremos 5' y 3' de 1a hebra de ADNc. Estas pueden amplificarse en PCR con un solo cebador complementario al adaptador de código de barras. Sin embargo, si se utilizan ADN polimerasas de corrección de errores durante la PCR, no transcribirán el cebador de ARN (FIG. 4), eliminando el fondo del cebado incorrecto del adaptador de código de barras.

Debido a la gran cantidad de reacciones de códigos de barras involucradas, la secuenciación NextGen es más adecuada para secuenciar los ácidos nucleicos con códigos de barras para asociar bioinformáticamente los ácidos nucleicos del mismo recipiente de reacción entre sí. Se pueden asociar códigos de barras adicionales con un conjunto de muestras que son distintas de otro conjunto de muestras y se pueden asociar mediante cebadores de PCR con secuencias de códigos de barras únicas. Estos códigos de barras adicionales también se conocen como ID de placa. Los ID de placa confieren ventajas tales como la distinción entre diferentes conjuntos de muestras en la misma ronda de secuenciación, o el seguimiento bioinformático y la eliminación de cualquier contaminación potencial entre diferentes conjuntos de muestras.

Puesto que los errores de secuenciación de PCR y NextGen son inevitables, los códigos de barras descritos en el presente documento se pueden diseñar para que estén a una distancia razonable (p. ej., Hamming o distancia de edición) en el espacio de la secuencia, de modo que las secuencias de dos códigos de barras difieran entre sí en al menos varios nucleótidos. Por lo tanto, la mayoría de las lecturas de secuenciación de códigos de barras se pueden asignar correctamente, con un pequeño porcentaje de códigos de barras sin asignar o mal asignados.

En algunas realizaciones, las secuencias de código de barras predeterminadas se diseñan con una separación mínima de Hamming o de edición. En algunas realizaciones, los códigos de barras comprenden nucleótidos aleatorios, tales como (N)15, lo que da como resultado un espacio total posible de 415, o ~1 millardo de secuencias de códigos de barras únicas. Si el número de muestras que se registrar con códigos de barras es mucho menor que este espacio total, p. ej. 1 millón, o 0,1% del espacio total del código de barras, los autores de la presente invención esperan que los códigos de barras estén a una distancia suficiente entre sí para que la mayoría de los códigos de barras se asignen correctamente.

Siempre que la tasa de asignación incorrecta sea lo suficientemente baja, las lecturas de secuenciación asignadas incorrectamente se pueden detectar y descartar simplemente ya que los ácidos nucleicos conectados a la secuencia de código de barras asignada incorrectamente son diferentes de la secuencia consenso. autores de la presente invención esperarían que la secuencia consenso para cada gen (p. ej., cadena pesada gamma, cadena alfa de TCR) asociada a una secuencia de código de barras se ensamblara a partir de lecturas asignadas correctamente, ya que las secuencias de código de barras se diseñaron para estar separadas por una distancia suficiente.

Las muestras en los recipientes de reacción se pueden registrar con códigos de barras con un código de barras único o con un conjunto de códigos de barras único. Se puede utilizar un conjunto de códigos de barras único, p. ej., suministrando dos o más cuentas con moldes de adaptadores de códigos de barras por recipiente de reacción, y cada ácido nucleico de una muestra tiene un código de barras con uno de los códigos de barras del conjunto de códigos de barras único. A continuación, los ácidos nucleicos se asocian a una muestra mediante el uso de un conjunto de códigos de barras único.

Un método para distinguir qué conjuntos de códigos de barras se utilizan para qué muestras es examinar las lecturas de la secuenciación NextGen. Se espera que cada secuencia de código de barras se asocie con cóntigos ensamblados de diferentes muestras, ya que las secuencias de códigos de barras se reutilizan en conjuntos de códigos de barras únicos. Pero se espera que los cóntigos de la misma muestra sean idénticos. Por ejemplo, se puede observar que los cóntigos de cadena pesada gamma de inmunoglobulina idénticos utilizan secuencias de códigos de barras a, b y c. Y se puede observar que las secuencias de códigos de barras a, b y d están asociadas con otro cóntigo de cadena pesada gamma de inmunoglobulina. A partir de esto, los autores de la presente invención pueden concluir que a, b y c comprenden el conjunto de códigos de barras 1, y a, b y d el conjunto de códigos de barras 2.

En algunas realizaciones, una biblioteca de cuentas con moldes de adaptadores de códigos de barras de n secuencias de códigos de barras únicas es lo suficientemente diversa como para registrar con códigos de barras n muestras de códigos de barras de manera que la mayoría de las muestras están registradas con un código de barras único o un conjunto de códigos de barras único. Si el número de cuentas con moldes con adaptadores de códigos de barras supera con creces n, el muestreo con reemplazo se puede aproximar, y el número de muestras registradas con códigos de barras con un código de barras único, U sigue la distribución binomial y viene dado por:

Donde k = 1, y p = 1/N.

La fracción de muestras que no están registradas con códigos de barras con un código de barras único (y por lo tanto tienen dos o más muestras asociadas entre sí) viene dada por

La relación entre N, n y la fracción de muestras que no están registradas con códigos de barras con un código de barras único se proporciona en la Tabla 1.

Tabla 1. Fracción de muestras sin registro con códigos de barras con un código de barras único

Como se puede observar, si N = 10n, >90% de las muestras se registraran con códigos de barras con un código de barras único.

El número de muestras registradas con códigos de barras con un conjunto de códigos de barras único, U^set, con X ^{códigos de barras en un conjunto también sigue la distribución binomial, y se puede considerar como una biblioteca} _{de códigos de barras con}n _KxJ _{combinaciones únicas de códigos de barras (se supone que N es lo suficientemente}grande como para que la combinación sea esencialmente sin repetición), con nx códigos de barras utilizados para registrar con códigos de barras n muestras y viene dado por:

donde k= 1, y p = i/Q f)

i Use t !

1 / n

La relación entre N, n, x y la fracción de muestras sin registro con código de barras con un código de barras único se proporciona en las Tablas 2 y 3.

Tabla 2. Fracción de muestras sin registro con códigos de barras con un conjunto de códigos de barras único cuando X = 2

Tabla 3. Fracción de muestras sin registro con códigos de barras con un conjunto de códigos de barras único cuando X = 3

Como se puede observar, cuando se utilizan conjuntos de códigos de barras únicos en lugar de códigos de barras únicos, se requiere una cantidad mucho menor de códigos de barras únicos en la biblioteca de adaptadores de códigos de barras para registrar con códigos de barras una cantidad similar de muestras, de modo que la mayoría de las muestras se puedan identificar con un conjunto de códigos de barras único.

I. Métodos

A. Producción de polinucleótidos de interés

En algunos aspectos, la presente invención proporciona métodos para producir uno o más polinucleótidos de interés. Tales polinucleótidos pueden ser ácidos nucleicos registrados con códigos de barras, por ejemplo, ADNc o amplicones de ADN que contienen códigos de barras, en donde un código de barras o un conjunto de códigos de barras comunes indican que un grupo de polinucleótidos se obtiene a partir de la misma muestra. De acuerdo con los métodos, se obtiene una pluralidad de ARN asociados con una o más muestras como se describe a continuación. Los ARN asociados con cada muestra están presentes en un volumen de reacción separado. A continuación, se añade una molécula adaptadora a los ARN asociados con cada muestra para incorporar una secuencia de código de barras en uno o más polinucleótidos obtenidos a partir de los ARN.

Para maximizar la cinética de reacción del registro con códigos de barras, el adaptador de códigos de barras está preferiblemente libre en solución antes o en el momento en que se añade a los ARN. La adición del adaptador de códigos de barras se puede lograr pipeteando, vertiendo un volumen de reacción en otro o fusionando dos o más volúmenes de reacción. Por ejemplo, el adaptador de códigos de barras se puede generar y/o encapsular en un volumen de reacción, que a continuación se puede combinar con otro volumen de reacción que contenga ARN asociados con una muestra (FIG. 5A-C). En la presente invención, el adaptador de códigos de barras añadido a los ARN de una muestra se genera in situ en el volumen de reacción donde están presentes los ARN.

En la presente invención, los adaptadores de códigos de barras se generan enzimáticamente a partir de moldes de adaptadores de códigos de barras. Un molde de adaptador de código de barras puede ser una molécula de ADN de doble hebra que contenga una secuencia de código de barras, así como otras regiones de secuencia para facilitar la generación del adaptador de código de barras y el posterior registro con códigos de barras de los ácidos nucleicos (FIG. 1). Los moldes de adaptadores de códigos de barras se pueden preparar utilizando técnicas de clonación molecular convencionales. En algunas realizaciones, un molde de adaptador de código de barras incluye un promotor para la ARN polimerasa (ARNP), tal como un promotor de T7, T3 o SP6. A continuación, se puede generar un adaptador de código de barras de ARN poniendo en contacto la molécula molde con una ARNP apropiada y permitiendo que se produzca la transcripción in vitro (FIG. 2A). En algunas realizaciones, un molde de adaptador de código de barras incluye un sitio de restricción de endonucleasa de mellado, tal como un sitio Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI o Nt.BsmAI. Los adaptadores de códigos de barras de ADN se pueden generar a partir de un molde de este tipo poniendo en contacto el molde con una endonucleasa de mellado específica para el sitio de restricción y a continuación exponiendo el molde a una ADN polimerasa de desplazamiento de hebra (FIG. 2B). Los ejemplos de ADN polimerasas de desplazamiento de hebra adecuadas incluyen el fragmento de Klenow exo-, el fragmento grande de Bst y variantes modificadas genéticamente de los mismos. En general, los adaptadores de códigos de barras se generan a partir de moldes de adaptadores de códigos de barras poniendo en contacto los moldes con una o más enzimas. En algunas realizaciones, las reacciones enzimáticas son reacciones isotérmicas.

Un molde de adaptador de código de barras puede estar libre en solución cuando se utiliza para generar adaptadores de códigos de barras, o puede estar unido a un soporte sólido. Los ejemplos de soportes sólidos que se pueden utilizar en las realizaciones de los presentes métodos y composiciones incluyen cuentas, resinas cromatográficas, placas multipocillo, tubos de microcentrífuga u otros objetos que tienen superficies sólidas. Un molde de adaptador de código de barras se puede unir a un soporte sólido utilizando cualquier mecanismo o química de captura deseados, por ejemplo, una interacción biotina-avidina, biotina-estreptavidina u oro-tiol. En algunas realizaciones, cualquier soporte sólido al que se ancla un molde de adaptador de código de barras se pone en contacto con una solución acuosa, y las moléculas adaptadoras de códigos de barras generadas a partir del molde se liberan a esta solución a medida que se generan. (FIG. 6A, 6B, 7A-D). La solución acuosa puede estar en el mismo volumen de reacción que las moléculas de ARN asociadas con la muestra a la que se va a añadir la molécula adaptadora de código de barras. Es decir, la molécula adaptadora de código de barras se puede generar in situ para la reacción de registro con códigos de barras. Alternativamente, la solución acuosa que contacta con el soporte sólido para un molde de adaptador de código de barras se puede mantener en un volumen de reacción diferente de los ARN diana, y los adaptadores de códigos de barras generados a partir del molde se pueden añadir a estos ARN al combinar los dos volúmenes de reacción.

En algunas realizaciones, los adaptadores de códigos de barras se generan escindiendo moldes de adaptadores de códigos de barras de un soporte sólido. (FIG. 7B y 7D). Las moléculas molde pueden contener sitios de restricción de endonucleasas que facilitan la escisión de las moléculas molde tras la exposición a una enzima apropiada (p. ej., una endonucleasa de restricción). La molécula de ácido nucleico que se libera a la solución tras dicha escisión puede servir como adaptador de código de barras y participar directamente en una reacción de registro con códigos de barras, o puede someterse a otras reacciones enzimáticas (p. ej., transcripción in vitro) para generar moléculas adaptadoras.

En un aspecto descrito en el presente documento, independientemente de cómo se generen las moléculas adaptadoras de códigos de barras, se pueden preparar bibliotecas de estas moléculas para registrar con códigos de barras ácidos nucleicos de muchas muestras. Las moléculas adaptadoras se pueden segregar en diferentes volúmenes de reacción, de modo que cada volumen de reacción contenga, por ejemplo, una molécula adaptadora como promedio. Alternativamente, cada volumen de reacción puede contener múltiples copias de una molécula adaptadora, en donde cada copia contiene la misma secuencia de código de barras. Los volúmenes de reacción pueden ser gotitas de microfluido o pueden encerrarse en tubos de microcentrífuga u otros recipientes.

Una molécula adaptadora de código de barras puede incluir, además de una secuencia de código de barras, una secuencia de cebado universal o una región de cebado universal y un sitio de unión, como se describe a continuación en "Composiciones". La molécula adaptadora también puede incluir una secuencia de identificador molecular único (UMI). En algunas realizaciones, una secuencia UMI contiene nucleótidos aleatorizados y se incorpora al adaptador de código de barras (o al molde de adaptador de código de barras a partir de la cual se genera el adaptador) independientemente de la secuencia de código de barras. Por lo tanto, un conjunto de moléculas adaptadoras de códigos de barras que contienen la misma secuencia de código de barras puede contener diferentes secuencias UMI. En realizaciones donde el conjunto de moléculas adaptadoras de códigos de barras que contienen la misma secuencia de código de barras, pero diferentes secuencias UMI se añade a los ARN asociados con una muestra, cada secuencia de ARN puede conectarse a una secuencia UMI diferente durante el registro con códigos de barras de barras. Los métodos para preparar cuentas con moldes de adaptadores de códigos de barras con secuencias UMI, en donde las moléculas de los moldes en cada cuenta contienen la misma secuencia de código de barras y una biblioteca de diferentes secuencias UMI, se divulgan a continuación en los Ejemplos 12 y 13.

Un adaptador de código de barras también puede ser de hebra sencilla o de doble hebra. Si es de doble hebra, el adaptador de código de barras puede tener uno o más extremos romos o extremos con salientes de hebra sencilla.

En aspectos ilustrativos descritos en el presente documento, el adaptador de código de barras es una molécula de ADN de hebra sencilla y sirve como cebador para la transcripción inversa. El adaptador de código de barras se puede generar utilizando una ADN polimerasa (ADNP). Aquí, el sitio de unión del adaptador de código de barras es un sitio de unión a ARN (p. ej., un sitio de unión a ARNm) y contiene una región de secuencia complementaria a una región de secuencia en uno o más ARN. En algunos aspectos descritos en el presente documento, el sitio de unión es complementario a una región de secuencia común a todos los ARN en la muestra a la que se añade el adaptador de código de barras. Por ejemplo, el sitio de unión puede ser un tramo de poli-T, que es complementario a las colas de poli-A de los ARNm eucarióticos (FIG. 8). Como alternativa o adicionalmente, el sitio de unión puede incluir un tramo de secuencia aleatoria (FIG. 9). Al añadir el adaptador de código de barras a los ARN asociados con una muestra, se puede producir la transcripción inversa y se pueden sintetizar las primeras hebras de ADNc, de modo que la secuencia de código de barras se incorpore a las primeras hebras de ADNc. Se reconocerá que la transcripción inversa requiere condiciones apropiadas, por ejemplo, la presencia de un tampón apropiado y una enzima transcriptasa inversa, y temperaturas apropiadas para la reasociación del adaptador de código de barras con los ARN y la actividad de la enzima. También se reconocerá que la transcripción inversa, que implica un cebador de ADN y un molde de ARN, es más eficaz cuando el extremo 3' del cebador es complementario al molde y se puede reasociar directamente con el molde. En consecuencia, el adaptador de código de barras se puede diseñar de modo que el sitio de unión se produzca en el extremo 3' de la molécula adaptadora.

Cuando el adaptador de código de barras se utiliza como cebador para la síntesis de la primera hebra de ADNc en la transcripción inversa, y en otros aspectos de los presentes métodos que implican transcripción inversa (descritos a continuación), la reacción de transcripción inversa puede ocurrir en el mismo volumen de reacción en el que se genera el adaptador de código de barras. Por lo tanto, el adaptador de código de barras se puede añadir a una muestra, o los ARN asociados con la muestra, en el momento en que se genera el adaptador de código de barras. Por ejemplo, una gotita de microfluido puede contener una cuenta a la que se unen los moldes de adaptadores de códigos de barras y una célula (FIG. 10). Las moléculas adaptadoras de códigos de barras se pueden generar si una o más enzimas, tales como una endonucleasa de mellado, una ADN polimerasa de desplazamiento de hebra o una ARN polimerasa, también están presentes en la gotita. A continuación, se puede producir la transcripción inversa si los reactivos de lisis están presentes en la gotita para liberar los ARN de la célula, y si están presentes la transcriptasa inversa, los cebadores y otros reactivos apropiados. Las enzimas y los reactivos para generar adaptadores de códigos de barras y facilitar la lisis y la transcripción inversa se pueden añadir a la gotita de una sola vez, por ejemplo, fusionando una gotita que contiene las enzimas y los reactivos con la gotita que contiene la cuenta y la célula, o se pueden añadir por etapas.

En algunas realizaciones de los presentes métodos, los ARN asociados con cada muestra se transcriben inversamente pero el adaptador de código de barras no ceba la síntesis de la primera hebra ADNc. En su lugar, se utiliza un cebador de ADN convencional que contiene un tramo de poli-T, una secuencia aleatoria u otro sitio de unión al ARN. En estas realizaciones, el adaptador de código de barras se puede generar en el mismo compartimento o volumen de reacción donde se produce la síntesis de la primera hebra de ADNc. En este caso, puede ser beneficioso incluir un tampón en el volumen de reacción con Tris, iones de potasio, iones de cloruro, iones de sulfato, iones de amonio, iones de ácido acético y/o iones de magnesio a un pH de aproximadamente 8,0 a 8,8. Sin embargo, independientemente de cómo se añada el adaptador de código de barras a los ARN asociados con una muestra, el adaptador de código de barras puede participar en reacciones de códigos de barras enzimáticas durante o inmediatamente después de la síntesis de la primera hebra de ADNc.

Como se describió anteriormente, los presentes métodos pueden emplear una enzima transcriptasa inversa (por ejemplo, transcriptasa inversa de MMLV H-) que añade uno o más nucleótidos que no forman parte del molde (tales como C) al extremo de una hebra de ADNc naciente al llegar al extremo 5' del ARN molde. Estos nucleótidos forman un saliente de ADN 3' en un extremo del dúplex ARN/ADN. Si una segunda molécula de ARN contiene una región de secuencia, por ejemplo, un tramo de poli-G en su extremo 3', que es complementaria a los nucleótidos que no forman parte del molde y se une a los nucleótidos que no forman parte del molde, la transcriptasa inversa puede cambiar de molde y continuar extendiendo el ADNc, ahora utilizando la segunda molécula de ARN como molde. Tal segunda molécula de ARN se denomina en el presente documento y se conoce en la técnica como oligonucleótido de cambio de molde.

En realizaciones de los presentes métodos, el adaptador de código de barras sirve como un oligonucleótido de cambio de molde para la transcripción inversa (FIG. 3). Por lo tanto, la secuencia de código de barras se incorpora a la primera hebra de ADNc después del cambio de molde y está presente en las moléculas de ADN resultantes de la amplificación (por ejemplo, por PCR) de la primera hebra de ADNc. En estas realizaciones, puede utilizarse cualquier transcriptasa inversa que tenga actividad de cambio de molde. El sitio de unión del adaptador de código de barras es un sitio de unión a ADNc y preferiblemente se encuentra en el extremo 3' de la molécula adaptadora. El sitio de unión puede incluir un tramo de G (que comprende uno o más nucleótidos de G) o cualquier otra secuencia que sea al menos parcialmente complementaria a la del saliente 3' generado por la transcriptasa inversa. Se reconocerá que la secuencia saliente y, por lo tanto, una secuencia apropiada para el sitio de unión del adaptador de código de barras, puede depender de la elección de la transcriptasa inversa utilizada en el método.

En otros aspectos descritos en el presente documento, los ARN asociados con cada muestra se transcriben inversamente, pero no se incorpora en absoluto una secuencia de código de barras a la primera hebra de ADNc. Es decir, el adaptador de código de barras no sirve como cebador para la síntesis de la primera hebra de ADNc ni como oligonucleótido de cambio de hebra. Más bien, el adaptador de código de barras sirve como cebador para la amplificación por PCR de la primera hebra de ADNc o su complemento. En estos aspectos, el ADNc se amplifica utilizando un cebador directo y un cebador inverso, donde el cebador inverso tiene la misma secuencia que al menos una porción del cebador para la síntesis de la primera hebra de ADNc. El adaptador de código de barras puede ser el cebador directo o el cebador inverso, y es un oligonucleótido de ADN de hebra sencilla. Cuando el adaptador de código de barras es el cebador directo, se puede reasociar con una parte de la primera hebra de ADNc (o su complemento) como resultado de la extensión del ADNc después del cambio de hebra (FIG. 11). Alternativamente, el adaptador de código de barras se puede reasociar con una parte de la primera hebra de ADNc que forma parte del molde sobre un ARN de la muestra. Por lo tanto, no es necesario que ocurra el cambio de molde ni la adición de un oligonucleótido de cambio de molde al volumen de reacción para la muestra para llevar a cabo estas realizaciones de la invención. Cuando el adaptador de código de barras es el cebador inverso, se puede utilizar junto con cualquier cebador para la síntesis de la primera hebra de ADNc, incluido un cebador que incluye una secuencia aleatoria (FIGS. 12 y 13).

Los métodos de la presente invención se pueden poner en práctica con cualquier muestra deseada. En algunas realizaciones, cada muestra incluye una célula y puede ser, por ejemplo, una sola célula. Una célula se puede encerrar en un volumen de reacción tal como una gotita de microfluido y, si se desea, se puede lisar para liberar moléculas de ARN al volumen de reacción. Para este propósito, la célula puede ponerse en contacto con un tampón de lisis en cualquier momento conveniente. La célula puede ser una célula B, por ejemplo, un plasmablasto, una célula B de memoria o una célula plasmática, o cualquier otro tipo de célula.

Los autores de la presente invención han descubierto que las células se pueden suspender ventajosamente en un tampón de suspensión celular que comprende un osmoprotector antes de la lisis. El osmoprotector puede proteger las células del estrés osmótico y garantizar que la fisiología celular permanezca estable o sin alteraciones antes del registro con códigos de barras. En algunas realizaciones, las células se suspenden en el tampón de suspensión de células junto con moléculas adaptadoras de códigos de barras y/o moldes de adaptadores de códigos de barras. En algunas realizaciones, las células se suspenden en el tampón de suspensión celular antes de ponerse en contacto con reactivos para transcripción inversa, PCR y/o lisis. El tampón de suspensión celular se puede incluir en cualquier volumen de reacción y es compatible con los métodos descritos en el presente documento para formar y combinar volúmenes de reacción acuosos.

En algunas realizaciones, el osmoprotector en el tampón de suspensión celular es una betaína o un análogo estructural cercano de la misma. Los ejemplos de betaínas y análogos estructurales cercanos incluyen glicina betaína (también llamada N,N,N-trimetilglicina), prolina betaína (también llamada estaquidrina), beta-alanina betaína, ectoína, colina-O-sulfato, trigonelina, dimetilsulfoniopropionato (DMSP), y dimetiltetina. En algunas realizaciones, el osmoprotector es glicina betaína. Además de servir como osmoprotectores, se ha demostrado que las betaínas reducen la formación de estructuras secundarias en la PCR y mejoran la especificidad de la amplificación. Por lo tanto, puede ser generalmente beneficioso incluir betaínas en los presentes métodos.

En algunas realizaciones, el osmoprotector es un azúcar o un poliol, tal como trehalosa. Otros azúcares o polioles útiles incluyen sacarosa, fructosa, rafinosa, manitol y mioinositol. En algunas realizaciones, el osmoprotector es un aminoácido tal como prolina. Se puede incluir un solo osmoprotector en el tampón de suspensión celular, o se pueden incluir múltiples osmoprotectores combinados. Cada osmoprotector puede estar presente a cualquier concentración útil. En algunas realizaciones, la osmolaridad del tampón de suspensión celular es de aproximadamente 250-350 mOsm/L. En algunas realizaciones, el osmoprotector contribuye hasta 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% o 100% de la osmolaridad del tampón. Un tampón de suspensión celular ilustrativo utilizado en el presente documento (véanse, p. ej., los Ejemplos 7-9, 11 y 14) incluye betaína aproximadamente 230-330 mM y NaCl aproximadamente 10 mM.

En realizaciones en las que cada muestra incluye al menos una célula, los ARN asociados con la muestra pueden incluir ARNm. La muestra puede incluir, por ejemplo, al menos 1, 3, 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000 de moléculas de ARNm, que pueden representar cualquier número de genes, alelos, marcos de lectura, o secuencias distintas. En algunas realizaciones, los ARN asociados con la muestra incluyen todos los ARNm de la muestra, un transcriptoma total o parcial de la célula o el ARN total de la célula.

Se reconocerá que se pueden registrar con códigos de barras más ARN por muestra y se pueden producir más polinucleótidos de interés si se pueden suministrar cantidades mayores de moléculas adaptadoras de códigos de barras al volumen de reacción para cada muestra. Sin embargo, sin estar ligado a ninguna teoría, los presentes métodos no imponen límites al número de ARN que se pueden registrar con códigos de barras por muestra. En consecuencia, el número de polinucleótidos de interés producido por muestra puede ser al menos 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000. Cada polinucleótido de interés puede estar presente en múltiples copias. Además, la cantidad de células o muestras que se pueden registrar con códigos de barras en una ejecución del método está limitada solo por los desafíos (discutidos anteriormente) de preparar muchos moldes de adaptadores de códigos de barras con secuencias de códigos de barras únicas. En algunas realizaciones, las una o más muestras incluyen al menos 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000 de células. Las muestras (por ejemplo, cada una de las cuales es una sola célula) se pueden obtener del mismo sujeto o de diferentes sujetos. Por ejemplo, al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90 o 100 sujetos diferentes pueden proporcionar muestras.

Como se describe en el presente documento, los presentes métodos también se pueden utilizar para interrogar a una población de células en busca de un fenotipo de interés utilizando un marcador de ácido nucleico. El marcador de ácido nucleico incluye un ácido nucleico conectado a un aglutinante, que se puede unir específicamente a un subconjunto de células de la población que presenta o no el fenotipo. Por ejemplo, el aglutinante puede unirse a ciertas proteínas, glicoproteínas, glicolípidos u otros radicales presentes sobre las superficies de algunas células. En algunas realizaciones, el aglutinante es una marca molecular tal como un anticuerpo, antígeno o proteína (FIG. 14A-C). En algunos aspectos descritos en el presente documento, el aglutinante es un complejo péptido-MHC. El ácido nucleico se puede conectar al aglutinante de forma covalente, utilizando un radical de captura no covalente, o de otro modo según se desee.

Para interrogar a las células por el fenotipo, las células se ponen en contacto con el marcador de ácido nucleico y a continuación se lavan. Por lo tanto, el marcador de ácido nucleico se retiene solo en las células a las que se une el aglutinante. A continuación, las células pueden encerrarse en volúmenes de reacción y lisarse como se describe anteriormente, de modo que los ARN de las células puedan registrarse con códigos de barras. Durante la reacción de registro con códigos de barras, el ácido nucleico del marcador de ácido nucleico también se registra con código de barras, de modo que la secuencia del marcador aparece en los datos de secuenciación del ARN o del amplicón para una célula que retiene el marcador. En algunos aspectos descritos en el presente documento, el ácido nucleico del marcador de ácido nucleico es una molécula de ARN con una secuencia no endógena para las células de la población. En algunos aspectos descritos en el presente documento, el ácido nucleico es una molécula de ADN de doble hebra que comprende un promotor ARNP. Por lo tanto, el ácido nucleico se puede transcribir mientras está en el mismo volumen de reacción que la célula (o un producto lisado de la misma), y las moléculas de ARN resultantes se pueden registrar con códigos de barras junto con los ARN de la célula.

Las células se pueden interrogar en busca de múltiples fenotipos utilizando múltiples marcadores de ácido nucleico, cada uno de los cuales incluye un aglutinante diferente conectado a una secuencia de ácido nucleico diferente. Por ejemplo, las células pueden ponerse en contacto con un primer marcador de ácido nucleico y un segundo marcador de ácido nucleico, en donde cada marcador de ácido nucleico incluye una marca molecular conectada a un ácido nucleico. Las marcas moleculares de los dos marcadores de ácido nucleico pueden ser diferentes entre sí (por ejemplo, ser proteínas diferentes o tener afinidades por diferentes radicales de la superficie celular). Los ácidos nucleicos conectados a estas marcas moleculares pueden contener secuencias que difieren entre sí en todo o en parte. Las células pueden ponerse en contacto con dos o más marcadores de ácido nucleico simultánea o secuencialmente.

Como otro ejemplo, se pueden conectar tres anticuerpos a diferentes secuencias de ARN no endógeno, y los datos de secuenciación de registro con códigos de barras para las células tratadas con estos anticuerpos pueden revelar si cada célula presenta dianas para ninguno, algunos o todos los anticuerpos. El número de copias de los amplicones con registrados con códigos de barras también puede revelar fenotipos por grado, por ejemplo, las abundancias relativas de un radical de la superficie celular sobre diferentes células, donde el marcador de ácido nucleico se dirige al radical.

B. Anclaje de polinucleótidos a soportes sólidos - descrito en el presente documento con fines ilustrativos

Otro aspecto de la presente divulgación consiste en métodos para anclar un polinucleótido a un soporte sólido, en donde el polinucleótido contiene una secuencia de código de barras. El polinucleótido puede ser un molde de adaptador de código de barras o un precursor de tal molde. Por lo tanto, el polinucleótido se puede utilizar como se describe anteriormente para generar enzimáticamente adaptadores de códigos de barras e incorporar las secuencias de códigos de barras a amplicones obtenidos a partir de ARN.

En algunos aspectos descritos en el presente documento, los métodos implican generar un compartimento hidrófilo (es decir, una gotita acuosa) de una emulsión inversa. El compartimento se puede generar como se desee, por ejemplo, mezclando una solución acuosa en un fluido portador hidrófobo y, opcionalmente, agitando la mezcla. La solución acuosa puede tener un soporte sólido, oligonucleótidos y reactivos suspendidos en ella, de modo que cada compartimento contenga todos los componentes necesarios para anclar el polinucleótido al soporte sólido cuando se forma el compartimento. En estos aspectos descritos en el presente documento, antes de añadir el soporte sólido al compartimento, se une un oligonucleótido a la superficie del soporte sólido a través de un radical de captura. Este oligonucleótido se denomina en el presente documento "oligonucleótido unido" y contiene una secuencia 3' complementaria a una secuencia 3' de un oligonucleótido de código de barras. El polinucleótido se forma así sobre el soporte sólido a través de una reacción de extensión de polimerasa que implica al oligonucleótido unido y al oligonucleótido de código de barras, y esta reacción tiene lugar dentro del compartimento.

En algunos aspectos descritos en el presente documento, cuando se forma el compartimento hidrófilo, el oligonucleótido de código de barras está presente a una concentración baja o limitante (por ejemplo, una molécula por compartimento). Esta concentración es conveniente cuando se utiliza una biblioteca de oligonucleótidos de código de barras que tienen secuencias aleatorizadas para preparar una pluralidad de cuentas con moldes de código de barras. Si se supone que cada oligonucleótido de código de barras tiene una secuencia de código de barras diferente, y se desea que el soporte sólido en cada compartimento tenga solo una secuencia de código de barras, en ese caso puede estar presente un oligonucleótido de código de barras (como máximo o como promedio) por compartimento. Una vez que se cumple esta condición, pueden estar presentes múltiples soportes sólidos (p. ej., múltiples cuentas) en un compartimento, o pueden unirse múltiples copias del oligonucleótido unido a cada soporte sólido, pero todos los polinucleótidos resultantes de la reacción de extensión de polimerasa en el compartimento contendrán la misma secuencia de código de barras.

Los soportes sólidos preferidos para su uso en los presentes métodos son cuentas, por ejemplo, cuentas esféricas elaboradas de metales y/o materiales poliméricos y que tienen diámetros en el rango de ~0,1 a 10 micrómetros. Se pueden utilizar, en su lugar o adicionalmente, cuentas que tengan otras características. El soporte sólido se puede funcionalizar con un radical de captura para anclar el oligonucleótido unido a la superficie (FIG. 15, parte izquierda). Los ejemplos de radicales de captura incluyen avidina, estreptavidina, biotina, grupos carboxilo, grupos epoxi, grupos hidroxilo, grupos tiol y oro. Algunos radicales de captura tienen compañeros de unión a los que se unen de forma específica y no covalente. Por ejemplo, la estreptavidina toma biotina como su compañero de unión. Tal radical de captura se puede acoplar directamente (p. ej., covalentemente) al soporte sólido, y el compañero de unión se puede acoplar al oligonucleótido unido, o viceversa, de modo que el oligonucleótido unido se una al soporte sólido a través de una interacción no covalente. Otros radicales de captura proporcionan una conexión covalente directa entre el oligonucleótido unido y el soporte sólido.

El oligonucleótido unido es preferiblemente una molécula de ADN de hebra sencilla que está unida al soporte sólido en su extremo 5'. Por lo tanto, el extremo 3' del oligonucleótido unido está libre en solución y, cuando hibrida con el oligonucleótido de código de barras, puede extenderse mediante una enzima tal como la ADN polimerasa. Para la reacción de extensión se utiliza como molde el oligonucleótido de código de barras, de modo que la secuencia de código de barras se incorpore a la hebra de ADN unida a la cuenta. Si se desea, el oligonucleótido unido y/o el oligonucleótido de código de barras pueden tener secuencias diseñadas para minimizar la estructura secundaria intramolecular.

El oligonucleótido de código de barras puede contener regiones de secuencia discutidas anteriormente, tales como una secuencia de cebado universal y/o un sitio de unión. Al realizar una reacción de extensión del cebador con el oligonucleótido unido y el oligonucleótido de código de barras, estas regiones de secuencia se incorporarán al polinucleótido unido al soporte sólido. Si el polinucleótido se utiliza posteriormente como molde de adaptador de código de barras, las regiones de secuencia también estarán presentes en las moléculas adaptadoras de códigos de barras generadas a partir del molde. Se pueden incluir otras secuencias, tales como un promotor ARNP y/o un sitio de restricción de endonucleasa de mellado, en el oligonucleótido de código de barras para facilitar la producción enzimática de moléculas adaptadoras de códigos de barras. El promotor de ARNP se puede seleccionar del grupo que consiste en promotores de T7, T3 y SP6. El sitio de restricción de la endonucleasa de mellado se puede seleccionar del grupo que consiste en los sitios Nt.BbvCI, Nt.BspQI, Nt.BsmAI, Nt.BstNBI, Nt.AlwI y Nt.BsmAI. El sitio de unión dentro del oligonucleótido de código de barras puede contener uno o más nucleótidos de G.

En algunos aspectos descritos en el presente documento, la secuencia de código de barras y otras regiones de la secuencia se incorporan al oligonucleótido unido y/o al polinucleótido anclado al soporte sólido mediante PCR (FIG.

15, parte derecha). En estas realizaciones, el oligonucleótido de código de barras sirve como molde para la PCR, y el oligonucleótido unido sirve como cebador, procediendo la extensión enzimática del oligonucleótido unido de su extremo 3'. El oligonucleótido de código de barras también incluye una secuencia 5' idéntica o complementaria a una secuencia de cebador inverso de PCR. Por tanto, un cebador inverso se puede reasociar al extremo 5' del oligonucleótido de código de barras (o su complemento) y cebar la extensión en una dirección opuesta a la del oligonucleótido unido. Si se desea, este cebador inverso se puede marcar con fluoróforo, de modo que los polinucleótidos generados por PCR y anclados al soporte sólido sean fluorescentes. La marca se puede utilizar para determinar si un soporte sólido (por ejemplo, una cuenta) se ha anclado con éxito a un polinucleótido que incluye la secuencia de código de barras.

Los métodos anteriores se pueden realizar en una sola etapa. En otros aspectos de los métodos descritos en el presente documento, un polinucleótido que contiene una secuencia de código de barras se ancla a un soporte sólido en múltiples etapas. En estos aspectos, la secuencia de código de barras se compone de varias regiones de secuencia, por ejemplo, regiones S1x, W y S2y. Estas regiones de secuencia pueden introducirse en el polinucleótido como parte de dos o más oligonucleótidos de código de barras, utilizándose cada oligonucleótido de código de barras en una etapa o reacción enzimática separadas. En el polinucleótido resultante de las etapas separadas, las regiones S1x, W y S2y no son necesariamente contiguas. Se pueden combinar varias secuencias S1x, W y S2y sobre diferentes soportes sólidos para formar diferentes secuencias de códigos de barras o bibliotecas de secuencias de códigos de barras.

Para anclar un polinucleótido a un soporte sólido en múltiples etapas, donde el polinucleótido contiene una secuencia de código de barras, se proporcionan un soporte sólido y un oligonucleótido unido al soporte sólido como se describe anteriormente. El soporte sólido y el oligonucleótido unido se pueden proporcionar en un compartimento hidrófilo de una emulsión o en cualquier otro volumen de reacción deseado. También se proporciona un primer oligonucleótido de código de barras (FIG. 16, parte superior y media). El oligonucleótido unido comprende una secuencia S1x y una secuencia complementaria a una secuencia 3' del primer oligonucleótido de código de barras. El primer oligonucleótido de código de barras comprende una secuencia W. En la primera etapa del procedimiento de múltiples etapas, se realiza una reacción de extensión de polimerasa o una reacción de ligación para incorporar la secuencia W al oligonucleótido unido. Así, después de esta etapa, la secuencia S1x y la secuencia W están presentes en la misma hebra de ácido nucleico unida al soporte sólido. Si se utiliza una reacción de extensión, el oligonucleótido unido puede servir como cebador y el primer oligonucleótido de código de barras puede servir como molde, como se explicó anteriormente para el procedimiento de una sola etapa, de modo que el oligonucleótido unido se extienda desde su extremo 3'. En algunas realizaciones, una porción del primer oligonucleótido de código de barras que es complementaria a la secuencia S1x en el oligonucleótido unido contiene un tramo de inosina.

Posteriormente, se proporciona un segundo oligonucleótido de código de barras para incorporar una secuencia S2y en el oligonucleótido unido (FIG. 16, parte inferior). El segundo oligonucleótido de código de barras comprende la secuencia S2y, así como una secuencia 3' complementaria al extremo 3' del oligonucleótido unido resultante de la primera etapa del procedimiento de múltiples etapas. Por tanto, el segundo oligonucleótido de código de barras puede incluir una región de secuencia complementaria o idéntica a una porción del primer oligonucleótido de código de barras. El segundo oligonucleótido de código de barras se hace reaccionar con el oligonucleótido unido (ahora ampliado para incluir tanto la secuencia S1x como la secuencia W) a través de una reacción de extensión de polimerasa o una reacción de ligación. Después de esta etapa, todas las secuencias S1x, W y S2y están presentes en la misma hebra de ácido nucleico unida al soporte sólido.

Según se desee, se pueden utilizar las mismas o diferentes condiciones de reacción para la primera y segunda etapas de un procedimiento de múltiples etapas para anclar un polinucleótido a un soporte sólido. Por ejemplo, se puede utilizar la misma enzima (p. ej., una ADN polimerasa) o diferentes enzimas (p. ej., una ADN polimerasa y una ligasa) para las reacciones del primer oligonucleótido de código de barras y el segundo oligonucleótido de código de barras, aunque puede ser más conveniente utilizar la misma enzima. Para mezclar los reactivos y el soporte sólido para etapas consecutivas, los reactivos se pueden repartir en volúmenes de reacción y los volúmenes de reacción se pueden dividir, combinar o manejar de otra manera, todo como se desee. Por ejemplo, el soporte sólido y el oligonucleótido unido se pueden distribuir en muchos volúmenes de reacción, y se pueden añadir diferentes primeros oligonucleótidos de código de barras a cada volumen de reacción, de modo que las diferentes secuencias W se acoplen a la misma secuencia S1x. Cada uno de estos volúmenes de reacción se puede dividir a su vez en muchos más volúmenes para la adición del segundo oligonucleótido de código de barras, de modo que muchas secuencias S2y están acopladas a cada secuencia W. En algunos aspectos descritos en el presente documento, los soportes sólidos se lavan para eliminar los oligonucleótidos no unidos. En algunos aspectos descritos en el presente documento, los soportes sólidos se calientan después de incorporar la secuencia W al oligonucleótido unido, para fundir el dúplex del oligonucleótido unido y el primer oligonucleótido de código de barras, y permitir que el oligonucleótido unido y el segundo oligonucleótido de código de barras se reasocien.

Las regiones de secuencia que se pueden incluir en moléculas adaptadoras de códigos de barras y/o moldes de adaptadores de códigos de barras, tales como una secuencia de cebado universal, un sitio de unión, un promotor de ARNP o un sitio de restricción de endonucleasa de mellado, se pueden distribuir entre el primer oligonucleótido de código de barras y el segundo oligonucleótido de código de barras como se desee. Por ejemplo, todas esas secuencias pueden incluirse en un oligonucleótido de código de barras, o algunas pueden incluirse en un oligonucleótido de código de barras y algunas pueden incluirse en el otro. En algunos aspectos descritos en el presente documento, un oligonucleótido de código de barras elegido, ya sea el primer oligonucleótido de código de barras o el segundo oligonucleótido de código de barras, comprende adicionalmente una secuencia de cebado universal y un sitio de unión. En algunos aspectos descritos en el presente documento, este oligonucleótido de código de barras elegido también comprende un promotor de ARNP o un sitio de restricción de endonucleasa de mellado. Se reconocerá que los presentes métodos proporcionan muchas opciones para incorporar diferentes regiones de secuencia a moldes de adaptadores de códigos de barras. Los diseños óptimos de estos moldes y los oligonucleótidos utilizados para prepararlos pueden depender de qué mecanismos se utilicen para generar enzimáticamente moléculas adaptadoras de códigos de barras y ARN con registro de código de barras.

Cualquiera de los métodos descritos en el presente documento para anclar polinucleótidos a soportes sólidos se puede utilizar para preparar uno o más soportes sólidos para su uso en muestras, células o ARN para registro con códigos de barras. Los polinucleótidos anclados a cada soporte sólido incluyen secuencias de código de barras y pueden servir como molde de adaptador de código de barras. Los presentes métodos también se pueden utilizar para preparar una biblioteca de códigos de barras, que incluye una pluralidad de soportes sólidos, cada uno asociado con una secuencia de código de barras. Dos soportes sólidos cualesquiera (por ejemplo, cuentas) pueden tener secuencias de códigos de barras que difieran entre sí en su totalidad o en parte. En algunas realizaciones, cada soporte sólido en la biblioteca de códigos de barras está asociado con una secuencia de códigos de barras diferente.

Una cuenta de molde de adaptador de código de barras preparada de acuerdo con los presentes métodos incluye una cuenta unida a un molde de adaptador de código de barras. La cuenta se puede unir a múltiples copias de la molécula molde, por ejemplo, al menos 10, 30, 100, 300, 1.000, 3.000, 10.000, 30.000, 100.000, 300.000 o 1.000.000 de copias. En algunas realizaciones, cada copia de la molécula molde unida a una cuenta incluye la misma secuencia de código de barras. En realizaciones donde la molécula molde tiene una secuencia de código de barras de la forma S1x-W-S2y, cada copia de la molécula molde unida a una cuenta incluye la misma secuencia S1x, W y/o S2y. Los presentes métodos también permiten la preparación de una biblioteca de códigos de barras con cuentas que comprende una pluralidad de cuentas con moldes de adaptadores de códigos de barras. Cada cuenta en la biblioteca se puede asociar con una secuencia de código de barras diferente, y las copias de los moldes de adaptadores de códigos de barras sobre cada cuenta pueden comprender la misma secuencia de código de barras.

En algunos aspectos descritos en el presente documento, los presentes métodos se pueden utilizar para preparar una biblioteca de polinucleótidos mediante la captura física de ADNc preparados u obtenidos a partir de una o más muestras (p. ej., células) sobre cuentas con moldes de adaptadores de código de barras. Cada cuenta incluye una molécula molde con un sitio de unión a ADNc en el extremo 3'. La cuenta se puede poner en contacto con una enzima para hacer que el sitio de unión sea de hebra sencilla (por ejemplo, dejando un saliente 3' en el extremo de la molécula molde libre en solución). A continuación, la cuenta se pone en contacto con uno o más ADNc de una muestra de modo que los ADNc se unan a copias de la molécula molde a través de los sitios de unión. En realizaciones preferidas, el sitio de unión incluye uno o más nucleótidos de G, por ejemplo, un tramo de poli-G, y es complementario al tramo de poli-C que no forma parte del molde añadido al extremo de los ADNc por la transcriptasa inversa.

Las cuentas en una biblioteca de polinucleótidos se pueden utilizar como se desee, por ejemplo, para secuenciar los ADNc de una pluralidad de muestras o separar los ADNc de diferentes muestras. En este último caso, las cuentas correspondientes a diferentes muestras pueden sedimentarse mediante centrifugación o magnetismo, y a continuación resuspenderse y separarse mediante métodos convencionales. Si se desea, después de la unión de los ADNc a las moléculas molde sobre una cuenta, las moléculas molde pueden extenderse enzimáticamente, incorporando así las secuencias de ADNc a los dúplex de ADN unidos a la cuenta y asociando estas secuencias con una secuencia de código de barras. Si el número de copias de moléculas de ADNc de una muestra es comparable al número de copias del molde de adaptador de código de barras sobre una cuenta, estas moléculas de ADNc se pueden capturar sobre una pequeña cantidad de cuentas (por ejemplo, como máximo aproximadamente 1,3, 10, 30, 100, 300 o 1000 cuentas por muestra). Los ARN de las muestras se pueden transcribir de forma inversa utilizando métodos convencionales o como se discutió anteriormente para generar ADNc. Las células B (por ejemplo, plasmablastos, células B de memoria y células plasmáticas) se pueden utilizar como muestras y, en algunas realizaciones, el ADNc es una región de inmunoglobulina variable obtenida a partir de células B.

II. Composiciones

A. Polinucleótidos

En algunos aspectos, un polinucleótido puede incluir una región de ADNc. En algunos aspectos, un polinucleótido puede incluir una región de adaptador de identificación de la muestra (código de barras). En algunos aspectos, un polinucleótido puede incluir una región de identificación de la muestra (código de barras). En algunos aspectos, un polinucleótido puede incluir una región de adaptador. En algunos aspectos, un polinucleótido puede incluir una región de cebador universal. En algunos aspectos, un polinucleótido puede incluir una región de amplicón. En algunos aspectos, un polinucleótido puede incluir una región de identificación de placa. En algunos aspectos, un polinucleótido puede incluir una primera región de identificación de placa. En algunos aspectos, un polinucleótido puede incluir una segunda región de identificación de placa. En algunos aspectos, un polinucleótido puede incluir una región de sitio de restricción. En algunos aspectos, un polinucleótido puede incluir una primera región de sitio de restricción. En algunos aspectos, un polinucleótido puede incluir una segunda región de sitio de restricción. En algunos aspectos, un polinucleótido puede incluir una región de secuenciación. En algunos aspectos, un polinucleótido puede incluir una primera región de secuenciación. En algunos aspectos, un polinucleótido puede incluir una segunda región de secuenciación.

En algunos aspectos, un polinucleótido puede incluir una pluralidad de cualquier región descrita en el presente documento. Por ejemplo, un polinucleótido puede incluir una primera región de identificación de la muestra (código de barras) y una segunda región de identificación de la muestra (código de barras). En algunos aspectos, la primera región de identificación de muestra (código de barras) y la segunda región de identificación de muestra (código de barras) son idénticas o sustancialmente idénticas. En algunos aspectos, la primera región de identificación de muestra (código de barras) y la segunda región de identificación de muestra (código de barras) son distintas. En algunos aspectos, una región de identificación (código de barras) está acoplada a una región de inmunoglobulina variable.

En algunos aspectos, la secuencia de una región será al menos lo suficientemente larga para servir como secuencia diana para un cebador o una sonda en una reacción de PCR. En algunos aspectos, una región puede tener una longitud de 1 a más de 5000 pares de bases. Por ejemplo, una región puede tener una longitud de 1-10.000 nucleótidos, p. ej., una longitud de 2-30 nucleótidos, incluidos todos los subintervalos intermedios. Como ejemplos no limitantes, una región puede tener de 1-30 nucleótidos, de 1-26 nucleótidos, de 1-23 nucleótidos, de 1-22 nucleótidos, de 1-21 nucleótidos, de 1-20 nucleótidos, de 1-19 nucleótidos, de 1-18 nucleótidos , 1-17 nucleótidos, 18-30 nucleótidos, 18-26 nucleótidos, 18-23 nucleótidos, 18-22 nucleótidos, 18-21 nucleótidos, 18-20 nucleótidos, 19-30 nucleótidos, 19-26 nucleótidos, 19-23 nucleótidos , 19-22 nucleótidos, 19-21 nucleótidos, 19-20 nucleótidos, 20-30 nucleótidos, 20-26 nucleótidos, 20-25 nucleótidos, 20-24 nucleótidos, 20-23 nucleótidos, 20-22 nucleótidos, 20-21 nucleótidos , 21-30 nucleótidos, 21-26 nucleótidos, 21-25 nucleótidos, 21-24 nucleótidos, 21-23 nucleótidos o 21-22 nucleótidos. En algunos aspectos, una región puede terne aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50 o más nucleótidos de longitud. En algunos aspectos, una región puede tener menos de 50, 50-100, 100-200, 200-300, 300-400, 400-500, 500-600, 600-700, 700-800, 800-900, 900-1000 o más de 1000 nucleótidos de longitud. En algunos aspectos, una región puede tener menos de 1000, 1000-2000, 2000-3000, 3000-4000, 4000 5000, 5000-6000, 6000-7000, 7000-8000, 8000-9000, 9000-10000 o más de 10000 nucleótidos de longitud. En algunos aspectos, una región puede incluir al menos dos nucleótidos, al menos 3, al menos 4, al menos 5, al menos 6, al menos 7, al menos 8, al menos 9, al menos 10, al menos 15, al menos 20 o más nucleótidos de un polinucleótido divulgado en el presente documento.

En algunos aspectos, un polinucleótido se puede obtener a partir de, o asociar con, una muestra única. En algunos aspectos, una región se puede obtener a partir de, o asociarse con, una muestra única. En algunos aspectos, una región de ADNc se puede obtener a partir de, o asociar con, una muestra única. En algunos aspectos, una región de amplicón se puede obtener a partir de, o asociar con, una muestra única. Una "muestra única" incluye una muestra que comprende polinucleótidos que se toma de una fuente única. En algunos aspectos, una fuente única incluye una muestra tomada en un punto de tiempo particular o en una ubicación particular, p. ej., en un sujeto o matraz de células o placa de células. En algunos aspectos, se toma una primera muestra única de un primer sujeto en un primer momento y se toma una segunda muestra única del primer sujeto en un segundo momento que es distinto del primer momento. En algunos aspectos, se toma una primera muestra única de un primer sujeto en una primera ubicación y se toma una segunda muestra del primer sujeto en una segunda ubicación que es distinta de la primera ubicación. En algunos aspectos, se toma una primera muestra única de un primer sujeto en un punto de tiempo y se toma una segunda muestra única de un segundo sujeto en un punto de tiempo. En algunos aspectos, se toma una primera muestra única de un primer sujeto en una ubicación y se toma una segunda muestra de un segundo sujeto en una ubicación. En una realización, una muestra comprende polinucleótidos que incluyen ARNm obtenido a partir de una o más células B. En otra realización, una muestra comprende polinucleótidos que incluyen ADNc obtenido a partir de una o más células B. En otra realización, una única muestra comprende ARNm obtenido a partir de una o más células B clasificadas en un único pocillo de una placa de 96 pocillos o de 384 pocillos. Las muestras generalmente se obtienen a partir de una(s) célula(s) procariótica(s) (p. ej., una(s) célula(s) bacteriana(s), una(s) célula(s) eucariótica(s) (p. ej., una(s) célula(s) de mamífero y de levadura) u otras fuentes de material genético, tales como un virus o fago. Los términos "mamífero" o "de mamífero" como se emplean en el presente documento incluyen tanto seres humanos como no humanos e incluyen, pero sin limitarse a, seres humanos, primates no humanos, cánidos, félidos, múridos, bóvidos, équidos y suidos. En algunos aspectos, los métodos de la invención se aplican a muestras únicas en una placa con al menos 96 pocillos, al menos 384 pocillos, al menos 1536 pocillos o más pocillos. En aspectos adicionales, los métodos de la invención se aplican a muestras únicas en al menos una, dos, tres, cuatro, cinco, seis, siete, ocho, diez, quince, veinte, treinta o más placas con al menos 96 pocillos cada una.

En algunos aspectos, se añade una secuencia de la región de adaptador 5' y/o una región de identificación de la muestra a todos los ADNc de una muestra individual, p. ej., durante la RT y no solo a los genes de Ig. En algunos aspectos, pueden utilizarse cebadores específicos de genes (GSP) 3' para amplificar cualquier gen expresado en la muestra única. En algunos aspectos, se amplifican genes que tienen una región variable 5', p. ej., receptores de células T y receptores de células B sin necesidad de múltiples cebadores 5' degenerados para amplificar el/los gen(es) de interés. Los GSP pueden incluir cebadores específicos para cadenas de IgG, IgM, IgD, IgA, IgE, TCR y otros genes de interés.

En algunos aspectos, también se pueden realizar varias rondas de PCR, p. ej., utilizando GSP anidados. Para tales GSP anidados, el GSP para la segunda ronda de PCR se hibrida con su secuencia de gen diana en una posición 5' a lo largo de esa secuencia con respecto a la posición con la que hibridó el GSP utilizado en la primera ronda de PCR.

En algunos aspectos, la región de ADNc o una región de amplicón pueden incluir un polinucleótido de ADN. En algunos aspectos, la región de ADNc o una región de amplicón pueden incluir un polinucleótido de ADNc. En algunos aspectos, la región de ADNc o una región de amplicón pueden incluir un polinucleótido de ARN hibridado con un polinucleótido de ADN. En algunos aspectos, la región de ADNc o una región de amplicón pueden incluir un polinucleótido de ARNm hibridado con un polinucleótido de ADNc.

En algunos aspectos, una región de cebador universal no es completamente complementaria a ningún exón humano. En algunos aspectos, una región de cebador universal no es completamente complementaria a ningún gen humano expresado. En algunos aspectos, una región de cebador universal tiene una estructura secundaria mínima.

En algunos aspectos, una región de amplicón comprende una secuencia de amplicón de cadena pesada de inmunoglobulina. En algunos aspectos, una región de amplicón comprende una secuencia de amplicón de cadena ligera de inmunoglobulina. En algunos aspectos, una región de amplicón comprende una secuencia de amplicón alfa del receptor de células T. En algunos aspectos, una región de amplicón comprende una secuencia de amplicón beta del receptor de células T.

En algunos aspectos, un polinucleótido está presente en una biblioteca de polinucleótidos y puede diferenciarse de otros polinucleótidos presentes en la biblioteca basándose en una región del polinucleótido.

En algunos aspectos, la secuencia de la región de identificación de la muestra de cada polinucleótido en una biblioteca obtenida a partir de una primera muestra única es distinta de la secuencia de la región de identificación de la muestra de los otros polinucleótidos de la biblioteca obtenida a partir de una o más muestras distintas de la primera muestra única. En algunos aspectos, la secuencia de la región de identificación de la muestra de cada polinucleótido en una biblioteca obtenida a partir de una primera muestra única difiere en al menos 1 nucleótido de la secuencia de la región de identificación de la muestra de los otros polinucleótidos de la biblioteca obtenida a partir de una o más muestras distintas de la primera muestra única. En algunos aspectos, la secuencia de la región de identificación de la muestra de cada polinucleótido en una biblioteca obtenida a partir de una primera muestra única difiere en al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 , 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50 o más nucleótidos de la secuencia de la región de identificación de la muestra de los otros polinucleótidos de la biblioteca obtenida a partir de una o más muestras distintas de la primera muestra única. En algunos aspectos, la secuencia de la región de identificación de la muestra de cada polinucleótido en una biblioteca obtenida a partir de una primera muestra única puede ser de aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 60, 70, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91,92, 93, 94, 95, 96, 97, 98, 99, o menos de 100% idéntica a la secuencia de la región de identificación de la muestra de los otros polinucleótidos en la biblioteca obtenida a partir de una o más muestras distintas de la primera muestra única. En algunos aspectos, la secuencia de la región de identificación de la muestra de cada polinucleótido en una biblioteca obtenida a partir de una primera muestra única es menos de 100% idéntica a la secuencia de la región de identificación de la muestra de los otros polinucleótidos en la biblioteca obtenida a partir de una o más muestras distintas de la primera muestra única.

En algunos aspectos, una región de identificación de la muestra actúa como un código de barras digital en toda la 1a hebra de ADNc transcrita inversamente a partir de una muestra única. En algunos aspectos, la región de identificación de la muestra tiene una longitud de al menos 1 nucleótido. En algunos aspectos, una región de identificación de la muestra puede comprender al menos 3 nucleótidos, y las regiones de identificación de la muestra pueden diferir entre sí en al menos 1 nucleótido. En una realización, las regiones de identificación de la muestra tienen una longitud de 3 15 nucleótidos y difieren entre sí en al menos 1 nucleótido. En algunos aspectos, las regiones de identificación de la muestra pueden comprender al menos 64 variantes (utilizando regiones de identificación de la muestra de 3 nucleótidos de longitud, difiriendo cada ID de la muestra entre sí en al menos 1 nucleótido) o, en algunos aspectos, un mayor número de variantes. En algunos aspectos, la secuencia anclada en 3' a la región de identificación de la muestra puede ser una región de adaptador que comprende al menos 1 G. En una realización preferida, la secuencia anclada en 3' a la región de identificación de la muestra puede ser una región de adaptador que comprende al menos 2 G. En una realización, una secuencia anclada al extremo 5' de una región de identificación de la muestra es una secuencia de cebador universal que se puede utilizar durante la amplificación por PCR para evitar la necesidad de la adición posterior de una secuencia de cebador universal 5' (mediante ligación u otro método) o el uso de múltiples cebadores 5' degenerados para amplificar genes con regiones 5' variables. En algunos aspectos, la secuencia de la primera región de identificación de placa de cada polinucleótido en una biblioteca obtenida a partir de un primer conjunto de muestras únicas es distinta de la secuencia de la primera región de identificación de placa de los otros polinucleótidos de la biblioteca obtenida a partir de uno o más conjuntos de muestras distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la primera región de identificación de placa de cada polinucleótido en una biblioteca obtenida a partir del primer conjunto de muestras únicas difiere en al menos 1 nucleótido de la secuencia de la primera región de identificación de placa de los otros polinucleótidos de la biblioteca obtenida a partir de uno o más conjuntos de muestras únicas distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la primera región de identificación de placa de cada polinucleótido en una biblioteca obtenida a partir del primer conjunto de muestras únicas difiere en al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50 o más nucleótidos de la secuencia de la primera región de identificación de placa de los otros polinucleótidos en la biblioteca obtenida a partir de uno o más conjuntos de muestras únicas distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la primera región de identificación de placa de cada polinucleótido en una biblioteca obtenida a partir del primer conjunto de muestras únicas puede ser de aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11 , 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36 ,37 , 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 60, 70, 80, 81,82, 83, 84, 85, 86, 87, 88 , 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, o menos de 100% idéntica a la secuencia de la primera región de identificación de la placa de los otros polinucleótidos en la biblioteca obtenida a partir de uno o más conjuntos de muestras distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la primera región de identificación de placa de cada polinucleótido en una biblioteca obtenida a partir del primer conjunto de muestras únicas es menos de 100% idéntica a la secuencia de la primera región de identificación de placa de los otros polinucleótidos de la biblioteca obtenida a partir de uno o más conjuntos de muestras únicas distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la segunda región de identificación de la placa de cada polinucleótido de una biblioteca obtenida a partir de un primer conjunto de muestras únicas es distinta de la secuencia de la segunda región de identificación de la placa de los otros polinucleótidos de la biblioteca obtenida a partir de uno o más conjuntos de muestras únicas distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la segunda región de identificación de placa de cada polinucleótido en una biblioteca obtenida a partir del primer conjunto de muestras únicas difiere en al menos 1 nucleótido de la secuencia de la segunda región de identificación de placa de los otros polinucleótidos de la biblioteca obtenida a partir de uno o más conjuntos de muestras únicas distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la segunda región de identificación de placa de cada polinucleótido en una biblioteca obtenida a partir del primer conjunto de muestras únicas difiere en al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50 o más nucleótidos de la secuencia de la segunda región de identificación de la placa de los otros polinucleótidos en la biblioteca obtenida a partir de uno o más conjuntos de muestras únicas distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la segunda región de identificación de placa es idéntica a la secuencia de la primera región de identificación de placa en un polinucleótido. En algunos aspectos, la secuencia de la segunda región de identificación de la placa de cada polinucleótido en una biblioteca obtenida a partir del primer conjunto de muestras únicas puede ser de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11. , 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36 ,37 , 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 60, 70, 80, 81, 82, 83, 84, 85, 86, 87, 88 , 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, o menos de 100% idéntica a la secuencia de la segunda región de identificación de la placa de los otros polinucleótidos en la biblioteca obtenida a partir de uno o más conjuntos de muestras únicas distintos del primer conjunto de muestras únicas. En algunos aspectos, la secuencia de la segunda región de identificación de placa de cada polinucleótido en una biblioteca obtenida a partir del primer conjunto de muestras únicas es menos de 100% idéntica a la secuencia de la segunda región de identificación de placa de los otros polinucleótidos de la biblioteca obtenida a partir de uno o más conjuntos de muestras únicas distintos del primer conjunto de muestras únicas. En algunos aspectos, una región de identificación de placa (p. ej., una primera región de identificación de placa o una segunda región de identificación de placa) puede comprender al menos 2 nucleótidos, y las regiones de identificación de placa difieren entre sí en al menos 1 nucleótido. En una realización, las regiones de identificación de placa tienen una longitud de 2-10 nucleótidos y difieren entre sí en al menos 1 nucleótido.

En algunos aspectos, el uso de regiones de identificación de placa se encuentra en solo algunas realizaciones, ya que el uso de un número mayor de regiones de identificación de la muestra diferentes (una por cada muestra única que se va a analizar) puede eliminar la necesidad de regiones de identificación de placa. En algunos aspectos, las regiones de identificación de placa se utilizan para reducir el número de oligonucleótidos únicos que contienen una región de identificación de la muestra que deben sintetizarse.

En algunos aspectos, un polinucleótido incluye una o más regiones adaptadoras. En algunos aspectos, una región de adaptador incluye una o más G. En algunos aspectos, una región de adaptador incluye 2, 3, 4, 5, 6, 7, 8, 9, 10 o más G. En algunos aspectos, las regiones adaptadoras se anclan a los extremos 3' de los ADNc utilizando la propiedad de cambio de molde de transcriptasas inversas de MMLV H-. Existen diferentes métodos para anclar regiones adaptadoras, que incluyen, pero sin limitarse a, la realización de PCR con cebadores con secuencias de regiones adaptadoras flanqueantes en 5', ligaciones de extremos cohesivos y romos, adición de nucleótidos mediada por cambio de molde u otros métodos para anclar covalentemente nucleótidos al extremo 5', al extremo 3' o a los extremos 5' y 3' de los polinucleótidos. Estos métodos pueden emplear propiedades de enzimas comúnmente utilizadas en biología molecular. La PCR puede utilizar, p. ej., ADN polimerasa termófila. Los extremos cohesivos que son complementarios o sustancialmente complementarios se crean cortando el ADNdh con enzimas de restricción que dejan extremos salientes o mediante actividades de formación de cola 3' de enzimas tales como la TdT (transferasa terminal). A continuación, los extremos cohesivos y romos se pueden ligar con una región de adaptador complementaria utilizando ligasas tales como ligasa de T4. El cambio de molde utiliza la actividad de formación de cola 3' de la transcriptasa inversa de MMLV H- para añadir una o más citosinas (C) al extremo 3' de los ADNc y su capacidad para cambiar el molde de ARNm a una región de adaptador con G complementarias. En algunos aspectos, un ADNc incluye 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más C en su extremo 3'.

En algunos aspectos, un polinucleótido incluye una o más regiones de sitios de restricción. Las regiones de sitios de restricción incluyen uno o más sitios de restricción. Los sitios de restricción pueden incluir: NheI, XhoI, BstBI, EcoRI, SacII, BbvCI, PspXI, AgeI, ApaI, KpnI, Acc65I, XmaI, BstEII, DraIII, PacI, FseI, AsiSI y AscI. En algunos aspectos, puede utilizarse cualquier sitio de restricción de enzimas cortadoras infrecuentes con sitios de reconocimiento de 8 nucleótidos.

En algunos aspectos, una o más regiones de un polinucleótido descrito en el presente documento pueden acoplarse operativamente a una o más regiones distintas del polinucleótido. En algunos aspectos, se pueden acoplar operativamente dos o más regiones distintas de un único polinucleótido. Por ejemplo, una región de cebador universal se puede acoplar operativamente a una región de adaptador. En algunos aspectos, se pueden acoplar operativamente dos o más regiones que tienen una secuencia sustancialmente idéntica o una descripción idéntica. Por ejemplo, una primera región de identificación de la muestra se puede acoplar operativamente a una segunda región de identificación de la muestra. En algunos aspectos, las secuencias de la primera región de identificación de la muestra y la segunda región de identificación de la muestra son idénticas o sustancialmente idénticas. En algunos aspectos, las secuencias de la primera región de identificación de la muestra y la segunda región de identificación de la muestra son diferentes o distintas.

En algunos aspectos, una o más regiones de un polinucleótido descrito en el presente documento pueden acoplarse a una o más regiones distintas del polinucleótido. En algunos aspectos, se pueden acoplar dos o más regiones distintas de un solo polinucleótido. Por ejemplo, una región de cebador universal se puede acoplar a una región de adaptador.

En algunos aspectos, se pueden acoplar dos o más regiones que tienen una secuencia sustancialmente idéntica o una descripción idéntica. Por ejemplo, una primera región de identificación de la muestra se puede acoplar a una segunda región de identificación de la muestra. En algunos aspectos, las secuencias de la primera región de identificación de la muestra y la segunda región de identificación de la muestra son idénticas o sustancialmente idénticas. En algunos aspectos, las secuencias de la primera región de identificación de la muestra y la segunda región de identificación de la muestra son diferentes o distintas.

En algunos aspectos, un polinucleótido incluye la secuencia 5'-A-B-3', en donde A es una región de identificación de la muestra y en donde B es una región de adaptador. En algunos aspectos, un polinucleótido incluye la secuencia 5'-A-B-C-3', en donde A es una región de cebador universal, en donde B es una región de identificación de la muestra y en donde C es una región de adaptador. En algunos aspectos, un polinucleótido incluye la secuencia 5'-A-B-C-3', en donde A es una región de identificación de la muestra, en donde B es una región de adaptador y en donde C es una región de amplicón obtenida a partir de una muestra única. En algunos aspectos, un polinucleótido incluye la secuencia 5'-A-B-C-D-3', en donde A es una región de cebador universal, en donde B es una región de identificación de la muestra, en donde C es una región de adaptador y en donde D es una región de amplicón obtenida a partir de una muestra única. En algunos aspectos, un polinucleótido incluye la secuencia 5'-A-B-C-D-E-3', en donde A es una región de identificación de placa, en donde B es una región de cebador universal, en donde C es una región de identificación de la muestra, en donde D es una región de adaptador y en donde E es una región de amplicón obtenida a partir de una muestra única. En algunos aspectos, un polinucleótido incluye la secuencia 5'-A-B-C-D-E-F-3', en donde A es una primera región del sitio de restricción, en donde B es una región de cebado universal, en donde C es una región de identificación de la muestra, en donde D es una región de adaptador, en donde E es una región de amplicón obtenida a partir de una única muestra, y en donde F es una segunda región de sitio de restricción.

En algunos aspectos, las regiones de cada una de las secuencias anteriores se pueden reorganizar en un orden diferente, p. ej., 5'-C-A-D-B-3' o 5'-E-A-C-B-D-F-3' o 5'-B-A-3'. En algunos aspectos, se pueden suprimir una o más regiones de las secuencias anteriores, p. ej., 5'-A-D-3' o 5'-B-C-3'. En algunos aspectos, se pueden añadir una o más regiones adicionales a las secuencias anteriores, p. ej., 5'-A-A2-B-3' o 5'-A-B-C-D-E-F-G-3'. En tales ejemplos, las una o más regiones adicionales pueden ser cualquier región divulgada en el presente documento o equivalentes de la misma. En algunos aspectos, una o más regiones de las secuencias anteriores se pueden modificar, p. ej., metilar.

En algunos aspectos, un polinucleótido puede incluir una molécula adaptadora. En algunos aspectos, una molécula adaptadora de polinucleótido puede incluir una región de cebador universal, una región de identificación de la muestra y una región de adaptador, en donde el extremo 3' de la región de cebador universal está acoplado al extremo 5' de la región de identificación de la muestra, y donde el extremo 3' de la región de identificación de la muestra está acoplado al extremo 5' de la región de adaptador. En algunos aspectos, una molécula adaptadora incluye un polinucleótido que comprende al menos 2 nucleótidos que se unen a las C añadidas por una transcriptasa inversa en el extremo 3' de una primera hebra de ADNc. En algunos aspectos, una molécula adaptadora incluye un polinucleótido de desoxirribosa que comprende de 3-6 G (G de ADN). En otra realización, una molécula adaptadora incluye un polinucleótido de ribosa que consiste en 3-6 G (G de ARN). En otras realizaciones, la molécula adaptadora puede utilizar análogos de nucleótidos, tales como ácidos nucleicos bloqueados (LNA), p. ej., G de LNA. En otras realizaciones, la base nucleotídica también puede ser una base universal o degenerada tal como 5-nitroindol y 3-nitropirrol que pueden formar pares de bases con C, así como con otros nucleótidos, en cualquier combinación.

En algunos aspectos, un polinucleótido puede incluir un cebador o una sonda. En algunos aspectos, un cebador puede incluir una región de cebador universal y una región de identificación de placa, y en donde el extremo 3' de la región de identificación de placa está acoplado al extremo 5' de la región de cebador universal.

En algunos aspectos, una composición puede incluir una biblioteca de composiciones de polinucleótidos. En algunos aspectos, una biblioteca de composiciones de polinucleótidos incluye una pluralidad de composiciones de polinucleótidos. En algunos aspectos, cada composición está presente en un recipiente separado. En algunos aspectos, un recipiente puede ser un tubo de ensayo. En algunos aspectos, un recipiente puede ser un pocillo en una placa. En algunos aspectos, un recipiente puede ser un pocillo en una placa de 96 pocillos. En algunos aspectos, un recipiente puede ser un pocillo en una placa de 384 pocillos. En algunos aspectos, cada composición comprende una región de ADNc obtenida a partir de una muestra única. En algunos aspectos, cada composición comprende una región de adaptador de identificación de la muestra que comprende una región de identificación de la muestra acoplada a una región de adaptador. En algunos aspectos, la secuencia de la región de identificación de la muestra de cada región de adaptador de identificación de la muestra en una biblioteca es distinta de la secuencia de nucleótidos de la región de identificación de la muestra de las otras regiones de adaptador de identificación de la muestra presentes en cada recipiente separado en la biblioteca. En algunos aspectos, la región de adaptador de identificación de la muestra está anclada a la región del ADNc. En algunos aspectos, la región de adaptador de identificación de la muestra está anclada a la región de ADNc mediante la unión entre sus regiones 3'. En algunos aspectos, la región de adaptador de identificación de la muestra está anclada a la región del ADNc mediante unión G:C. En algunos aspectos, la región de ADNc comprende un polinucleótido de ARN hibridado a un polinucleótido de ADN. En algunos aspectos, la región de ADNc comprende un polinucleótido de ARNm hibridado a un polinucleótido de ADNc.

En algunos aspectos, la pluralidad de composiciones de polinucleótidos en una biblioteca de polinucleótidos puede comprender al menos 2, al menos 3, al menos 10, al menos 30, al menos 100, al menos 300, al menos 1000, al menos 3000, al menos 10.000, al menos 30.000, al menos 100.000, al menos 300.000, al menos 1.000.000, al menos 3.000.000, al menos 10.000.000, al menos 30.000.000 o más miembros. En otros aspectos, la pluralidad de composiciones de polinucleótidos en una biblioteca de polinucleótidos puede comprender al menos 2, al menos 3, al menos 10, al menos 30, al menos 100, al menos 300, al menos 1.000, al menos 3000, al menos 10.000, al menos 30.000 o más genes del transcriptoma completo de una muestra celular. En otros aspectos, la pluralidad de composiciones de polinucleótidos en una biblioteca de polinucleótidos comprende al menos 1, al menos 2, al menos 3, al menos 10, al menos 30, al menos 100, al menos 300, al menos 1000, al menos 10.000, al menos 100.000, al menos 1.000.000, al menos 10.000.000, al menos 1.000.000.000 o más de las diferentes especies de anticuerpos presentes en la sangre de un individuo. Estas especies de anticuerpos pueden expresarse mediante plasmablastos, células plasmáticas, células B de memoria, células plasmáticas de vida prolongada, células B sin exposición antigénica previa, otras células de linaje B o combinaciones de las mismas.

B. Vectores - descritos en el presente documento con fines ilustrativos

En algunos aspectos, una composición puede incluir un vector. El término "vector" se utiliza para referirse a una molécula de ácido nucleico portadora en la que se puede insertar una secuencia de ácido nucleico para introducirla en una célula donde se puede replicar. Los vectores se pueden utilizar en la transformación de una célula anfitriona con una secuencia de ácido nucleico. En algunos aspectos, un vector puede incluir uno o más polinucleótidos descritos en el presente documento. En un aspecto descrito en el presente documento, se puede introducir una biblioteca de secuencias de ácidos nucleicos que codifican polipéptidos diana en una población de células, lo que permite el escrutinio de una biblioteca. Una secuencia de ácido nucleico puede ser "exógena" o "heteróloga", lo que significa que es foránea para la célula en la que se introduce el vector o que la secuencia es homóloga a una secuencia en la célula, pero en una posición dentro del ácido nucleico de la célula anfitriona en la que normalmente no se encuentra la secuencia. Los vectores incluyen plásmidos, cósmidos y virus (p. ej., bacteriófagos). Un experto en la técnica puede construir un vector a través de mecanismos recombinantes convencionales, que son descritos por Maniatis et al., 1988 y Ausubel et al., 1994. En algunos aspectos, un vector puede ser un vector con las regiones constantes de un anticuerpo prediseñado. De esta manera, un experto puede clonar solo las regiones VDJ de un anticuerpo de interés y clonar esas regiones en el vector prediseñado.

El término "vector de expresión" se refiere a un vector que contiene una secuencia de ácido nucleico que codifica al menos parte de un producto génico susceptible de ser transcrito. En algunos casos, las moléculas de ARN se traducen a continuación a una proteína, polipéptido o péptido. Los vectores de expresión pueden contener una variedad de "secuencias de control", que se refieren a secuencias de ácido nucleico para la transcripción y posiblemente traducción de una secuencia codificante conectada operablemente en un organismo anfitrión particular. Además de las secuencias de control que gobiernan la transcripción y la traducción, los vectores y los vectores de expresión pueden contener secuencias de ácido nucleico que también cumplen otras funciones.

En algunos aspectos, un vector puede incluir un promotor. En algunos aspectos, un vector puede incluir un potenciador. Un "promotor" es una secuencia de control que es una región de una secuencia de ácido nucleico en la que se controlan el inicio y la tasa de transcripción. Puede contener elementos genéticos a los que pueden unirse proteínas y moléculas reguladoras, tales como ARN polimerasa y otros factores de transcripción. Las frases "posicionado operativamente", "conectado operativamente", "bajo control" y "bajo control transcripcional" significan que un promotor está en una ubicación y/u orientación funcionales correctas con relación a una secuencia de ácido nucleico para controlar el inicio transcripcional y/o o la expresión de esa secuencia. Un promotor puede utilizarse o no junto con un "potenciador", que se refiere a una secuencia reguladora que actúa en cis implicada en la activación transcripcional de una secuencia de ácido nucleico.

Un promotor puede estar asociado de forma natural con un gen o secuencia, ya que puede obtenerse aislando las secuencias no codificantes 5' situadas aguas arriba del segmento codificante y/o exón. Tal promotor puede denominarse "endógeno". De manera similar, un potenciador puede estar asociado de forma natural con una secuencia de ácido nucleico, ubicada aguas abajo o aguas arriba de esa secuencia. Alternativamente, se obtendrán ciertas ventajas colocando el segmento de ácido nucleico codificante bajo el control de un promotor heterólogo o recombinante, que se refiere a un promotor que normalmente no está asociado con una secuencia de ácido nucleico en su entorno natural. Un potenciador recombinante o heterólogo se refiere también a un potenciador que normalmente no está asociado con una secuencia de ácido nucleico en su entorno natural. Tales promotores o potenciadores pueden incluir promotores o potenciadores de otros genes, y promotores o potenciadores aislados de cualquier otra célula procariótica, y promotores o potenciadores que no se produzcan "naturalmente", es decir, que contengan diferentes elementos de diferentes regiones reguladoras de la transcripción, y/o mutaciones que alteren la expresión. Además de producir secuencias de ácidos nucleicos de promotores y potenciadores de forma sintética, las secuencias se pueden producir utilizando tecnología de clonación recombinante y/o de amplificación de ácidos nucleicos, incluida la PCR, con relación a las composiciones divulgadas en el presente documento (véanse la Patente de Estados Unidos Núm. 4.683.202, la Patente de Estados Unidos Núm. 5.928.906).

En algunos aspectos, un promotor y/o potenciador dirigen eficazmente la expresión del segmento de ADN en el tipo celular elegido para la expresión. Un ejemplo de tal promotor que puede utilizarse es el promotor de arabinosa de E. coli o de T7. Los expertos en la técnica de la biología molecular generalmente están familiarizados con el uso de promotores, potenciadores y combinaciones de tipos de células para la expresión de proteínas, por ejemplo, véase Sambrook et al. (1989). Los promotores empleados pueden ser constitutivos, específicos de tejido, inducibles y/o útiles en las condiciones apropiadas para dirigir un alto nivel de expresión del segmento de ADN introducido, tal como es ventajoso en la producción a gran escala de proteínas y/o péptidos recombinantes. El promotor puede ser heterólogo o endógeno.

En algunos aspectos, los vectores pueden incluir señales de inicio y/o sitios internos de unión a ribosomas. También puede incluirse una señal de inicio específica para la traducción eficiente de las secuencias codificantes. Estas señales incluyen el codón de inicio ATG o secuencias adyacentes. Es posible que sea necesario proporcionar señales de control de traducción exógenas, incluido el codón de inicio ATG. Un experto normal en la técnica sería fácilmente capaz de determinar esto y proporcionar las señales necesarias. Es bien sabido que el codón de inicio debe estar "en marco" con el marco de lectura de la secuencia codificante deseada para asegurar la traducción de todo el inserto. Las señales de control de traducción exógenas y los codones de inicio pueden ser naturales o sintéticos. La eficiencia de la expresión puede mejorarse mediante la inclusión de elementos potenciadores de la transcripción apropiados.

En algunos aspectos, un vector puede incluir secuencias que aumentan u optimizan el nivel de expresión del segmento de ADN que codifica el gen de interés. Un ejemplo de tales secuencias incluye la adición de intrones en el ARNm expresado (Brinster, R.L. et al. (1988) Introns increase transcriptional efficiency in transgenic mice. Proc. Natl. Acad. Sci. USA 85, 836-40; Choi, T. et al. (1991) A generic intron increases gene expression in transgenic mice Mol. Cell. Biol. 11,3070-4). Otro ejemplo de un método para optimizar la expresión del segmento de ADN es la "optimización de codones". La optimización de codones implica la inserción de mutaciones silenciosas en el segmento de ADN para reducir el uso de codones raros para optimizar la traducción de proteínas (Codon engineered for improved antibody expression in mammalian cells. Carton JM, Sauerwald T, Hawley-Nelson P, Morse B, Peffer N, Beck H, Lu J, Cotty A, Amegadzie B, Sweet R. Protein Expr Purif. octubre de 2007; 55(2):279-86. Publicación electrónica, 16 de junio de 2007).

En algunos aspectos, un vector puede incluir múltiples sitios de clonación. Los vectores pueden incluir un sitio de clonación múltiple (MCS), que es una región de ácido nucleico que contiene múltiples sitios de enzimas de restricción, cualquiera de los cuales puede utilizarse junto con tecnología recombinante convencional para digerir el vector (véanse Carbonelli et al., 1999, Levenson et al., 1998, y Cocea, 1997.) "Digestión con enzimas de restricción" se refiere a la escisión catalítica de una molécula de ácido nucleico con una enzima que funciona sólo en posiciones específicas en una molécula de ácido nucleico. Muchas de estas enzimas de restricción están disponibles comercialmente. Los expertos en la técnica entienden el uso de tales enzimas. Con frecuencia, un vector se linealiza o fragmenta utilizando una enzima de restricción que corta dentro del MCS para permitir que las secuencias exógenas sean ligadas al vector. "Ligación" se refiere al proceso de formación de enlaces fosfodiéster entre dos fragmentos de ácido nucleico, que pueden o no ser contiguos entre sí. Los mecanismos que implican enzimas de restricción y reacciones de ligación son bien conocidos por los expertos en la técnica de la tecnología recombinante.

En algunos aspectos, un vector puede incluir una señal de terminación. Los vectores o construcciones comprenderán generalmente al menos una señal de terminación. Una "señal de terminación" o "terminador" se compone de las secuencias de ADN involucradas en la terminación específica de un transcrito de ARN por una ARN polimerasa. Por lo tanto, en ciertas realizaciones, se contempla una señal de terminación que finaliza la producción de un transcrito de ARN. Puede ser necesario un terminador in vivo para lograr los niveles de mensaje deseables.

Los terminadores contemplados para su uso incluyen cualquier terminador de la transcripción conocido descrito en el presente documento o conocido por un experto en la técnica, incluidos, pero sin limitarse a, por ejemplo, terminadores dependientes de rho o independientes de rho. En ciertas realizaciones, la señal de terminación puede ser una falta de secuencia transcribible o traducible, por ejemplo, debido a un truncamiento de secuencia.

En algunos aspectos, un vector puede incluir un origen de replicación.

Para propagar un vector en una célula anfitriona, este puede contener uno o más orígenes de sitios de replicación (a menudo denominados "ori"), que es una secuencia de ácido nucleico específica en la que se inicia la replicación.

En algunos aspectos, un vector puede incluir uno o más marcadores seleccionables y/o escrutables. En ciertas realizaciones, las células que contienen una construcción de ácido nucleico pueden identificarse in vitro o in vivo mediante la inclusión de un marcador en el vector de expresión. Tales marcadores conferirían un cambio identificable a la célula que permitiría una fácil identificación de las células que contuvieran el vector de expresión. Generalmente, un marcador seleccionable es aquel que confiere una propiedad que permite la selección. Un marcador seleccionable positivo es aquel en el que la presencia del marcador permite su selección, mientras que un marcador seleccionable negativo es aquel en el que su presencia impide su selección. Un ejemplo de un marcador seleccionable positivo es un marcador de resistencia a fármacos.

Usualmente, la inclusión de un marcador de selección de fármacos ayuda a la clonación e identificación de transformantes, por ejemplo, los genes que confieren resistencia a neomicina, puromicina, higromicina, DHFR, GPT, zeocina e histidinol son marcadores seleccionables útiles. Además de los marcadores que confieren un fenotipo que permite la discriminación de transformantes en función de la implementación de condiciones, también se contemplan otros tipos de marcadores que incluyen marcadores escrutables tales como GFP, cuya base es el análisis colorimétrico. Alternativamente, se pueden utilizar enzimas escrutables tales como cloranfenicol acetiltransferasa (CAT). Un experto en la técnica también sabría cómo emplear marcadores inmunológicos, posiblemente junto con el análisis FACS. No se cree que el marcador utilizado sea importante, siempre que sea capaz de expresarse simultáneamente con el ácido nucleico que codifica un producto génico. Otros ejemplos de marcadores seleccionables y escrutables son bien conocidos por los expertos en la técnica.

En un aspecto, el vector puede expresar segmentos de ADN que codifican múltiples polipéptidos de interés. Por ejemplo, los segmentos de ADN que codifican tanto la cadena pesada como la cadena ligera de inmunoglobulina pueden codificarse y expresarse mediante un único vector. En un aspecto, ambos segmentos de ADN pueden incluirse en el mismo ARN expresado y secuencias del sitio interno de unión al ribosoma (IRES) utilizadas para permitir la expresión de los segmentos de ADN como polipéptidos separados (Pinkstaff JK, Chappell SA, Mauro VP, Edelman GM, Krushel LA., Internal initiation of traslation of five dendritically localized neuronal mRNAs, Proc Natl Acad Sci USA.

27 de febrero de 2001; 98(5):2770-5. Publicación electrónica 20 de febrero de 2001). En otro aspecto, cada segmento de ADN tiene su propia región promotora que da como resultado la expresión de ARNm separados (Andersen CR, Nielsen LS, Baer A, Tolstrup AB, Weilguny D. Efficient Expression from One CMV Enchancer Controling Two Core Promoters. Mol Biotechnol. 27 de noviembre de 2010. [Publicación electrónica antes de impresión]).

C. Células anfitrionas y sistemas de expresión - descritos en el presente documento con fines ilustrativos

En algunos aspectos, una composición puede incluir una célula anfitriona. En algunos aspectos, una célula anfitriona puede incluir un polinucleótido o vector descritos en el presente documento. En algunos aspectos, una célula anfitriona puede incluir una célula eucariótica (p. ej., insecto, levadura o mamífero) o una célula procariótica (p. ej., bacteria). En el contexto de la expresión de una secuencia de ácido nucleico heterólogo, "célula anfitriona" puede referirse a una célula procariótica e incluye cualquier organismo transformable que sea capaz de replicar un vector y/o expresar un gen heterólogo codificado por un vector. Una célula anfitriona puede utilizarse, y se ha utilizado, como receptora de vectores. Una célula anfitriona puede "transfectarse" o "transformarse", lo que se refiere a un proceso mediante el cual se transfiere o introduce ácido nucleico exógeno en la célula anfitriona. Una célula transformada incluye la célula objeto principal y su progenie.

En aspectos particulares descritos en el presente documento, una célula anfitriona es una célula bacteriana Gram negativa. Estas bacterias son adecuadas para su uso porque poseen un espacio periplásmico entre la membrana interna y externa y, en particular, la membrana interna antes mencionada entre el periplasma y el citoplasma, que también se conoce como membrana citoplasmática. Como tal, podría utilizarse cualquier otra célula con tal espacio periplásmico. Los ejemplos de bacterias Gram negativas incluyen, pero no se limitan a, E. coli, Pseudomonas aeruginosa, Vibrio cholera, Salmonella typhimurium, Shigella flexneri, Haemophilus influenza, Bordetella pertussi, Erwinia amylovora, Rhizobium sp. La célula bacteriana Gram negativa puede definirse adicionalmente como una célula bacteriana que se ha transformado con la secuencia codificante de un polipéptido de fusión que comprende un polipéptido de unión candidato capaz de unirse a un ligando seleccionado. El polipéptido está anclado a la cara exterior de la membrana citoplásmica, de cara al espacio periplásmico, y puede comprender una secuencia codificante de anticuerpo u otra secuencia. Un medio para la expresión del polipéptido es el anclaje de una secuencia líder al polipéptido capaz de causar tal dirección.

Numerosas líneas de células procarióticas y cultivos están disponibles para su uso como célula anfitriona y se pueden obtener a través de la Colección Estadounidense de Cultivos Tipo (ATCC), que es una organización que sirve como archivo de cultivos vivos y materiales genéticos. El anfitrión apropiado puede ser determinado por un experto en la técnica basándose en la cadena principal del vector y el resultado deseado. Un plásmido o cósmido, por ejemplo, puede introducirse en una célula anfitriona procariótica para la replicación de muchos vectores. Las células bacterianas utilizadas como células anfitrionas para la replicación y/o expresión del vector incluyen DH5-alfa, JM109 y KC8, así como una serie de anfitriones bacterianos disponibles comercialmente tales como SURE™ Competent Cells y SOLOPACK™ Gold Cells (STRATAGENE™, La Jolla). En algunos aspectos, se contemplan otras células bacterianas tales como E. coli LE392 para su uso como células anfitrionas.

Están disponibles muchas células anfitrionas de varios tipos de células y organismos y serían conocidas por un experto en la técnica. De manera similar, un vector viral puede utilizarse junto con una célula anfitriona procariótica, particularmente una que sea permisiva para la replicación o expresión del vector. Algunos vectores pueden emplear secuencias de control que permitan su replicación y/o expresión tanto en células procarióticas como eucarióticas. Un experto en la técnica entenderá mejor las condiciones bajo las cuales incubar todas las células anfitrionas descritas anteriormente para mantenerlas y permitir la replicación de un vector. También se comprenden y conocen técnicas y condiciones que permitirían la producción a gran escala de vectores, así como la producción de ácidos nucleicos codificados por vectores y sus polipéptidos, proteínas o péptidos afines.

En algunos aspectos, la célula anfitriona es de mamífero. Los ejemplos incluyen células CHO, células CHO-K1 o células CHO-S. Otras células anfitrionas de mamífero incluyen células NS0 y células CHO que son dhfr-, p. ej., células CHO-dhfr-, CHO DUKX-B11 y células CHO DG44.

Existen numerosos sistemas de expresión que pueden comprender al menos una parte o la totalidad de las composiciones divulgadas en el presente documento. Los sistemas de expresión pueden incluir sistemas de expresión eucarióticos y sistemas de expresión procarióticos. Tales sistemas podrían utilizarse, por ejemplo, para la producción de un producto polipeptídico identificado como capaz de unirse a un ligando particular. Pueden emplearse sistemas basados en procariotas para producir secuencias de ácido nucleico, o sus polipéptidos, proteínas y péptidos afines. Muchos de estos sistemas están comercialmente y ampliamente disponibles. Otros ejemplos de sistemas de expresión comprenden vectores que contienen un promotor procariótico fuerte tal como los promotores T7, Tac, Trc, BAD, lambda pL, tetraciclina o Lac, el Sistema de Expresión pET y un sistema de expresión de E. coli.

D. Polipéptidos - descritos en el presente documento con fines ilustrativos

En algunos aspectos, una composición puede incluir un polipéptido. En algunos aspectos, un polipéptido codificado por un polinucleótido descrito en el presente documento puede expresarse, p. ej., a partir de una célula anfitriona. Los términos "polipéptido" o ''proteína'' incluyen una macromolécula que tiene la secuencia de aminoácidos de una proteína nativa, es decir, una proteína producida por una célula natural y no recombinante; o es producido por una célula modificada genéticamente o recombinante, y comprende moléculas que tienen la secuencia de aminoácidos de la proteína nativa, o moléculas que tienen deleciones, adiciones y/o sustituciones de uno o más aminoácidos de la secuencia nativa. El término también incluye polímeros de aminoácidos en los que uno o más aminoácidos son análogos químicos de un aminoácido natural correspondiente y polímeros. Los términos "polipéptido" y "proteína" abarcan proteínas de unión a antígeno, anticuerpos o secuencias que tienen deleciones, adiciones y/o sustituciones de uno o más aminoácidos de la proteína de unión a antígeno. El término "fragmento de polipéptido" se refiere a un polipéptido que tiene una deleción amino-terminal, una deleción carboxilo-terminal y/o una deleción interna en comparación con la proteína nativa de longitud completa. Tales fragmentos también pueden contener aminoácidos modificados en comparación con la proteína nativa. En ciertas realizaciones, los fragmentos tienen una longitud de aproximadamente cinco a 500 aminoácidos. Por ejemplo, los fragmentos pueden tener una longitud de al menos 5, 6, 8, 10, 14, 20, 50, 70, 100, 110, 150, 200, 250, 300, 350, 400 o 450 aminoácidos. Los fragmentos polipeptídicos útiles incluyen fragmentos inmunológicamente funcionales de anticuerpos, incluidos los dominios de unión. En el caso de un anticuerpo de unión, los fragmentos útiles incluyen, pero sin limitarse a, una región CDR, un dominio variable de una cadena pesada y/o ligera, una porción de una cadena de anticuerpo o simplemente su región variable que incluye dos CDR, y similares.

El término "proteína aislada" significa que una proteína en cuestión (1) está libre de al menos algunas otras proteínas con las que normalmente se encontraría, (2) está esencialmente libre de otras proteínas de la misma fuente, p. ej., de la misma especie, (3) se expresa en una célula de una especie diferente, (4) se ha separado de al menos aproximadamente 50 por ciento de los polinucleótidos, lípidos, carbohidratos u otros materiales con los que está asociado en la naturaleza, (5) está asociada operablemente (por interacción covalente o no covalente) con un polipéptido con el que no está asociado en la naturaleza, o (6) no se encuentra en la naturaleza. Típicamente, una "proteína aislada" constituye al menos aproximadamente 5%, al menos aproximadamente 10%, al menos aproximadamente 25% o al menos aproximadamente 50% de una muestra dada. El ADN genómico, el ADNc, el ARNm u otro ARN, los ácidos nucleicos de origen sintético o cualquier combinación de los mismos pueden codificar tal proteína aislada. Preferiblemente, la proteína aislada está sustancialmente libre de proteínas o polipéptidos u otros contaminantes que se encuentran en su entorno natural que podrían interferir en su uso terapéutico, de diagnóstico, profiláctico, de investigación u otro.

En algunos aspectos, un polipéptido puede incluir una proteína de unión a antígeno (ABP). Una "proteína de unión a antígeno" ("ABP") como se emplea en el presente documento significa cualquier proteína que se une a un antígeno diana específico. "Proteína de unión a antígeno" incluye, pero no se limita a, anticuerpos y partes de unión de los mismos, tales como fragmentos inmunológicamente funcionales. Los pépticuerpos son otro ejemplo de proteínas de unión a antígeno. El término "fragmento inmunológicamente funcional" (o simplemente "fragmento") de un anticuerpo o proteína de unión a antígeno de cadena de inmunoglobulina (cadena pesada o ligera), como se emplea en el presente documento, es una especie de proteína de unión a antígeno que comprende una porción (independientemente de cómo se obtenga o sintetice esa porción) de un anticuerpo que carece de al menos algunos de los aminoácidos presentes en una cadena de longitud completa pero que aún es capaz de unirse específicamente a un antígeno. Tales fragmentos son biológicamente activos ya que se unen al antígeno diana y pueden competir con otras proteínas de unión a antígeno, incluidos los anticuerpos intactos, para unirse a un epítopo dado. En algunas realizaciones, los fragmentos son fragmentos neutralizantes. Estos fragmentos biológicamente activos se pueden producir mediante técnicas de ADN recombinante, o se pueden producir mediante escisión enzimática o química de proteínas de unión a antígeno, incluidos anticuerpos intactos. Los fragmentos de inmunoglobulina inmunológicamente funcionales incluyen, pero sin limitarse a, Fab, un diacuerpo (dominio variable de cadena pesada en el mismo polipéptido que un dominio variable de cadena ligera, conectado a través de un conector peptídico corto que es demasiado corto para permitir el emparejamiento entre los dos dominios en la misma cadena), Fab', F(ab')2, Fv, anticuerpos de dominio y anticuerpos de cadena sencilla, y se pueden obtener a partir de cualquier fuente de mamífero, incluidos, pero sin limitarse a, seres humanos, ratones, ratas, camélidos o conejos. Se contempla adicionalmente que una porción funcional de las proteínas de unión a antígeno divulgadas en el presente documento, por ejemplo, una o más CDR, pudiera unirse covalentemente a una segunda proteína o a una molécula pequeña para crear un agente terapéutico dirigido a una diana concreta en el organismo, que posee propiedades terapéuticas bifuncionales, o que tiene una semivida sérica prolongada. Como apreciará un experto en la técnica, una proteína de unión a antígeno puede incluir componentes no proteicos. Los detalles adicionales a cerca de las proteínas de unión a antígeno y los anticuerpos tales como modificaciones, variantes, métodos de preparación y métodos de escrutinio se pueden encontrar en el documento WO 2009/026558 (Publicación de Patente de Estados Unidos Núm. 20110027287).

En algunos aspectos, un polipéptido puede incluir un anticuerpo. El término "anticuerpo" se refiere a una inmunoglobulina intacta de cualquier isotipo, o uno de sus fragmentos que puede competir con el anticuerpo intacto por la unión específica al antígeno diana, e incluye, por ejemplo, anticuerpos quiméricos, humanizados, completamente humanos y biespecíficos. Un "anticuerpo" es una especie de proteína de unión a antígeno. Un anticuerpo intacto generalmente comprenderá al menos dos cadenas pesadas de longitud completa y dos cadenas ligeras de longitud completa, pero en algunos casos puede incluir menos cadenas, tales como los anticuerpos que se encuentran de forma natural en los camélidos, que pueden comprender solo cadenas pesadas. Los anticuerpos pueden obtenerse únicamente a partir de una fuente única, o pueden ser "quiméricos", es decir, diferentes porciones del anticuerpo pueden obtenerse a partir de dos anticuerpos diferentes. Las proteínas de unión a antígeno, los anticuerpos o los fragmentos de unión se pueden producir en hibridomas, mediante técnicas de ADN recombinante o mediante escisión enzimática o química de anticuerpos intactos. A menos que se indique lo contrario, el término "anticuerpo" incluye, además de los anticuerpos que comprenden dos cadenas pesadas de longitud completa y dos cadenas ligeras de longitud completa, derivados, variantes, fragmentos y muteínas de los mismos. Además, a menos que se excluyan explícitamente, los anticuerpos incluyen anticuerpos monoclonales, anticuerpos biespecíficos, minicuerpos, anticuerpos de dominio, anticuerpos sintéticos (a veces denominados en el presente documento "miméticos de anticuerpos"), anticuerpos quiméricos, anticuerpos humanizados, anticuerpos humanos, fusiones de anticuerpos (a veces denominadas en el presente documento "productos conjugados de anticuerpo"), y fragmentos de los mismos, respectivamente. En algunas realizaciones, el término también abarca pepticuerpos.

Puede administrarse una cantidad terapéuticamente eficaz de una ABP a un sujeto que lo necesite. Las ABP se pueden formular en composiciones farmacéuticas. Estas composiciones pueden comprender, además de una o más de las ABP, un excipiente, portador, tampón, estabilizador u otros materiales farmacéuticamente aceptables bien conocidos por los expertos en la técnica. Tales materiales deben ser no tóxicos y no deben interferir en la eficacia del ingrediente activo. La naturaleza precisa del portador u otro material puede depender de la vía de administración, p. ej. vías oral, intravenosa, cutánea o subcutánea, nasal, intramuscular, intraperitoneal.

Las composiciones farmacéuticas para administración oral pueden estar en forma de comprimidos, cápsulas, polvo o líquido. Un comprimido puede incluir un portador sólido tal como gelatina o un coadyuvante. Las composiciones farmacéuticas líquidas generalmente incluyen un portador líquido tal como agua, petróleo, aceites animales o vegetales, aceite mineral o aceite sintético. Se pueden incluir solución salina fisiológica, dextrosa u otra solución de sacáridos o glicoles tales como etilenglicol, propilenglicol o polietilenglicol.

Para inyección intravenosa, cutánea o subcutánea, o inyección en el sitio de la aflicción, el ingrediente activo estará en forma de una solución acuosa parenteralmente aceptable que esté libre de pirógenos y tenga un pH, isotonicidad y estabilidad adecuados. Los expertos en la técnica son capaces de preparar soluciones adecuadas utilizando, por ejemplo, vehículos isotónicos tales como Inyección de Cloruro de Sodio, Inyección de Ringer, Inyección de Ringer con Lactato añadido. Se pueden incluir conservantes, estabilizadores, tampones, antioxidantes y/u otros aditivos, según se requiera.

La administración de ABP es preferiblemente en una "cantidad terapéuticamente eficaz" o "cantidad profilácticamente eficaz" (según sea el caso, aunque la profilaxis puede considerarse terapia), siendo esto suficiente para mostrar beneficio para el individuo. La cantidad real administrada y la velocidad y el curso temporal de la administración dependerán de la naturaleza y la gravedad de la enfermedad que se esté tratando. La prescripción de tratamiento, p. ej., decisiones sobre la dosificación, etc., es responsabilidad de los médicos generales y otros médicos, y normalmente tiene en cuenta el trastorno que se vaya a tratar, el estado del paciente individual, el sitio de suministro, el método de administración y otros factores conocidos por los facultativos. Se pueden encontrar ejemplos de las técnicas y protocolos mencionados anteriormente en Remington’s Pharmaceutical Sciences, 16a edición, Osol, A. (ed), 1980.

Una composición se puede administrar sola o combinada con otros tratamientos, ya sea simultánea o secuencialmente dependiendo de la afección que se vaya a tratar.

III. Células Inmunitarias

Una muestra puede incluir células inmunitarias. Las células inmunitarias pueden incluir células T y células B. Las células T (linfocitos T) incluyen, por ejemplo, células que expresan receptores de células T. Las células B incluyen, por ejemplo, células B activadas, células B en proliferación activadas, células plasmáticas, plasmablastos, células B de memoria, células B1, células B2, células B de la zona marginal y células B foliculares. Las células T incluyen células T activadas, células T en proliferación activadas, células T Auxiliares (células T efectoras o células Th), células T citotóxicas (CTL), células T de memoria, células T de memoria central, células T de memoria efectora y células T reguladoras. Una muestra puede incluir una sola célula (p. ej., una sola célula T o B) o al menos 1.000, al menos 10.000, al menos 100.000, al menos 250.000, al menos 500.000, al menos 750.000 o al menos 1.000.000 de células.

A. Células B

Como se emplea en el presente documento, una "célula B" se refiere a cualquier célula que tiene al menos un locus del gen de la inmunoglobulina reordenado. Una célula B puede incluir al menos un locus de cadena pesada de inmunoglobulina reordenado o al menos un locus de cadena ligera de inmunoglobulina reordenado. Una célula B puede incluir al menos un locus de cadena pesada de inmunoglobulina reordenado y al menos un locus de cadena ligera de inmunoglobulina reordenado. Las células B son linfocitos que forman parte del sistema inmunitario adaptativo. Las células B pueden incluir cualquier célula que exprese anticuerpos ya sea en la forma unida a la membrana como el receptor de células B (BCR) sobre la superficie celular o como anticuerpos secretados. Las células B pueden expresar inmunoglobulinas (anticuerpos, receptor de células B). Los anticuerpos pueden incluir heterodímeros formados a partir de las cadenas de inmunoglobulina pesada y ligera. La cadena pesada se forma a partir de reordenamientos genéticos de los genes variable, de diversidad y de unión (VDJ) para formar la región variable, que se une a la región constante. La cadena ligera se forma a partir de reordenamientos genéticos de los genes variable y de unión (VJ) para formar la región variable, que a continuación se une a la región constante. Debido a la gran cantidad posible de combinaciones de unión, las regiones variables del gen del anticuerpo (que también es el BCR) tienen una gran diversidad, lo que permite que las células B reconozcan cualquier antígeno foráneo y generen una respuesta contra él.

B. Activación y diferenciación de células B

Las células B se activan y diferencian cuando reconocen un antígeno en el contexto de una respuesta inmunitaria inflamatoria. Por lo general, incluyen 2 señales para activarse, una señal enviada a través de BCR (una forma unida a la membrana de la inmunoglobulina reordenada) y otra enviada a través de CD40 u otra molécula co-estimuladora. Esta segunda señal se puede proporcionar a través de la interacción con las células T auxiliares, que expresan el ligando de CD40 (CD40L) sobre su superficie. A continuación, las células B proliferan y pueden sufrir una hipermutación somática, donde se realizan cambios aleatorios en las secuencias de nucleótidos de los genes del anticuerpo, y se seleccionan las células B cuyos anticuerpos tienen una mayor afinidad por las células B. También pueden sufrir un "cambio de clase", en el que la región constante de la cadena pesada que codifica el isotipo IgM se cambia a la región constante que codifica el isotipo IgG, IgA o IgE. Las células B en diferenciación pueden terminar como células B de memoria, que suelen ser de mayor afinidad y experimentar cambio de clase, aunque algunas células B de memoria siguen siendo del isotipo IgM. Las células B de memoria también pueden activarse y diferenciarse a plasmablastos y, en última instancia, a células plasmáticas. Las células B en diferenciación también pueden convertirse primero en plasmablastos, que a continuación se diferencian para convertirse en células plasmáticas.

C. Maduración de la afinidad y familias clónales

Una familia clonal se define generalmente por el uso de secuencias V(D)J de cadena pesada y/o cadena ligera de inmunoglobulina relacionadas en 2 o más muestras. Las secuencias V(D)J de cadena pesada de inmunoglobulina relacionadas pueden identificarse por su uso compartido de segmentos génicos V(D)J codificados en el genoma. Dentro de una familia clonal, generalmente hay subfamilias que varían según las mutaciones compartidas dentro de sus segmentos V(D)J, que pueden surgir durante la recombinación del gen de la célula B y la hipermutación somática.

Las células B activadas migran y forman centros germinales dentro de los tejidos linfoides u otros, donde experimentan una maduración de la afinidad. Las células B también pueden sufrir una maduración de la afinidad fuera de los centros germinales. Durante la maduración de la afinidad, las células B experimentan mutaciones aleatorias en sus genes de anticuerpos, concentrados en las regiones determinantes de complementariedad (CDR) de los genes, que codifican las partes del anticuerpo que se unen directamente y reconocen el antígeno diana contra el que se activó la célula B. Esto crea subclones a partir de la célula B original en proliferación que expresan inmunoglobulinas que son ligeramente diferentes del clon original y entre sí. Los clones compiten por el antígeno y se seleccionan los clones de mayor afinidad, mientras que los clones de menor afinidad mueren por apoptosis. Este proceso da como resultado la "maduración de la afinidad" de las células B y, en consecuencia, la generación de células B que expresan inmunoglobulinas que se unen al antígeno con mayor afinidad. Todas las células B que se originan a partir de la misma célula B "progenitora" forman familias clonales, y estas familias clonales incluyen células B que reconocen epítopos antigénicos iguales o similares. En algunos aspectos, los autores de la presente invención esperan que los clones presentes a frecuencias más altas representen clones que se unen al antígeno con mayor afinidad, ya que los clones de mayor afinidad se seleccionan durante la maduración de la afinidad. En algunos aspectos, los clones con diferente uso del segmento V(D)J exhiben diferentes características de unión. En algunos aspectos, los clones con el mismo uso del segmento V(D)J pero con diferentes mutaciones exhiben diferentes características de unión.

D. Células B de memoria

Las células B de memoria suelen ser células B maduradas de la afinidad y pueden cambiar de clase. Estas son células que pueden responder más rápidamente a una sensibilización antigénica posterior, lo que reduce significativamente el tiempo incluido para la secreción de anticuerpos madurados de la afinidad contra el antígeno de ~14 días en un organismo sin exposición antigénica previa a ~7 días.

E. Plasmablastos y células plasmáticas

Las células plasmáticas pueden ser de vida prolongada o corta. Las células plasmáticas de vida prolongada pueden sobrevivir durante toda la vida del organismo, mientras que las células plasmáticas de vida corta pueden durar de 3-4 días. Las células plasmáticas de vida prolongada residen en áreas de inflamación, en las zonas mucosas (en el caso de las células plasmáticas secretoras de IgA), en tejidos linfoides secundarios (tales como el bazo o los ganglios linfáticos) o en la médula ósea. Para llegar a estas zonas divergentes, los plasmablastos destinados a convertirse en células plasmáticas de vida prolongada pueden viajar primero a través del torrente sanguíneo antes de utilizar varios gradientes de quimioquinas para trasladarse a las zonas apropiadas. Los plasmablastos son células que han madurado de la afinidad, típicamente han experimentado un cambio de clase y, normalmente, secretan anticuerpos, aunque generalmente en cantidades más bajas que la cantidad de anticuerpo producido por las células plasmáticas. Las células plasmáticas son secretoras de anticuerpos específicos.

F. Características de los genes TCR y BCR

Dado que las recombinaciones de identificación están presentes en el ADN de cada célula inmunitaria adaptativa individual, así como en sus transcritos de ARN asociados, se puede secuenciar tanto el ARN como el ADN. Una secuencia recombinada de una célula T o una célula B también puede denominarse clonotipo. El ADN o el ARN pueden corresponder a secuencias de genes del receptor de células T (TCR) o genes de inmunoglobulina (Ig) que codifican anticuerpos. Por ejemplo, el ADN y el ARN pueden corresponder a secuencias que codifican cadenas alfa, beta, gamma o delta de un TCR. En la mayoría de las células T, el TCR es un heterodímero que consiste en una cadena alfa y una cadena beta. La cadena alfa de TCR se genera mediante la recombinación VJ y el receptor de la cadena beta se genera mediante la recombinación V(D)J. Para la cadena beta de TCR, en seres humanos hay 48 segmentos V, 2 segmentos D y 13 segmentos J. Se pueden eliminar varias bases y añadir otras (llamadas nucleótidos N y P) en cada una de las dos uniones. En una minoría de células T, los TCR consisten en cadenas gamma y delta. La cadena gamma de TCR se genera por recombinación VJ, y la cadena delta de TCR se genera por recombinación V(D)J (Kenneth Murphy, Paul Travers y Mark Walport, Janeway's Immunology 7a edición, Garland Science, 2007).

El ADN y el ARN analizados en los métodos pueden corresponder a secuencias que codifican inmunoglobulinas de cadena pesada (IgH) con regiones constantes (alfa, delta, gamma, épsilon o mu) o inmunoglobulinas de cadena ligera (IgK o IgL) con regiones constantes lambda o kappa. Cada anticuerpo puede tener dos cadenas ligeras idénticas y dos cadenas pesadas idénticas. Cada cadena está compuesta por una región constante (C) y una variable. Para la cadena pesada, la región variable se compone de los segmentos variable (V), de diversidad (D) y de unión (J). Varias secuencias distintas que codifican cada tipo de estos segmentos están presentes en el genoma. Un evento de recombinación VDJ específico ocurre durante el desarrollo de una célula B, marcando esa célula para generar una cadena pesada específica. La diversidad en la cadena ligera se genera de manera similar, excepto que no hay región D, por lo que solo hay recombinación VJ. La mutación somática a menudo ocurre cerca del sitio de la recombinación, lo que provoca la adición o deleción de varios nucleótidos, lo que aumenta aún más la diversidad de cadenas pesadas y ligeras generadas por las células B. La posible diversidad de anticuerpos generados por una célula B es en ese caso el producto de las diferentes cadenas pesadas y ligeras. Las regiones variables de las cadenas pesada y ligera contribuyen a formar la región o sitio de reconocimiento (o unión) a antígeno. A esta diversidad se suma un proceso de hipermutación somática que puede ocurrir después de que se monte una respuesta específica contra algún epítopo. En este proceso, se producen mutaciones en aquellas células B que pueden reconocer el epítopo específico, lo que conduce a una mayor diversidad de anticuerpos que pueden unirse al epítopo específico con más fuerza. Todos estos factores contribuyen a la gran diversidad de anticuerpos generados por las células B. Se pueden generar muchos miles de millones y tal vez más de un billón de anticuerpos distintos. La premisa básica para generar diversidad de células T es similar a la de generar anticuerpos por células B. Un elemento de la activación de las células T y las células B es su unión a los epítopos. La activación de una célula específica conduce a la producción de más del mismo tipo de células que conducen a una expansión clonal.

Las regiones determinantes de la complementariedad (CDR), o regiones hipervariables, son secuencias en los dominios variables de los receptores de antígenos (p. ej., receptor de células T e inmunoglobulina) que pueden unirse a un antígeno. La cadena de cada receptor de antígeno contiene tres CDR (CDR1, CDR2 y CDR3). Los dos polipéptidos que producen las células T (alfa y beta) y la inmunoglobulina (IgH e IgK o IgL) contribuyen a la formación de las tres CDR.

La parte de CDR1 y CDR2 codificada por TCR-beta se encuentra dentro de uno de los 47 segmentos V funcionales. La mayor parte de la diversidad de las CDR se encuentra en CDR3, siendo la diversidad generada por eventos de recombinación somática durante el desarrollo de los linfocitos T.

Está presente una gran diversidad de BCR inter e intraindividuos. El BCR está compuesto por dos genes IgH e IgK (o IgL) que codifican las cadenas pesada y ligera del anticuerpo. Tres secuencias de Regiones Determinantes de Complementariedad (CDR) que se unen a antígenos y moléculas del MHC tienen la mayor diversidad en IgH e IgK (o IgL). La parte de CDR1 y CDR2 codificada por IgH se encuentra dentro de uno de los 44 segmentos V funcionales. La mayor parte de la diversidad en las células B sin exposición antigénica previa surge en la generación de CDR3 a través de eventos de recombinación somática durante el desarrollo de los linfocitos B. La recombinación puede generar una molécula con uno de cada uno de los segmentos V, D y J. En los seres humanos, hay 44 segmentos V, 27 D y 6 J; así, existe una posibilidad teórica de más de 7.000 combinaciones. En una pequeña fracción de BCR (aproximadamente 5%) se encuentran dos segmentos D. Además, se pueden suprimir varias bases y añadir otras (llamadas nucleótidos N y P) en cada una de las dos uniones generando un alto grado de diversidad. Después de la activación de las células B, se produce un proceso de maduración de la afinidad a través de la hipermutación somática. En este proceso, las células de la progenie de las células B activadas acumulan distintas mutaciones somáticas en todo el gen con una mayor concentración de mutación en las regiones CDR que conduce a la generación de anticuerpos con mayor afinidad por los antígenos. Además de la hipermutación somática, las células B activadas experimentan el proceso de cambio de isotipo. Los anticuerpos con los mismos segmentos variables pueden tener diferentes formas (isotipos) dependiendo del segmento constante. Mientras que todas las células B sin exposición antigénica previa expresan IgM (o IgD), las células B activadas expresan principalmente IgG, pero también IgM, IgA e IgE. Este cambio de expresión de IgM (y/o IgD) a IgG, IgA o IgE ocurre a través de un evento de recombinación que hace que una célula se especialice en producir un isotipo específico. Hay un segmento para cada IgM, IgD e IgE, dos segmentos para IgA y cuatro segmentos para IgG.

IV. Implementaciones en Ordenador - Descritas en el Presente Documento con Fines Ilustrativos

En algunos aspectos, uno o más métodos descritos en el presente documento pueden implementarse en un ordenador. En un aspecto descrito en el presente documento, un ordenador comprende al menos un procesador acoplado a un conjunto de chips. En algunos aspectos descritos en el presente documento, el conjunto de chips está acoplado a una memoria, un dispositivo de almacenamiento, un teclado, un adaptador de gráficos, un dispositivo señalador y/o un adaptador de red. Típicamente se acopla una pantalla al adaptador de gráficos. En un aspecto, la funcionalidad del conjunto de chips la proporciona un concentrador de controladores de memoria y un concentrador de controladores de E/S. En otro aspecto, la memoria se acopla directamente al procesador en lugar de al conjunto de chips.

El dispositivo de almacenamiento es cualquier dispositivo capaz de almacenar datos, como un disco duro, un disco compacto de memoria de solo lectura (CD-ROM), un DVD o un dispositivo de memoria de estado sólido. La memoria contiene instrucciones y datos utilizados por el procesador. El dispositivo señalador puede ser un ratón, bola de seguimiento u otro tipo de dispositivo señalador, y se utiliza combinado con el teclado para introducir datos en el sistema informático. El adaptador de gráficos muestra imágenes y otra información en la pantalla. El adaptador de red acopla el sistema informático a una red de área local o amplia.

Como se sabe en la técnica, un ordenador puede tener componentes diferentes y/o componentes distintos de los descritos anteriormente. Además, el ordenador puede carecer de ciertos componentes. Por otra parte, el dispositivo de almacenamiento puede ser local y/o remoto desde el ordenador (tal como incorporado dentro de una red de área de almacenamiento (SAN)).

Como se sabe en la técnica, el ordenador está adaptado para ejecutar módulos de programas informáticos para proporcionar la funcionalidad descrita en el presente documento. Como se utiliza en el presente documento, el término "módulo" se refiere a la lógica del programa informático utilizada para proporcionar la funcionalidad especificada. Por lo tanto, se puede implementar un módulo con soporte físico, soporte lógico inalterable y/o soporte lógico. En una realización, los módulos de programa se almacenan en el dispositivo de almacenamiento, se cargan en la memoria y el procesador los ejecuta.

Los aspectos de las entidades descritas en el presente documento pueden incluir otros módulos y/o módulos diferentes de los aquí descritos. Además, la funcionalidad atribuida a los módulos puede ser realizada por otros o diferentes módulos en otras realizaciones. Por otra parte, esta descripción omite ocasionalmente el término "módulo" con fines de claridad y conveniencia.

V. KITS - Descritos en el Presente Documento con Fines Ilustrativos

En el presente documento se divulgan adicionalmente kits que comprenden construcciones adaptadoras descritas en el presente documento. Un kit puede comprender una pluralidad de soportes sólidos acoplados a construcciones adaptadoras descritas en el presente documento. En algunos aspectos descritos en el presente documento, el kit comprende una biblioteca de moldes de adaptadores que comprende una pluralidad de moldes de adaptadores. En algunos aspectos descritos en el presente documento, el kit comprende una biblioteca de moldes de adaptadores que comprende una pluralidad de moldes de adaptadores acoplados a una pluralidad de soportes sólidos. El kit puede comprender adicionalmente enzimas para generar una molécula adaptadora (p. ej., una molécula adaptadora de código de barras) descrita en el presente documento a partir de la construcción del molde de adaptador mediante una reacción enzimática. En algunos aspectos descritos en el presente documento, el kit comprende un tampón de suspensión celular descrito en el presente documento.

Un kit puede incluir un polinucleótido, una biblioteca de polinucleótidos, un vector y/o una célula anfitriona divulgada en el presente documento e instrucciones de uso. Los kits pueden comprender, en un recipiente adecuado, un polinucleótido, una biblioteca de polinucleótidos, un vector y/o una célula anfitriona divulgados en el presente documento, uno o más controles y varios tampones, reactivos, enzimas y otros ingredientes convencionales bien conocidos en la técnica.

El recipiente puede incluir al menos un pocillo en una placa que comprende uno o más pocillos. El recipiente puede incluir al menos un vial, tubo de ensayo, matraz, frasco, jeringa u otro medio de recipiente, en el que se puede colocar un polinucleótido, una biblioteca de polinucleótidos, un vector y/o una célula anfitriona y, en algunos casos, dividir en alícuotas adecuadamente. Cuando se proporciona un componente adicional, el kit puede contener recipientes adicionales en los que se puede colocar este componente. Los kits también pueden incluir un medio para contener el polinucleótido, una biblioteca de polinucleótidos, un vector y/o una célula anfitriona y cualquier otro recipiente de reactivos en un espacio cerrado para la venta comercial. Tales recipientes pueden incluir recipientes de plástico moldeados por inyección o soplado en los que se conservan los viales deseados. Los recipientes pueden incluir un etiquetado con instrucciones de uso y/o advertencias.

VI. Dispositivos - Descritos en el Presente Documento con Fines Ilustrativos

Las realizaciones de la presente invención incluyen dispositivos para generar y transportar volúmenes de reacción. Estos volúmenes se pueden producir a una escala de microfluido y pueden separarse en fases a partir de un fluido portador. Los ejemplos de volúmenes de reacción que pueden manejar los dispositivos incluyen gotitas acuosas en una emulsión inversa (es decir, una emulsión de agua/aceite). Los dispositivos permiten que los moldes de adaptadores de códigos de barras, las moléculas adaptadoras de códigos de barras, las muestras (p. ej., células) y/o los ARN obtenidos de estas muestras se encapsulen en gotitas, por separado o juntas. Los dispositivos también permiten que los reactivos se introduzcan en gotitas, de modo que las moléculas adaptadoras de códigos de barras se puedan generar enzimáticamente y los ARN de muestras únicas se puedan registrar con códigos de barras.

Los ejemplos no limitantes de dispositivos utilizados y reivindicados en el presente documento se representan en las FIGS. 17-19 con fines ilustrativos. Un experto en la técnica reconocerá que también se pueden construir y utilizar variaciones de estos dispositivos en los presentes métodos. Un dispositivo generalmente incluye tres vías de microfluido, cada una acoplada a una fuente de presión y un sensor de flujo. La fuente de presión para una vía de microfluido impulsa el fluido a través de la vía, y el sensor de flujo, que se encuentra aguas abajo de la fuente de presión, se puede utilizar para medir el caudal a través de la vía. En algunas realizaciones, la primera vía 101 y la segunda vía 102 se fusionan en una primera unión 104 para formar una vía combinada, que a continuación se fusiona con la tercera vía 103 en una segunda unión 105. La segunda unión se produce en un chip de gotitas de microfluido y puede ser un sitio donde se generan gotitas de microfluido.

Los dispositivos que se describen en el presente documento se pueden ensamblar a partir de componentes de fluidos y tubos disponibles de IDEX Corporation (Lake Forest, Illinois, EE. UU.) y utilizando un chip de gotitas de microfluido disponible de Dolomite Microfluidics (Charlestown, Massachusetts, EE. UU.). Algunas características del chip de gotitas de microfluido se describen en las Patentes de Estados Unidos Núm. 7.268.167, 7.375.140, 7.717.615, 7.772.287, 8.741.192, y 8.883.864. Las fuentes de presión adecuadas incluyen bombas de jeringa y bombas de presión. Las bombas de presión están disponibles en Dolomite Microfluidics. Las fuentes de presión se pueden controlar de forma independiente.

En algunos aspectos descritos en el presente documento, las primera y segunda vías de microfluido transportan soluciones acuosas. Cada vía puede incluir un puerto de inyección y una válvula (p. ej., una válvula de cuatro vías) para llevar una solución introducida en el puerto de inyección en línea con la vía. En algunos aspectos descritos en el presente documento, un depósito que contiene un fluido portador acuoso está dispuesto aguas arriba de cada válvula de cuatro vías. El fluido portador acuoso puede mezclarse con una solución acuosa en la válvula de cuatro vías a medida que el fluido portador es impulsado aguas abajo, o empujar un tapón de la solución acuosa aguas abajo hacia la primera unión. En algunos aspectos descritos en el presente documento, se dispone un regulador de flujo en cada vía de microfluido.

Una vez que se introduce una solución acuosa en la primera o segunda vías de microfluido, esta puede pasar a través de un bucle de muestra que mide el flujo de la solución hacia la primera unión. La dosificación se puede lograr según se desee, por ejemplo, utilizando la resistencia del fluido o válvulas dispuestas a lo largo del bucle de muestra. En algunos aspectos descritos en el presente documento, un bucle de muestra está asociado con cada una de las primera y segunda vías de microfluido, y los bucles de muestra están en contacto con una unidad de refrigeración térmica. La unidad de refrigeración térmica se puede incluir para evitar la desnaturalización térmica de enzimas, ácidos nucleicos u otros componentes biológicos en las soluciones acuosas, o para establecer temperaturas óptimas para reacciones enzimáticas. Las porciones de la unidad de refrigeración térmica en contacto con los bucles de muestra para la primera y la segunda vías de microfluido pueden controlarse de forma independiente o conjunta. Se puede utilizar cualquier sustancia o aparato como unidad de refrigeración térmica siempre que pueda hacer que las temperaturas de las soluciones acuosas que pasan a través de los bucles de muestra se desvíen de la temperatura ambiente. Los ejemplos de dispositivos de refrigeración térmica adecuados son dispositivos Peltier y cubetas de hielo.

En algunos aspectos descritos en el presente documento, la solución acuosa transportada a través de la primera vía de microfluido contiene células y cuentas con moldes de adaptadores de códigos de barras. En algunos aspectos descritos en el presente documento, la solución acuosa transportada a través de la segunda vía de microfluido contiene reactivos para la lisis celular y reactivos para producir polinucleótidos de interés (p. ej., enzimas para generar moléculas adaptadoras de códigos de barras). El puerto de inyección, la válvula y/o el bucle de muestra asociados con cada vía de microfluido se pueden configurar o personalizar para acomodar el contenido de la solución acuosa que pasa por esa vía. Por ejemplo, el bucle de muestra asociado con la primera vía de microfluido puede tener un diámetro interior ampliado para acomodar células y cuentas. Se reconocerá que existen muchas otras opciones para asignar células, cuentas y reactivos entre la primera y la segunda vías de microfluido, de modo que todos estos componentes se combinen en la primera unión. Por ejemplo, las células se pueden transportar a través de la primera vía de microfluido y las cuentas se pueden transportar a través de la segunda vía de microfluido. Cada vía se puede configurar como se desee, en vista del contenido de la solución acuosa que transporta.

La vía combinada que resulta de la fusión de la primera vía de microfluido y la segunda vía de microfluido se fusiona a su vez con la tercera vía de microfluido en el chip de gotitas de microfluido. Esto ocurre en la segunda unión, que está aguas abajo de la primera unión. Se puede establecer cualquier distancia deseada entre la primera unión y la segunda unión. En algunos aspectos descrito en el presente documento, la primera unión también se encuentra dentro del chip de gotitas de microfluido. En algunos aspectos descritos en el presente documento, la primera unión está inmediatamente aguas arriba de la segunda unión, de modo que el fluido en la vía combinada viaja una distancia despreciable (por ejemplo, menos de 10, 3, 1, 0,3 o 0,1 cm) antes de combinarse con fluido de la tercera vía de microfluido. Esta disposición puede reducir la mezcla de componentes en la ruta combinada. En algunos aspectos descritos en el presente documento, las dimensiones de las vías de microfluido en el dispositivo, dentro y/o fuera del chip de gotitas de microfluido, son tales que el movimiento de los fluidos se rige por el flujo laminar.

La tercera vía de microfluido se puede configurar para suministrar una mezcla de aceite/tensioactivo al chip de gotitas de microfluido. Por lo tanto, en la segunda unión del dispositivo, las fases acuosa e hidrófoba se pueden mezclar y se pueden formar gotitas de microfluido. La geometría de la segunda unión se puede seleccionar para garantizar que estas gotitas tengan las características deseadas. Por ejemplo, se puede seleccionar una geometría para facilitar la formación de gotitas monodispersas, que tengan los tamaños deseados y estén separadas entre sí por las distancias deseadas, a caudales adecuados en las vías de microfluido. En algunos aspectos descritos en el presente documento, la tercera vía de microfluido se divide en dos subvías aguas arriba del chip de gotitas de microfluido, que a continuación se fusionan junto con la vía combinada (acuosa) en la segunda unión. Las dos subvías pueden aproximarse entre sí a un ángulo grande (por ejemplo, aproximadamente o al menos 30, 60, 90, 120, 150 o 180 grados), de modo que la mezcla de aceite/tensioactivo forme una vaina alrededor de la mezcla acuosa a medida que entra en la segunda unión. Con esta geometría, las gotitas acuosas se separan de la mezcla acuosa y fluyen aproximadamente en la misma dirección que la mezcla acuosa cuando salen de la unión. Este enfoque para generar gotitas se conoce en la técnica como enfoque de flujo. En otros aspectos descritos en el presente documento, la vía acuosa combinada se cruza con la tercera vía de microfluido en ángulo recto, proporcionando así a la segunda unión una geometría de unión en T. En estos aspectos, una mezcla de aceite/tensioactivo fluye directamente a través de la unión. La mezcla acuosa se acerca a la unión en una dirección perpendicular a aquella en la que las gotitas formadas a partir de esta mezcla se alejan de la unión. La física de la formación de gotitas en varias geometrías de microfluido es descrita por Thorsen et al., en Phys. Rev. Lett. 86, 4163-4166, 2001, y en otros lugares.

La vía de fluido que contiene gotitas, que resulta de la fusión de la vía combinada que contiene una mezcla acuosa y la tercera vía de microfluido que contiene una mezcla de aceite/tensioactivo, constituye una vía de muestra. La vía de muestra se envía a un recipiente de recolección de muestras, que se encuentra aguas abajo de la segunda unión. En el recipiente de recogida de muestras, las gotitas pueden someterse a ciclos térmicos. Las gotitas también se pueden romper y se pueden recolectar los ácidos nucleicos con código de barras.

En funcionamiento, el dispositivo descrito en el presente documento se puede utilizar para encapsular cuentas y células con moldes de adaptadores de códigos de barras en gotitas de microfluido acuosas, de modo que cada gota contenga aproximadamente una cuenta y una célula como promedio. El número de cuentas y células en cada gotita se puede ajustar según se desee, por ejemplo, ajustando las concentraciones de cuentas o células en las soluciones cargadas en el dispositivo, o ajustando los caudales en las tres vías de microfluido. Los reactivos incluidos en cada gotita permiten generar enzimáticamente moléculas adaptadoras de códigos de barras a partir de una cuenta en la gotita. Estos reactivos también permiten lisar una célula y que los ARN de la célula se sometan a reacciones de registro con códigos de barras. Por lo tanto, los ARN de la célula se pueden registrar con códigos de barras dentro de la gotita, y los ácidos nucleicos obtenidos a partir de estos ARN (y que contienen una secuencia de código de barras) se pueden rastrear posteriormente hasta una célula cuando se mezclan los ácidos nucleicos de varias células.

VII. Ejemplos

A. Ejemplo 1: Preparación de una biblioteca de cuentas con moldes de adaptadores de códigos de barras en una sola reacción.

El método descrito a continuación se utilizó para crear una biblioteca de cuentas con moldes de adaptadores de códigos de barras utilizando PCR en emulsión, donde se realizó la reacción en cadena de la polimerasa (PCR) para anclar moldes de adaptadores de códigos de barras únicos a cada cuenta (véase la FIG. 15).

Tabla 4: Oligos utilizados para preparar una biblioteca de cuentas con moldes de adaptadores de códigos de barras en una sola reacción

Se acoplaron Dynabeads® M-270 recubiertas de estreptavidina (Life Technologies) con oligonucleótido biotinilado ("emB_T7bridge2"):

1. Las cuentas se resuspendieron removiendo suavemente

2. Se colocó 1 mL de cuentas M270 (aprox. 6,7 x 108 cuentas) en cada uno de tres tubos de microcentrífuga de 1,5 mL, para un total de 3 mL

3. Se colocaron en el imán durante 3 minutos.

4. Se eliminó el sobrenadante de cada tubo y se resuspendió en 1 mL (1x vol) de Tampón de Unión/Lavado (BWB; NaCl 1 M, Tris 5 mM, EDTA 0,5 mM)

5. La etapa 4 se repitió dos veces más seguida de la resuspensión final en un volumen de 540 pL de BWB

6. Se añadieron 60 pL de emB_T7bridge2 100 pM a las cuentas y se incubaron durante 15 minutos con rotación suave.

7. Después de la incubación, las cuentas se lavaron 3 veces con 1 mL de tampón BWB y se combinaron en un solo tubo.

8. Las cuentas se almacenaron a 4°C con azida de sodio al 0,01%.

9. Las cuentas se lavaron 3 veces con Tris 10 mM antes de su uso

Se añadieron oligonucleótidos de código de barras y cebadores directos e inversos a las cuentas acopladas desde arriba en una PCR basada en emulsión:

1. Se preparó la siguiente mezcla de PCR (3 mL de volumen total) en tres tubos de microcentrífuga de 1,5 mL (VWR Núm. de Cat. 20170-650):

ddhLO 715,9 pL

10X Tampón de PCR HiFi 100 pL

MgSO450 mM 50 pL

Mezcla de dNTP 10 mM 20 pL Dynabeads marcadas con emB_T7bridge2 (1,2x107 cuentas/pL) 50 pL emB_T7bridgefree (10 pM) 4 pL emB_BCandbridge2 (1 p. m.) 16,6 pL

emB_Rv3 (100 pM) 30 pL Pirofosfatasa inorgánica termoestable (NEB 2.000 unidades/mL) 1,5 pL

Platinum Taq Hifi (Life Technologies, 5 unidades/pL) 12 pL

Volumen total 1000 pL

2. Se preparó una mezcla de aceite y tensioactivo (1 mL de volumen total):

a. Aceite mineral (Sigma) 900 pL

b. EM90 (Evonik) 100 uL

3. Se combinaron 800 pL de mezcla de aceite y tensioactivo y 200 pL de mezcla para PCR en cada uno de 15 tubos de microcentrífuga de fondo cónico Maxymum Recovery de 2,0 mL Axygen (MCT-200-L-C). Los tubos se sellaron y se sometieron a movimiento oscilante durante 3 segundos.

4. Los tubos se colocaron en un Qiagen TissueLyzer II y se sometieron a movimiento oscilante durante 5 minutos a 14 Hz.

5. La emulsión se dividió entre los pocillos de una placa de PCR de 96 pocillos VWR (83007-374), con 160 pL de emulsión añadidos por pocillo 6

6. Los tubos se sometieron a termocilado utilizando el siguiente programa:

Inicial:

94°C 2'

35 Ciclos: 94°C 20"

42°C 30"

68°C 15"

50 Ciclos: 55°C 5,5'

72°C 30"

Extensión final: 68°C 5'

Mantenimiento: 102C mantener

Se rompió la emulsión y se recuperaron las cuentas:

1. El contenido de la placa de PCR se transfirió a tubos de microcentrífuga de 1,5 mL (VWR 20170-650), con un volumen de emulsión de no más de 0,5 mL por tubo

2. Se añadieron 100 ul de cebador emB_T7bridgefree 1 uM a cada tubo

3. Los tubos se completaron con isobutanol, se sellaron y se sometieron a movimiento oscilante para mezclar bien 4. Los tubos se centrifugaron durante 1 min a 14.000 rpm

5. Los tubos se colocaron sobre una tira magnética para atraer las cuentas hacia los lados de los tubos, a continuación, se aspiró la mayor cantidad posible de sobrenadante mientras se dejaban atrás las cuentas sedimentadas.

6. Se añadió 1 mL de isobutanol, se mezcló bien pipeteando hacia arriba y hacia abajo hasta que el volumen restante de aceite/emulsión se dispersó en el isobutanol.

7. Los tubos se colocaron sobre una tira magnética para atraer las cuentas hacia los lados de los tubos, a continuación, se aspiró el isobutanol. Las cuentas de todos los tubos se combinaron en un solo tubo aspirando primero el sobrenadante del tubo en el que se combinarán las cuentas y a continuación transfiriendo el volumen completo de otro tubo, proporcionando tiempo para que las cuentas se recolecten en el imán, aspirando a continuación el sobrenadante y repitiendo

8. Se añadió 1 mL de isobutanol de nueva aportación, se mezcló bien y se dejó reposar durante 60 segundos 9. Se aspiró el isobutanol

10. Se añadió 1 mL de etanol del 100%, se mezcló bien y se dejó reposar durante 60 segundos

11. Se aspiró el etanol

12. Se repitieron las etapas 10 y 11

13. Se añadió 1 mL de etanol del 70%, se mezcló bien y se dejó reposar durante 60 segundos

14. Se aspiró el etanol

15. Se repitieron las etapas 13 y 14

16. Se añadió 1 mL de PBS, se mezcló bien y se dejó reposar durante 60 segundos.

17. Se aspiró el PBS

18. Se repitieron las etapas 16 y 17

Las cuentas que incorporaron moldes con adaptadores de códigos de barras se separaron a continuación de las cuentas no registradas con códigos de barras utilizando un Becton Dickinson FACS Aria III, que utilizaba la fluorescencia del colorante Alexa Fluor 647 incorporado al cebador inverso emB_Rv3.

Las cuentas se almacenaron en azida de sodio al 0,01% a 4°C para su almacenamiento.

Téngase en cuenta que en este ejemplo se preparan cuentas con moldes de adaptadores de códigos de barras con una secuencia del promotor de ARNP de T7 para la amplificación de adaptadores de códigos de barras mediante ARNP de T7. Al reemplazar la secuencia del promotor de ARNP de T7 "t Aa TAC GAC TCA CTA TAG G" (SEQ ID NO: 6) en emB-T7bridge2 por otras secuencias del promotor de ARNP, los adaptadores de códigos de barras se pueden amplificar utilizando otras ARNP. Asimismo, al reemplazar la secuencia del promotor con un sitio de endonucleasa de mellado, tal como "CCT CAG C" de Nt.BbvCI, los adaptadores de códigos de barras se pueden amplificar utilizando una endonucleasa de mellado (p. ej., Nt.BbvCI) y un ADNP de desplazamiento de hebra, tal como Klenow exo-.

Asimismo, "HH HTH HHH THH HHT HHH THH HH" (SEQ ID NO:3) en emB-BCbridge2 proporciona ~387 millones de códigos de barras únicos. Cuando esta biblioteca de códigos de barras se utiliza para registrar con códigos de barras incluso, por ejemplo, 10 millones de células, solo se utiliza 2,5% de los códigos de barras únicos. Se espera que la mayoría de los códigos de barras estén a una distancia suficiente entre sí para que la mayoría de las lecturas de secuencias de códigos de barras de la secuenciación NextGen se distingan fácilmente entre sí (con una proporción de lecturas descartadas), independientemente de los errores de PCR y secuenciación.

La emulsión se puede hacer utilizando una variedad de métodos conocidos en el campo y, en este caso, se hizo utilizando un método con movimiento oscilante y las gotitas resultantes se polidispersaron con un diámetro de gotita promedio de ~25 pm. Los oligonucleótidos de código de barras se amplificaron con cebadores directos e inversos y el cebador inverso se marcó con una etiqueta fluorescente, que en este ejemplo era Alexa Fluor 647, de modo que las cuentas que incorporaban el molde de adaptador de código de barras se distinguían de las cuentas sin marcar. Las cuentas fluorescentes brillantes que incorporaron el molde de adaptador de código de barras se separaron a continuación mediante FACS de las cuentas no marcadas sin etiquetar.

A las concentraciones especificadas de cuentas y oligonucleótidos de código de barras en este ejemplo, mediante distribución de Poisson, las cuentas se cargaron en gotitas a un promedio de ~7 cuentas por gotita, y los autores de la presente invención observaron que aproximadamente 28% de las gotitas contenían una o más copias de un único oligonucleótido de código de barras, mientras que el resto de las gotitas no contenían ningún oligonucleótido de código de barras. De las gotitas que contenían al menos un oligonucleótido de código de barras, ~70% debería contener exactamente un oligonucleótido de código de barras, mientras que ~30% restante debería contener dos o más códigos de barras. Por lo tanto, ~70% de la biblioteca de cuentas con adaptadores de moldes de códigos de barras era monoclonal (una secuencia de código de barras única por cuenta) y ~30% era policlonal.

El rendimiento final del método que se describe a continuación fue de prácticamente 12 millones de cuentas con moldes de adaptadores de códigos de barras, de las cuales aproximadamente 8,4 millones son cuentas con moldes de adaptadores de códigos de barras monoclonales. Y aunque las gotitas se cargaron con ~7 cuentas por gotita como promedio, después de romper la emulsión, el rendimiento de las cuentas fue de ~2%. Basándose en una distribución binomial, estaban presentes ~7,7 millones de secuencias de código de barras únicas en esta biblioteca de cuentas con moldes de adaptadores de códigos de barras.

Las concentraciones de cuentas y oligonucleótidos de código de barras se pueden ajustar para obtener una biblioteca de cuentas con moldes de adaptadores de códigos de barras con diferentes proporciones de cuentas monoclonales y policlonales y un número diferente de secuencias de código de barras únicas presentes. Esto permitirá registrar con códigos de barras los ácidos nucleicos de células individuales para lograr diferentes proporciones de ácidos nucleicos asociados a una sola célula a través de un código de barras único o un conjunto de códigos de barras únicos, y también cambiar el porcentaje de ácidos nucleicos registrados con códigos de barras descartados de análisis posteriores. Este procedimiento de fabricación de cuentas con moldes de adaptadores de códigos de barras se puede optimizar para lograr una proporción de cuentas monoclonales:policlonales de, p. ej., 90%:10%, 99%:1% o cualquier otra proporción. Esta mejora sobre la proporción actual de ~70%:30% se puede lograr mediante varios métodos diferentes, incluida la dilución adicional del oligo que contiene la secuencia de código de barras (emB-BCbridge2 en este caso) para que se dividan menos copias entre las gotitas de la emulsión, lo que da como resultado una incidencia reducida de secuencias de códigos de barras múltiples que se encapsulan en cualquier gotita dada.

B. Ejemplo 2: Preparación de una biblioteca de cuentas con moldes de adaptadores de códigos de barras en una sola reacción II.

El método que se describe a continuación se utilizó para crear una biblioteca de cuentas con moldes de adaptadores de códigos de barras mediante PCR en emulsión, donde se realizó la reacción en cadena de la polimerasa (pCr ) para anclar moldes de adaptadores de códigos de barras únicos a cada cuenta (véase la FIG. 15).

Tabla 5: Oligos utilizados para preparar una biblioteca de cuentas con moldes de adaptadores de código de barras en una sola reacción II

Se acoplaron Dynabeads® M-270 recubiertas de estreptavidina (Life Technologies) con oligonucleótido biotinilado ("emB_T7bridgeIsceI"):

1. Las cuentas se resuspendieron removiendo suavemente

3. Se colocaron sobre el imán durante 3 minutos.

4. Se eliminó el sobrenadante de cada tubo y se resuspendió en 1 mL (1 x vol) de Tampón de Unión/Lavado (BWB; NaCl 1 M, Tris 5 mM, EDTA 0,5 mM)

6. Se añadieron 60 pL de emB_T7bridgeIsceI 100 pM a las cuentas y se incubaron durante 15 minutos con rotación suave

8. Las cuentas se almacenaron a 4°C con azida de sodio al 0,01%

9. Las cuentas se lavaron 3 veces con Tris 10 mM antes de su uso

ddH2O 715,9 pL

10X Tampón de PCR HiFi 100 pL MgSO450 mM 50 pL

Mezcla de dNTP 10 mM 20 pL Dynabeads marcadas con emB_T7bridgeIsceI (1,2 x 107 cuentas/pL) 50 pL embB_T7bridgefreeIsceI_2 (10 pM) 4 pL emB_BCbridgeISceI_2 (1 pM) 16,6 pL emB_IsceI_RV (100 pM) 30 pL Pirofosfatasa inorgánica termoestable (NEB 2.000 unidades/mL) 1,5 pL Platinum Taq Hifi (Life Technologies, 5 unidades/pL) 12 pL Volumen total 1000 pL

2. Se preparó una mezcla de aceite y tensioactivo (1 mL de volumen total):

a. Aceite mineral (Sigma) 900 pL

b. EM90 (Evonik) 100 pL

3. Se combinaron 800 pL de mezcla de aceite y tensioactivo y 200 pL de mezcla de PCR en cada uno de 15 tubos de microcentrífuga de fondo cónico Maxymum Recovery de 2,0 mL Axygen (MCT-200-L-C). Los tubos se sellaron y se sometieron a movimiento oscilante durante 3 segundos.

4. Los tubos se colocaron en un Qiagen TissueLyzer II y se sometieron a movimiento oscilante durante 5 minutos a 14 Hz.5*

5. La emulsión se dividió entre los pocillos de una placa de PCR de 96 pocillos VWR (83007-374), con 160 pL de emulsión añadidos por pocillo

6. Los tubos se sometieron a termocilado utilizando el siguiente programa:

Inicial:

94°C 2'

35 Ciclos:

94°C 20"

42°C 30"

68°C 15"

50 Ciclos:

55°C 5,5'

72°C 30"

Extensión final:

68°C 5' Mantenimiento:

102C mantener

Se rompió la emulsión y se recuperaron las cuentas:

1. El contenido de la placa de PCR se transfirió a tubos de microcentrífuga de 1,5 mL (VWR 20170-650), con un volumen de emulsión de no más de 0,5 mL por tubo.

2. Se añadieron 100 ul de cebador emB_T7bridgefreeIsceI_2 1 uM a cada tubo.

6. Se añadió 1 mL de isobutanol, se mezcló bien pipeteando hacia arriba y hacia abajo hasta que el volumen restante de aceite/emulsión se dispersó en el isobutanol.78*102356

11. Se aspiró el etanol

12. Se repitieron las etapas 10 y 11

14. Se aspiró el etanol

15. Se repitieron las etapas 13 y 14

17. Se aspiró el PBS

18. Se repitieron las etapas 16 y 17

Las cuentas que incorporaron moldes con adaptadores de códigos de barras se separaron a continuación de las cuentas sin registro con códigos de barras utilizando un Becton Dickinson FACS Aria III, que utilizaba la fluorescencia del colorante Alexa Fluor 647 incorporado al cebador inverso emB_IsceI_RV.

Téngase en cuenta que en este ejemplo se preparan cuentas con moldes de adaptadores de códigos de barras con una secuencia promotora de ARNP de T7 para la amplificación de adaptadores de códigos de barras mediante ARNP de T7. Al reemplazar la secuencia del promotor de ARNP de T7 "TAA TAC GAC TCA CTA TAG G" (SEQ ID NO: 6) en emB-T7bridgeIsceI por otras secuencias del promotor de ARNP, los adaptadores de códigos de barras se pueden amplificar utilizando otras ARNP. Asimismo, al reemplazar la secuencia del promotor con un sitio de endonucleasa de mellado, como "CCT CAG C" de Nt.BbvCI, los adaptadores de códigos de barras se pueden amplificar utilizando una endonucleasa de mellado (p. ej., Nt.BbvCI) y un ADNP de desplazamiento de hebra, tal como Klenow exo-.

Asimismo, "HH HTH HHH THH HHT HHH THH HH" (SEQ ID NO:3) en emB-BCbridgeIsceI_2 proporciona ~387 millones de códigos de barras únicos. Cuando esta biblioteca de códigos de barras se utiliza para registrar con códigos de barras incluso, p. ej., 10 millones de células, solo se utiliza 2,5% de los códigos de barras únicos. Se espera que la mayoría de los códigos de barras estén a una distancia suficiente entre sí para que la mayoría de las lecturas de secuencias de códigos de barras de la secuenciación NextGen se distingan fácilmente entre sí (con una proporción de lecturas descartadas), independientemente de los errores de PCR y secuenciación.

A las concentraciones especificadas de cuentas y oligonucleótidos de códigos de barras en este ejemplo, mediante distribución de Poisson, las cuentas se cargaron en gotitas a un promedio de ~7 cuentas por gotita, y los autores de la presente invención observaron que prácticamente 25% de las gotitas contenían una o más copias de un oligonucleótido de código de barras único, mientras que el resto de las gotitas no contenían ningún oligonucleótido de código de barras. De las gotitas que contenían al menos un oligonucleótido de código de barras, ~75% contenía exactamente un oligonucleótido de código de barras, mientras que ~25% restante contenía dos o más códigos de barras. Por lo tanto, ~75% de la biblioteca de cuentas con adaptadores de moldes de códigos de barras era monoclonal (una secuencia de código de barras única por cuenta) y ~25% era policlonal.

El rendimiento final del método que se describe a continuación fue de aproximadamente 50 millones de cuentas de moldes con adaptadores de códigos de barras, de las cuales aproximadamente 37,5 millones eran cuentas monoclonales. Aunque las gotitas se cargaron con ~7 cuentas por gotita como promedio, después de romper la emulsión, el rendimiento de las cuentas fue ~11%. Según la distribución binomial, estaban presentes ~28 millones de cuentas monoclonales con secuencias de código de barras únicas.

Las concentraciones de cuentas y oligonucleótidos de códigos de barras se pueden ajustar para obtener una biblioteca de cuentas con moldes de adaptadores de código de barras con diferentes proporciones de cuentas monoclonales y policlonales y un número diferente de secuencias de código de barras únicas presentes. Esto permitirá registrar con códigos de barras los ácidos nucleicos de células individuales para lograr diferentes proporciones de ácidos nucleicos asociados a una sola célula a través de un código de barras único o un conjunto de códigos de barras únicos, y también cambiar el porcentaje de ácidos nucleicos registrados con códigos de barras descartados de análisis posteriores.

C. Ejemplo 3: Preparación de una biblioteca de cuentas con moldes de adaptadores de códigos de barras en múltiples etapas.

En este ejemplo, se realizaron las reacciones según la FIG. 16, excepto que solo se utilizó una secuencia de código de barras S1, una W y una S2. Por lo tanto, no se produjo la combinación de cuentas acopladas a diferentes secuencias de S1 y, de manera similar, las cuentas no se combinaron después de la reacción de extensión con polimerasa para añadir secuencias W al oligo S1.

Este ejemplo se puede extender fácilmente para que se realice según la FIG. 16 simplemente por tener múltiples oligo S1, oligo W y oligo S2 con secuencias de código de barras únicas.

Tabla 6: Oligos utilizados para preparar una biblioteca de cuentas con moldes de adaptadores de códigos de barras en una sola reacción

Se acoplaron Dynabeads M-270 recubiertas de estreptavidina® (Life Technologies) con oligonucleótidos biotinilados que contenían la secuencia S1 en reacciones individuales:

1. Las cuentas se resuspendieron removiendo suavemente

2. Se colocaron cuentas M270 (Life Technologies) sobre un imán durante 3 minutos.

3. Se eliminó el sobrenadante de cada tubo y se resuspendió en (1 x vol) 0,5x Tampón de Unión/Lavado (BWB; NaCl 1M, Tris 5 mM, EDTA 0,5 mM)

4. La etapa 4 se repitió dos veces más seguida de la resuspensión final en tampón BWB

5. Se añadió oligo S1 10 pM a las cuentas y se incubó durante 15 minutos con rotación suave

6. Después de la incubación, las cuentas se lavaron 3 veces con tampón BWB

7. Las cuentas se almacenaron a 4°C con azida de sodio al 0,01%.

8. Las cuentas se lavaron 3 veces con Tris 10 mM antes de su uso

A continuación, se agruparon las cuentas acopladas y se realizó una reacción de extensión utilizando oligo w.

Para reacción de extensión con w:

ddH2O 26,1 pL

10x Tampón Taq 5 pL

MgCl2100 mM ^{4,25 pL}

Tween 20 al 20% 0,125 pL

100XBSA 5 pL

Cuentas acopladas a S1 (1 mg en 20 pL) 5 pL

^dNTP1 pL

Taq (NEB) 0,5 pL

TIPP (NEB) 0,025 pL

oligo W-a u oligo W-b 100pM 3 pL

Se incubó a 55°C durante la noche en una incubadora con movimiento oscilante, oscilando a 800 rpm.

Las cuentas se agruparon y se lavaron tres veces con tampón 1 x BWB. A continuación, la hebra antisentido se fundió en tampón de fusión a 70°C (NaCl 50 mM, Tris 10 mM, pH 8,0). Las cuentas se sedimentaron con un imán y el sobrenadante se eliminó por completo, a continuación, las cuentas se lavaron tres veces en 1 mL de TE0.1 y a continuación se resuspendieron en TE0.1 a 1 mg/20 pL.

Para la reacción de extensión con s2 (por 250 pg de cuentas):

ddH2O 24,5 pL

10x Tampón Taq 5 pL

MgCl2100 mM ^{4,25 pL}

Tween 20 al 20% 0,125 pL

100XBSA 5 pL

Cuentas S1+w-a o S1+w-b 5 pL

^dNTP1 pL

oligo S2-a u oligo S2-b 100pM 3 pL

Se utilizó oligo S2-a con cuentas S1+w-a, y se utilizó oligo S2-b con cuentas S1+w-b

Se incubó a 60°C durante 10 min y a continuación se enfrío lentamente a 37°C. Se incubó a

37°C durante 2 horas, con movimiento oscilante a 800 rpm. A continuación se dejó enfriar la reacción a temperatura ambiente.

A continuación, se añadió lo siguiente:

^{dNTP (NEB)}1 gL

^{Pirofosfatasa de E. coli (NEB)}0,1 gL

^{Fragmento de Klenow (NEB)}1 gL

La reacción se incubó a 25°C durante 3 horas, con movimiento oscilante a 800 rpm. Cada hora, la reacción se refrescó con 1 gL de dNTP.

Las cuentas se agruparon y se lavaron tres veces con tampón 1X BWB. Las cuentas se almacenaron a 4°C con azida de sodio al 0,01% y se lavaron 3x Tris 10 mM antes de su uso.

También se utilizó una pequeña alícuota de cuentas con moldes de adaptadores de códigos de barras en una reacción de transcripción in vitro utilizando ARNP de T7 para determinar si la preparación de las cuentas era satisfactoria. Si era satisfactoria, el ARNP de T7 podría transcribir el ARN del promotor de T7 de doble hebra presente en la secuencia del oligo s1. Se utilizó el kit Megascript T7 (Life Technologies) y se siguieron las instrucciones del fabricante. Se hicieron correr 5 gL de reacción en un RNA Flashgel (Lonza). Véase la FIG. 20.

El número de secuencias de códigos de barras únicas formadas a partir de la combinación de secuencias S1, W y S2 se puede aumentar o disminuir según se desee. Por ejemplo, como se puede ver en Tabla 1, si la cantidad de códigos de barras únicos es ~10 veces mayor que la cantidad de células que se van a registrar con códigos de barras, según lo determinado por la distribución binomial, los autores de la presente invención podrían esperar que ~10% de las células compartieran códigos de barras idénticos y, por lo tanto, se descarten durante la vinculación bioinformática de ácidos nucleicos entre sí (esto es detectable como más de un ácido nucleico de gen variable, tal como dos cadenas pesadas de inmunoglobulina o dos cadenas alfa de TCR asociadas entre sí). Por lo tanto, los autores de la presente invención podrían esperar a partir de tal biblioteca que ~90% de las células registradas con códigos de barras fueran registradas con códigos de barras de manera satisfactoria con una única secuencia que permitiera la vinculación informática adecuada de los ácidos nucleicos entre sí.

Por lo tanto, la cantidad de secuencias S1x, W y S2y requeridas depende de la cantidad deseada de células que se vayan a registrar con códigos de barras. En la Tabla 7, se prevé que la reacción de extensión con W ocurra en placas de 96 pocillos, y se utilice una cantidad idéntico de secuencias S1x y S2y. Como se puede observar, para registrar con códigos de barras 10 millones de células, como máximo requieren 323 oligos S1x y S2y y 960 oligos Wz. Estas son cantidades manejables, especialmente si las reacciones se realizan en placas de 96 pocillos, lo que requiere un total de solo 18 placas de 96 pocillos para realizar las reacciones para preparar una biblioteca de cuentas con moldes de adaptadores de códigos de barras del tamaño deseado.

Tabla 7. Cantidad de secuencias S1x, Wz y S2y requeridas para obtener una biblioteca de moldes con adaptadores de códigos de barras de tamaño suficiente para registrar con códigos de barras ácidos nucleicos de una cantidad deseada de células.

Asimismo, es deseable que los códigos de barras en S1x, S2y, y Wz estén diseñados para tener una distancia mínima de Hamming, siendo este mínimo 2. Con este mínimo, solo se utilizan lecturas de secuencias de código de barras de la secuenciación NextGen con una coincidencia exacta con la secuencia de código de barras; las lecturas de secuencias de códigos de barras con errores se descartan. Si la distancia de Hamming o la distancia de edición utilizadas se aumentan a un mínimo de 3, es posible corregir el error.

Téngase en cuenta que en este ejemplo se preparan cuentas con moldes de adaptadores de códigos de barras con una secuencia del promotor de ARNP de T7 para la amplificación de adaptadores de códigos de barras mediante ARNP de T7. Al reemplazar la secuencia del promotor de ARNP de T7 "t Aa TAC GAC TCA CTA TAG G" (SEQ ID NO: 6) en emB-T7bridge2 por otras secuencias del promotor de ARNP, los adaptadores de códigos de barras se pueden amplificar utilizando otros ARNP. Asimismo, al reemplazar la secuencia del promotor con un sitio de endonucleasa de mellado, tal como "CCT CAG C" de Nt.BbvCl, los adaptadores de códigos de barras se pueden amplificar utilizando una endonucleasa de mellado (p. ej., Nt.BbvCI) y una ADNP de desplazamiento de hebra, tal como Klenow exo-.

D. Ejemplo 4: Preparación de un molde de adaptador de código de barras acuoso.

En este ejemplo, se sintetizaron moldes de adaptadores de códigos de barras acuosos que no estaban acoplados a cuentas para demostrar la amplia aplicabilidad de los presentes métodos.

Se preparó una mezcla de reacción como se describe a continuación:

ddH2O 353 pL

10x Tampón HiFi 50 pL

MgSO450 mM ^{20 pL}

Mezcla de dNTP 10 mM 10 pL

emB_T7bridge2 10 pM (Véase la Tabla 4) 25 pL

emB_BCbridge2 1 pM (Véase la Tabla 4) 13 pL

emB_RV3 10 pM (Véase la Tabla 4) 25 pL

Platinum Taq HiFi (Life Technologies) 4 pL

Volumen total 500 pL

A continuación, la mezcla de reacción se dividió en alícuotas en una placa de PCR de 96 pocillos a 25 pL por pocillo y se sometió a termociclado de la siguiente manera:

Inicial:

^95°C1 '

22 Ciclos: 95°C 20"

46°C 30"

68°C 30"

Extensión final: 68°C 5'

Mantenimiento: 102C mantener

A continuación, se volvieron romos los extremos del producto de PCR resultante, que es el molde de adaptador de código de barras, para eliminar los salientes A:

NEBuffer2 162 pL

dNTP 10 mM 30 pL

ADN polimerasa de T4 (New England Biolabs) 2 pL

Se añadieron 2,5 pL de la mezcla para conseguir extremos romos a cada volumen de reacción de 25 pL y se incubaron a 12°C durante 15 minutos. A continuación, se añadió 1 pL de EDTA 250 mM a cada volumen de reacción de 25 pL y se calentó a 75°C durante 20 minutos para inactivar la enzima.

La reacción se limpió y cuantificó:

1. A continuación, las reacciones se agruparon y se limpiaron con el kit Zymo Research RNA Clean and Concentrator siguiendo las instrucciones del fabricante.

2. Se utilizó el kit de cuantificación Picogreen (Life Technologies) para cuantificar el ADN y la concentración del molde de adaptador de código de barras se ajustó a 55 ng/uL

Téngase en cuenta que mediante este ejemplo se preparan cuentas con moldes de adaptadores de códigos de barras con una secuencia del promotor de ARNP de T7 para la amplificación de adaptadores de códigos de barras mediante ARNP de T7. Al reemplazar la secuencia del promotor de Ar NP de T7 "Ta A TAC GAC TCA CTA TAG G" (SEQ ID NO: 6) en emB-T7bridge2 por otras secuencias del promotor de ARNP, los adaptadores de códigos de barras se pueden amplificar utilizando otros ARNP. Asimismo, al reemplazar la secuencia del promotor con un sitio de endonucleasa de mellado, tal como "CCT CAG C" de Nt.BbvCI, los adaptadores de códigos de barras se pueden amplificar utilizando una endonucleasa de mellado (p. ej., Nt.BbvCI) y un ADNP de desplazamiento de hebra, tal como Klenow exo-.

E. Ejemplo 5: Adición de códigos de barras de moldes de adaptadores de códigos de barras a ARNm en diferentes tampones de reacción.

Este ejemplo muestra que los presentes métodos se pueden utilizar en una variedad de diferentes tampones. Los moldes de adaptadores de códigos de barras se prepararon como se describe anteriormente en el Ejemplo 4.

Tabla 8. Composición de los tampones de reacción

Se establecieron las siguientes reacciones:

Uso de 0,5x tampón MMLV

ddH2O 4,8 pL

10x Tampón MMLV (NEB) 1,25 pL

100X BSA (NEB) 1,25 pL

MgCl2 100 mM 1,75 pL

oligo(dT)2üVN 50 pM (SEQ ID NO: 16) 0,5 pL

Mezcla de NTP (del kit Megascript SP6 de Life Technologies) 2 pL

dNTP (NEB) 1,25 pL

molde de adaptador de código de barras (55 ng/pL) 0,6 pL

Ribolock (Termo Scientífic) 0,6 pL

ARN total de PBMC (50 ng/uL) 4 pL

Lo anterior se calentó a 55°C durante 3 minutos, a continuación, se añadió lo siguiente:

Ribolock (Termo Scientífic) 0,4 pL

Pirofosfatasa inorgánica de E. coli (NEB) 2 pL

^{ARNP de T7 (NEB)}1 pL

T4gp32 (NEB) 0,6 pL

RTasa Maxima H- (Thermo Scientific) 3 pL

La amplificación lineal con ARNP de T7 de los adaptadores de códigos de barras a partir del molde con adaptador de código de barras, la transcripción inversa y la adición de códigos de barras a 1a hebra de ADNc se realizaron a 42°C durante 2 horas.

Utilización de tampón Thermopol:

ddH2O 3,3 pL

10x Thermopol DF (NEB) 2,5 pL

DTT 1M 0,25 mL

100X BSA (NEB) 1,25 mL

MgCl2 100 mM 1,75 mL

oligo(dT)2oVN 50 ^mM (SEQ ID NO: 16) 0,5 ^mL

Mezcla de NTP (del kit Megascript SP6 de Life Technologies) 2 ^mL

dNTP (NEB) 1,25 mL

molde de adaptador de código de barras (55 ng/ML) 0,6 mL

Ribolock (Thermo Scientific) 0,6 mL

ARN total de PBMC (50 ng/ML) 4 mL

Ribolock (Thermo Scientific) 0,4 mL

Pirofosfatasa inorgánica de E. coli (NEB) 2 mL

ARNP de T7 (NEB) 1 mL

T4gp32 (NEB) 0,6 mL

RTasa Maxima H-(Thermo Scientific) 3 mL

La amplificación lineal con ARNP de T7 de adaptadores de códigos de barras a partir del molde con adaptador de código de barras, la transcripción inversa y la adición de códigos de barras a 1a hebra de ADNc se realizaron a 42°C durante 2 horas.

Utilización del tampón TAE:

ddH2O 4,55 mL

5x TAE 1,25 mL

DTT 1M 0,25 mL

100X BSA (NEB) 1,25 mL

MgCl2 100 mM 1,75 mL

oligo(dT)2üVN 50 ^mM (SEQ ID NO: 16) 0,5 ^mL

Mezcla de NTP (del kit Megascript SP6 de Life Technologies) 2 ^mL

dNTP (NEB) 1,25 mL

molde de adaptador de código de barras (55 ng/ML) 0,6 mL

Ribolock (Thermo Scientific) 0,6 mL

ARN total de PBMC (50 ng/ML) 4 mL

Ribolock (Thermo Scientific) 0,4 mL

Pirofosfatasa inorgánica de E. coli (NEB) 2 mL

ARNP de T7 (NEB) 1 mL

T4gp32 (NEB) 0,6 mL

RTasa Maxima H-(Thermo Scientific) 3 mL

La amplificación lineal con ARNP de T7 de adaptadores de códigos de barras a partir del molde de adaptador de código de barras, la transcripción inversa y la adición de códigos de barras a 1 a hebra de ADNc se realizaron a 42°C durante 2 horas.

A continuación, la reacción se limpió utilizando un método de fenol/cloroformo tradicional modificado:

1. Se añadieron 200 mL de TE0.1 (Tris 10 mM pH 8,0, EDTA 0,1 mM) a cada mezcla de reacción

2. Se añadieron 200 mL de fenol/cloroformo/alcohol isoamílico (Sigma) a cada mezcla de reacción y se aplicó movimiento oscilante vigorosamente en tubos Gel Phase Lock precentrifugados (5Prime)

3. Los tubos Gel Phase Lock se centrifugaron a 14.000 g durante 3 minutos y la fracción acuosa superior se pipeteó a columnas Amicon de 100 kDa (Millipore) y se centrifugaron a 14.000 g durante 3 minutos.

4. A continuación, se pipetearon 450 pL de TE (Tris 10 mM, pH 8,0, EDTA 1 mM) en la columna Amicon y se centrifugaron a 14.000 g durante 3 minutos.

5. A continuación se pipetearon 450 pL de Tris 10 mM (pH 8,0) en la columna Amicon y se centrifugaron a 14.000 g durante 5 minutos.

6. La columna Amicon se invirtió en un nuevo tubo de recolección y se centrifugó a 1.000 g durante 2 minutos para recolectar el producto eluido que contenía el dúplex de ARNm/primera hebra de ADNc purificado.

A continuación, se realizaron dos rondas de PCR (PCR1 y PCR2):

Tabla 9. Secuencias de cebadores de PCR1 y PCR2

La siguiente mezcla de reacción de PCR1 Phusion (Thermo Scientific) se configuró mediante reacción de RT:

H2O 11,28 pL

5x Tampón de GC 5 pL

MgCl2 0,15 pL

^DMSO1 pL

dNTP 0,5 pL

^{FW1-short 10 pM}1 pL

^{BC-Long 10 pM}1 pL

K-GSP1 10 pM 0,56 pL

L-GSP1 10 pM 1,25 pL

G-GSP1 10 pM 0,56 pL

ET-SSB (NEB) 0,25 pL

BSA 0,25 pL

Phusion 0,2 pL

Molde de ADNc 2 pL

Inicial:

95°C 5'

18 Ciclos:

98°C 30

62°C 30

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 10°C mantener

Las reacciones de PCR1 a continuación se diluyeron 50x y se utilizaron como molde en 3 reacciones de PCR2 separadas, una para la cadena ligera kappa, otra para la cadena ligera lambda y otra para la cadena pesada gamma.

Las siguientes mezclas de reacción de PCR2 Phusion (Thermo Scientific) se configuraron mediante reacción de RT:

H2O ^{17,82 pL}

^{5x Tampón de GC}6 pL

MgCl2 0,18 pL

^DMSO1 pL

dNTP 0,6 pL

10 2FW pM 1,2 pL

K o L o G-GSP2 10 pM 0,6 pL

BSA 0,3 pL

Phusion 0,3 pL

Molde PCR1 Dil. 2 pL

Inicial:

95°C 5'

28 ciclos: 98°C 30"

65°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 10°C mantener

Se hicieron migrar 5 pL de producto en un gel (FIG. 21). Como se puede observar, la reacción de registro con códigos de barras funciona bien en una variedad de tampones diferentes que contienen una variedad de iones diferentes, tales como iones de potasio, amonio, cloruro, sulfato y acetato.

F. Ejemplo 6: Los adaptadores de códigos de barras de ARN amplificados a partir de moldes de adaptadores de códigos de barras funcionan mejor que los adaptadores de códigos de barras de ADN no amplificados.

Este ejemplo muestra que los presentes métodos se pueden utilizar en una variedad de diferentes tampones con diferentes concentraciones de sal. Asimismo, el uso de adaptadores de códigos de barras de ARN amplificados generados a partir de moldes de adaptadores de códigos de barras funciona mejor (es decir, produce el producto de reacción amplificado deseado) que simplemente la adición de adaptadores de códigos de barras de ADN a la reacción, presumiblemente porque la reacción con adaptadores de códigos de barras de ARN da como resultado un fondo más bajo (véase la FIG.4). Los moldes de adaptadores de códigos de barras se prepararon como se describe anteriormente en el Ejemplo 4.

Tabla 10. Secuencias de oligo adicionales

Se establecieron las siguientes reacciones y las composiciones de los tampones son como en la Tabla 8:

Utilización de 1 x tampón MMLV

ddH2O 3,55 pL

10x Tampón MMLV (NEB) 2,5 pL

100X BSA (NEB) 1,25 mL

MgCl2100 mM 1,75 ^mL

oligo(dT)2üVN 50 ^mM (SEQ ID NO: 16) 0,5 _mL

^{Mezcla de NTP (del kit Megascript SP}6 ^{de Life Technologies)}2 ^mL

dNTP (NEB) 1,25 mL

^{molde de adaptador de código de barras (55 ng/ML)}0,6 ^mL

^{Ribolock (Thermo Scientific)}0,6 ^mL

ARN total de PBMC (50 ng/uL) 4 mL

Ribolock (Thermo Scientific) 0,4 mL

^{Pirofosfatasa inorgánica de E. coli (NEB)}2 ^mL

^{ARNP de T7 (NEB)}1 ^ml

^{T4gp32 (NEB)}0,6 ^mL

RTasa Maxima H-(Thermo Scientific) 3 mL

La amplificación lineal con ARNP de T7 de los adaptadores de códigos de barras a partir del molde de adaptador de código de barras, la transcripción inversa y la adición de códigos de barras a la primera hebra de ADNc se realizaron a 42°C durante 2 horas.

Utilización de 0,5x tampón MMLV

ddH2O 4,8 ^mL

10x Tampón MMLV (NEB) 1,25 mL

100X ASC(NEB) 1,25 mL

MgCl2100 mM 1,75 ^mL

oligo(dT)20VN 50 ^mM (SEQ ID NO: 16) 0,5 ^mL

Mezcla de NTP (del kit Megascript SP6 de Life Technologies) 2 ^mL

dNTP (NEB) 1,25 mL

molde de adaptador de código de barras (55 ng/ML) 0,6 mL

Ribolock (Thermo Scientific) 0,6 mL

ARN total de PBMC (50 ng/uL) 4 mL

Utilización del adaptador de código de barras de ADN

ddH2O 13 mL

10x Tampón MMLV (NEB) 2,5 mL

100X BSA (NEB) 0,25 mL

MgCl2100 mM 0,75 ^mL

^oligo(dT)20^{VN 50 mM (SEQ ID NO: 16)}1 _ml

Adaptador de código de barras de ADN w24 10 pM 2,5 pL

Ribolock (Thermo Scientific) 0,6

ARN total de PBMC (50 ng/uL) 2 pL

Ribolock (Thermo Scientific) 0,4 pL

T4gp32(NEB) 1 pL

RTasa Maxima H- (Thermo Scientific) 1 pL

La transcripción inversa y la adición de códigos de barras a la primera hebra de ADNc se realizaron a 42°C durante 2 horas.

1. Se añadieron 200 pL de TE0.1 (Tris 10 mM pH 8,0, EDTA 0,1 mM) a cada mezcla de reacción

2. Se añadieron 200 pL de fenol/cloroformo/alcohol isoamílico (Sigma) a cada mezcla de reacción y se aplicó movimiento oscilante vigorosamente a los tubos Gel Phase Lock precentrifugados (5Prime)

4. Después, se pipetearon 450 pL de TE (Tris 10 mM, pH 8,0, EDTA 1 mM) a la columna Amicon y se centrifugaron a 14.000 g durante 3 minutos.

5. A continuación se pipetearon 450 pL de Tris 10 mM (pH 8,0) a la columna Amicon y se centrifugaron a 14.000 g durante 5 minutos.

6. La columna Amicon se invirtió en un nuevo tubo de recolección y se centrifugó a 1000 g durante 2 minutos para recolectar el producto eluido que contenía el dúplex de ARNm /1a hebra de ADNc purificado.

A continuación, se realizaron dos rondas de PCR (PCR1 y PCR2):

La siguiente mezcla de reacción de PCR1 Phusion (Thermo Scientific) se configuró mediante reacción de RT que utilizó un molde de adaptador de código de barras:

H2O 11,28 pL

5x Tampón de GC 5 pL

MgCl2 0,15 pL

DMSO 1 pL

dNTP 0,5 pL

FW1-short 10 pM 1 pL

BC-Long 10 pM 1 pL

K-GSP1 10 pM 0,56 pL

L-GSP1 10 pM 1,25 pL

G-GSP1 10 pM 0,56 pL

ET-SSB (NEB) 0,25 pL

BSA 0,25 pL

Phusion 0,2 pL

Molde de ADNc 2 pL

La siguiente mezcla de reacción de PCR1 Phusion (Thermo Scientific) se configuró por reacción de RT que utilizó un adaptador de código de barras de ADN:

H2O 11,28 pL

5x Tampón de GC 5 pL

MgCl2 0,15 pL

^DMSO1 gL

dNTP 0,5 gL

^{FW1-short 10 gM}1 gL

FW-Long 10 gM 1 gL

K-GSP1 10 gM 0,56 gL

L-GSP1 10 gM 1,25 gL

G-GSP1 10 gM 0,56 gL

ET-SSB (NEB) 0,25 gL

BSA 0,25 gL

Phusion 0,2 gL

Molde de ADNc 2 gL

Inicial:

95°C 5'

18 Ciclos: 98°C 30"

62°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 102C mantener

Las siguientes mezclas de reacción de PCR2 Phusion (Thermo Scientific) se configuraron mediante reacción de PCR1:

H2O ^{17,82 gL}

5x Tampón de GC 6 gL

MgCl2 0,18 gL

^DMSO1 gL

dNTP 0,6 gL

2FW 10 gM 1,2 gL

K o L o G-GSP2 10 gM 0,6 gL

BSA 0,3 gL

Phusion 0,3 gL

Molde PCR1 Dil. 2 gL

Inicial:

95°C 5'

28 ciclos: 98°C 30"

65°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 10°C mantener

Se hicieron migrar 5 gL de producto en un gel (FIG. 22). Como se puede observar, la reacción de registro con códigos de barras funciona bien en tampones con diferentes concentraciones de sal. Si bien la reacción funciona mejor en un tampón con bajo contenido de sal (0,5x MMLV) debido a la sensibilidad a la sal de la ARNP de T7, también funciona en un tampón con mayor contenido de sal (1x MMLV). Téngase en cuenta que debido al cebado no específico durante la etapa de RT cuando se utilizaban adaptadores de códigos de barras de ADN (véase la FIG. 4), había un fondo excepcionalmente alto y las bandas deseadas estaban oscurecidas.

G. Ejemplo 7: Ácidos nucleicos para el registro con códigos de barras de células utilizando moldes de adaptadores de códigos de barras acuosos en gotitas preparadas utilizando un dispositivo de gotitas de microfluido.

Se utilizó un dispositivo para crear emulsiones monodispersas para encapsular células individuales junto con cuentas para registro con códigos de barras y otros reactivos necesarios para el ensayo de registro con códigos de barras. Se equiparon tres Bombas P de Dolomite con sensores de flujo (Dolomite 3200016, 3200095 y 3200098). La primera Bomba P se conectó directamente a un Chip de Gotitas de 2 Reactivos (Dolomite 3200287) a través de un tubo de microfluido que incorporaba una unión en T para dividir la línea en dos entradas. Esta era la línea de entrada de aceite. Las otras dos Bombas P se conectaron a través de un tubo de fluido a bucles de muestras de PEEK que se enrollaban alrededor de un depósito de hielo que servía para mantener las muestras frías mientras el dispositivo estaba en funcionamiento, y cada uno de estos bucles se conectaba al Chip de Gotitas de 2 Reactivos. Cada bucle de muestra incorporaba una válvula de cuatro vías en su extremo frontal para que la muestra pudiera cargarse en el bucle por medio de una jeringa. El primer bucle de muestra se cargó con células mientras que el segundo bucle se cargó con mezcla de RT/registro con códigos de barras/lisis. Un ejemplo de la configuración del dispositivo se muestra en FIGS.

17-19. El depósito de hielo se cargó con hielo antes de su uso.

Una población de células B B220+ murinas se clasificó mediante FACS y se preparó una suspensión celular utilizando betaína 300 mM con NaCl 10 mM y BSA de 0,5 mg/mL como tampón de suspensión. Las células se utilizaron a una concentración de 4.500 células/pL.

Se preparó una mezcla de RT/código de barras acuoso de la siguiente manera:

10X Thermopol DF 30 pL

DTT 1 M 3 pL

MgCl21 M 3,6 pL

oligo(dT)20VN 50 pM (SEQ ID NO: 16) 6 pL

Mezcla de NTP (del kit Megascript SP6 de Life Technologies) 48 pL

dNTP (NEB) 15 pL

molde de adaptador de código de barras (55 ng/pL) 7,2 pL

Tween 20 al 10% 1 pL

Ribolock (Thermo Scientific) 12 pL

Pirofosfatasa inorgánica de E. coli (NEB) 24 pL

ARNP de T7 (NEB) 12 pL

T4gp32 (NEB) 7,2 pL

RTasa Maxima H-(Thermo Scientific) 36 pL

Volumen total 205 pL

La suspensión de células se cargó en un bucle de muestra y la mezcla de RT/registro con códigos de barras/lisis se cargó en el otro bucle de muestra utilizando jeringas. Las concentraciones de células y códigos de barras se eligieron de tal manera que se minimizara la aparición de múltiples células o códigos de barras en una sola gotita, mientras se mantenían esas concentraciones lo suficientemente altas como para encapsular una cantidad suficientemente grande de células con códigos de barras. Se cambiaron las válvulas de 4 vías para que los bucles de muestra estuvieran alineados con la bomba, y se activaron las tres bombas. Las dos entradas acuosas se hicieron fluir a velocidades de modo que se mezclaran a una proporción de 1:2 (suspensión celular: mezcla de RT/registro con códigos de barras/lisis). Las entradas acuosas y de aceite se hicieron fluir a velocidades de manera que se formaran gotitas de ~50 pm de diámetro, y a una velocidad de flujo lo suficientemente alta como para que las células fluyeran a través del dispositivo. La emulsión se recogió en un tubo de PCR de 0,2 mL de Sorenson Bioscience. Después de que se hubiera creado la muestra, se le aplicó en primer lugar una etapa de precalentamiento (3 minutos a 55°C) y a continuación se incubó durante 2 horas a 42°C para permitir que prosiguiera la reacción. Después de la reacción, la emulsión se rompió utilizando el procedimiento de "rotura de la emulsión sin cuentas" que se describe a continuación. Esto produjo una muestra purificada de ADNc para la posterior amplificación por PCR y secuenciación.

Las emulsiones sin cuentas se rompieron de la siguiente manera:

1. Se pipetearon 200 pL de TE, 400 pL de fenol/cloroformo/alcohol isoamílico, 800 pL de cloroformo a tubos Gel Phase Lock precentrifugados

2. Cada muestra se pipeteó a un tubo Gel Phase Lock correspondiente

3. Los tubos se centrifugaron durante 3 minutos a 14.000 g

4. Las capas acuosas se pipetearon a tubos Amicon de 100 kDa (Millipore).

5. Los tubos se centrifugaron durante 3 minutos a 14.000 g

6. Se pipetearon 450 gL de TE a los tubos Amicon

7. Los tubos se centrifugaron durante 3 minutos a 14.000 g

8. Se añadieron 450 gL de Tris 10 mM a los tubos Amicon

9. Los tubos se centrifugaron durante 5 minutos a 14.000 g

10. Los tubos Amicon se colocaron invertidos en nuevos tubos de recolección.

11. Los tubos se centrifugaron durante 2 minutos a 1000 g.

A continuación, se realizaron dos rondas de PCR (PCR1 y PCR2), utilizando los siguientes cebadores además de algunas secuencias de cebadores enumeradas en Tabla 9.

Tabla 11. Cebadores adicionales para PCR de genes de inmunoglobulina murina

H2O 10,53 gL

5x Tampón de GC 5 gL

MgCl2 0,15 gL

^DMSO1 gL

dNTP 0,5 gL

^{FW1-short 10 gM}1 gL

BC-Long 10 gM 1 gL

mK-GSP1 10 gM 0,5 gL

mL-GSP1 10 gM 0,5 gL

mG-GSP1 10 gM 0,56 gL

mM-GSP1 10 gM 0,56 gL

ET-SSB (NEB) 0,25 gL

BSA 0,25 gL

Phusion 0,2 pL

molde de ADNc 2 pL

Inicial:

95°C 5'

18 Ciclos: 98°C 30"

62°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 102C mantener

Las reacciones de PCR1 a continuación se diluyeron 50x y se utilizaron como molde en 3 reacciones de PCR2 separadas, una para las cadenas ligeras kappa y lambda, una para la cadena pesada mu y otra para la cadena pesada gamma.

Las siguientes mezclas de reacción de PCR2 Phusion (Thermo Scientific) se configuraron por reacción de PCR1:

H2O ^{hasta 30 pL}

5x Tampón de GC 6 pL

MgCl2 0,18 pL

^DMSO1 pL

dNTP 0,6 pL

2FW 10 pM 1,2 pL

mK y mL o mM-GSP2 10 pM 0,6 pL

BSA 0,3 pL

Phusion 0,3 pL

Molde PCR1 Dil. 2 pL

95°C 5'

28 ciclos: 98°C 30"

65°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 10°C mantener

Se hicieron migrar 5 pL de producto de PCR en un gel (FIG. 23). Se observaron claramente las bandas correspondientes a la cadena ligera kappa y lambda, y a la cadena pesada mu. Solo se amplificó la cadena pesada mu, ya que se esperaba que la mayoría de las células B B220+ fueran células B sin exposición antigénica previa que son IgM+.

Las cadenas pesada y ligera de inmunoglobulina así amplificadas se pueden purificar y prepararse para la secuenciación de próxima generación, tal como, pero sin limitarse a, la secuenciación 454. Dado que en este ejemplo se utilizaron moldes de adaptadores de códigos de barras a concentraciones de >1 copia por recipiente de reacción, se incorpora un conjunto único de códigos de barras a los ácidos nucleicos en cada recipiente de reacción en lugar de un código de barras único. Las cadenas pesadas y ligeras de inmunoglobulina emparejadas se pueden asociar entre sí compartiendo un conjunto único de códigos de barras, en lugar de un código de barras único.

Los moldes de adaptadores de códigos de barras también se pueden utilizar a una concentración tal que, al limitar la dilución, la mayoría de los recipientes de reacción que contienen un molde de adaptador de código de barras la contendrán a 1 copia por recipiente de reacción. En este caso, las cadenas pesada y ligera de inmunoglobulina emparejadas pueden asociarse entre sí compartiendo una secuencia de código de barras única.

H. Ejemplo 8: Ácidos nucleicos para el registro con códigos de barras de células utilizando cuentas con moldes de adaptadores de códigos de barras en gotitas preparadas utilizando un dispositivo de gotitas de microfluido.

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. Se utiliza un dispositivo de microfluido para generar gotitas como se describe en el Ejemplo 7, con la única diferencia de que el primer bucle de muestra contenía tanto células como cuentas con moldes de adaptadores de códigos de barras como se hizo en los Ejemplos 1, 2 o 3.

Una población de células B B220+ murinas se clasifica mediante FACS y se prepara una suspensión de cuentas con moldes de adaptadores de códigos de barras y células utilizando betaína 300 mM con NaCl 10 mM y BSA de 0,5 mg/mL como tampón de suspensión. Las células se incluyen a una concentración de 4.500 células/pL y las cuentas se utilizan a una concentración de 60.000 cuentas/pL.

Una mezcla RT se prepara de la siguiente manera:

ddH2O 7,4 pL

10X Thermopol DF 36 pL

DTT 1 M 3,6 pL

MgCl21 M 4,3 pL

oligo(dT) 50 pM 7,2 pL

Mezcla de NTP (del kit Megascript SP6 de Life Technologies) 57,6 pL

dNTP (NEB) 18 pL

Tween 20 al 10% 1,2 pL

Ribolock (Thermo Scientific) 14,4 pL

Pirofosfatasa inorgánica de E. coli (NEB) 28,8 pL

ARNP de T7 (NEB) 14,4 pL

T4gp32 (NEB) 8,6 pL

RTasa Maxima H-(Thermo Scientific) 43,2 pL

Volumen total 244,8 pL

La suspensión de cuentas con registro de código de barras y células se carga en un bucle de muestra y la mezcla de RT/registro con códigos de barras/lisis se carga en el otro bucle de muestra mediante jeringas. Las válvulas de 4 vías se conmutan para que los bucles de muestra estén alineados con la bomba y se activan las tres bombas. Las dos entradas acuosas se hacen fluir a velocidades de modo que se mezclen a una proporción de 1 :2 (suspensión de células y cuentas: mezcla de RT/registro con códigos de barras/lisis). Las entradas acuosas y de aceite fluyen a velocidades de modo que se formen gotitas de ~50 um de diámetro, y a una velocidad de flujo lo suficientemente alta para que las células y las cuentas fluyan a través del dispositivo. La emulsión se recoge en un tubo de PCR de 0,2 mL de Sorenson Bioscience. Una vez que se ha creado la muestra, se le aplica en primer lugar una etapa de calentamiento (3 minutos a 55°C) y a continuación se incuba durante 2 horas a 42°C para permitir que prosiga la reacción de RT/registro con códigos de barras. Después de la reacción de registro con códigos de barras, la emulsión se rompe utilizando el procedimiento de "rotura de la emulsión sin cuentas" descrito en el Ejemplo 7. Las reacciones de PCR subsiguientes se realizan como en el Ejemplo 7.

Las cadenas pesada y ligera de inmunoglobulina así amplificadas se purifican y preparan para la secuenciación de próxima generación, tal como, pero sin limitación, la secuenciación 454. Dado que este ejemplo utiliza cuentas con moldes de adaptadores de códigos de barras a ~1 cuenta por recipiente de reacción, las cadenas pesada y ligera de inmunoglobulina emparejadas se emparejan mediante el uso compartido de una secuencia de código de barras única.

I. Ejemplo 9: Ácidos nucleicos para registro con códigos de barras de células utilizando adaptadores de códigos de barras amplificados a partir de cuentas con moldes de adaptadores de códigos de barras con una ADN polimerasa, solo con fines ilustrativos.

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. Se utiliza un dispositivo de microfluido para generar gotitas como se describe en el Ejemplo 7, con la única diferencia de que el primer bucle de muestra contenía células y cuentas con moldes de adaptadores de códigos de barras como se hizo en los Ejemplos 1,2 o 3. En este ejemplo, las cuentas con moldes de adaptadores de código de barras comprenden una secuencia de endonucleasa de mellado Nt.BbvCI en 5' en lugar de una secuencia del promotor de ARNP de T7 para permitir la amplificación de adaptadores de códigos de barras por una ADN polimerasa.

Una población de células B B220+ murinas se clasificó mediante FACS y se preparó una suspensión de cuentas con moldes de adaptadores de códigos de barras y células utilizando betaína 300 mM con NaCl 10 mM y BSA de 0,5 mg/mL como tampón de suspensión. Las células se incluyen a una concentración de 4.500 células/uL y las cuentas se utilizan a una concentración de 60.000 cuentas/pl.

Una mezcla de RT se prepara de la siguiente manera:

ddH2O ^{32,7 pL}

10X Thermopol DF 36 pL

DTT 1 M 3,6 pL

MgCl21 M ^{4,3 pL}

oligo(dT) 50 pM 7,2 pL

dNTP (NEB) 36 pL

Tween 20 al 10% 1,2 pL

Ribolock (Thermo Scientific) 14,4 pL

Pirofosfatasa inorgánica de E. coli (NEB) 28,8 pL

Nt.BbvCI (NEB) 14,4 pL

Klenow exo- (NEB) 14,4 pL

T4gp32 (NEB) 8,6 pL

RTasa Maxima H- (Thermo Scientific) 43,2 pL

Volumen total 244,8 pL

La suspensión de cuentas con códigos de barras y células se carga en un bucle de muestra y la mezcla de RT/registro con códigos de barras/lisis se carga en el otro bucle de muestra mediante jeringas. Las válvulas de 4 vías se conmutan para que los bucles de muestra estén alineados con la bomba y se activan las tres bombas. Las dos entradas acuosas se hacen fluir a velocidades de modo que se mezclen a una proporción de 1:2 (suspensión de células y cuentas: mezcla de RT/registro con códigos de barras/lisis). Las entradas acuosas y de aceite fluyen a velocidades de modo que se formen gotitas de ~50 um de diámetro, y a una velocidad de flujo lo suficientemente alta para que las células y las cuentas fluyan a través del dispositivo. La emulsión se recoge en un tubo de PCR de 0,2 mL de Sorenson Bioscience. Una vez que se ha creado la muestra, se le aplica en primer lugar una etapa de calentamiento (3 minutos a 55°C) y a continuación se incuba durante 2 horas a 42°C para permitir que prosiga la reacción de RT/registro con códigos de barras. Después de la reacción de registro con códigos de barras, la emulsión se rompe utilizando el procedimiento de "rotura de la emulsión sin cuentas" descrito en el Ejemplo 7. Las reacciones de PCR subsiguientes se realizan como en el Ejemplo 7.

Las cadenas pesada y ligera de inmunoglobulina así amplificadas se purifican y preparan para la secuenciación de próxima generación, tal como, pero sin limitación, la secuenciación 454. Dado que en este ejemplo se utilizan cuentas con moldes de adaptadores de códigos de barras a ~1 cuenta por recipiente de reacción, las cadenas pesada y ligera de inmunoglobulina emparejadas se emparejan mediante el uso compartido de una secuencia de código de barras única.

J. Ejemplo 10: Ácidos nucleicos para registro con códigos de barras de células utilizando moldes de adaptadores de códigos de barras en recipientes de reacción de múltiples pocillos.

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. Se sintetizan moldes de adaptadores de códigos de barras con una composición como en la FIG.

1 como oligos dúplex de un proveedor tal como IDT. Cada molde de adaptador de código de barras único se guarda en un recipiente de almacenamiento diferente para que no haya mezcla ni contaminación cruzada de las secuencias de códigos de barras. Las células B activadas (plasmablastos) se clasifican en células individuales utilizando un FACS Aria II (Becton Dickinson) en 10 pL de un tampón de lisis en todos los pocillos de una placa de 96 pocillos. La composición del tampón en cada pocillo es:

Tris 10 mM pH 8,0 hasta 10 pL

^{10x tampón MMLV}1 pL

MgCl2100 mM ^{0,3 pL}

DTT 1M 0,015 pL

100x BSA (NEB) 0,075 pL

dNTP 0,5 pL

oligo(dT)2510 pM (SEQ ID NO: 40) 0,5 pL

IGEPAL-630 (Sigma) al 20% 0,15 pL

Molde de adaptador de código de barras 1 pM 0,25 pL

Ribolock (Thermo Scientific) 0,4 pL

RTasa Maxima H-(Thermo Scientific) 0,25 pL

A continuación, la placa se incuba a 55°C durante 3 minutos, a continuación se incuba a 42°C durante 2 horas para que se produzca la reacción de RT/registro con códigos de barras. Las reacciones en todos los pocilios de una placa de 96 pocillos se agruparon a continuación y la limpieza se realizó utilizando un método de fenol/cloroformo tradicional modificado:

1. Se añaden 400 pL de fenol/cloroformo/alcohol isoamílico (Sigma) y se aplica movimiento oscilante vigorosamente a tubos Gel Phase Lock precentrifugados (5Prime)

2. Los tubos Gel Phase Lock se centrifugan a 14.000 g durante 3 minutos y la fracción acuosa superior se pipetea a columnas Amicon de 100 kDa (Millipore) y se centrifuga a 14.000 g durante 3 minutos

3. La etapa 2 se repite según sea necesario para centrifugar todo el volumen acuoso a través de la columna Amicon

4. A continuación se pipetean 450 pL de TE (Tris 10 mM, pH 8,0, EDTA 1 mM) a la columna Amicon y se centrifuga a 14.000 g durante 3 minutos.

5. A continuación, se pipetean 450 pL de Tris 10 mM (pH 8,0) a la columna Amicon y se centrifuga a 14.000 g durante 5 minutos.

6. La columna Amicon se invierte en un nuevo tubo de recolección y se centrifuga a 1.000 g durante 2 minutos para recolectar el eluido que contenía el dúplex de ARNm/1a hebra de ADNc purificado

Se configura la siguiente mezcla de reacción de PCR1 Phusion (Thermo Scientific):

H2O ^{11,28 pL}

5x Tampón de GC 5 pL

MgCl2 ^{0,15 pL}

^DMSO1 pL

dNTP 0,5 pL

^{FW1-short 10 pM}1 pL

^{FW-Long 10 pM}1 pL

K-GSP1 10 pM 0,56 pL

L-GSP1 10 pM 1,25 pL

G-GSP1 10 pM 0,56 pL

ET-SSB (NEB) 0,25 pL

BSA 0,25 pL

Phusion 0,2 pL

molde de ADNc 2 pL

95°C 5'

18 Ciclos: 98°C 30"

62°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 10°C mantener

La reacción de PCR1 a continuación se diluye 50x y se utiliza como molde en 3 reacciones de PCR2 separadas, una para la cadena ligera kappa, otra para la cadena ligera lambda y otra para la cadena pesada gamma.

Se configuran las siguientes mezclas de reacción de PCR2 Phusion (Thermo Scientific):

H2O ^{17,82 pL}

^{5x Tampón de GC}6 pL

MgCl2 0,18 pL

^DMSO1 pL

dNTP 0,6 pL

2FW 10 pM 1,2 pL

K o L o G-GSP2 10 pM 0,6 pL

BSA 0,3 pL

Phusion 0,3 pL

Molde PCR1 Dil. 2 pL

Inicial:

95°C 5'

23 o 28 ciclos: 98°C 30"

65°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 10°C mantener

Las cadenas pesada y ligera de inmunoglobulina así amplificadas se purifican y preparan para la secuenciación de próxima generación, tal como, pero sin limitación, la secuenciación 454. Dado que en este ejemplo se utilizan moldes de adaptadores de códigos de barras únicos que se pipetean individualmente a cada recipiente de reacción (en este caso, pocillos de una placa de 96 pocillos), las cadenas pesada y ligera de inmunoglobulina emparejadas se emparejan bioinformáticamente mediante el uso compartido de una secuencia de código de barras única.

K. Ejemplo 11: Ácidos nucleicos para registro con códigos de barras de células que utilizan cuentas con moldes de adaptadores de códigos de barras en gotitas preparadas utilizando un dispositivo de gotitas de microfluido.

Tabla 12: Oligos utilizados para preparar una biblioteca de cuentas con moldes de adaptadores de códigos de barras en una sola reacción

Se acoplaron Dynabeads M-270 recubiertas de estreptavidina® (Life Technologies) con oligonucleótido biotinilado ("emB_T7bridgeIsceI"):

1. Las cuentas se resuspendieron removiendo suavemente

2. Se colocó 1 mL de cuentas M270 (aprox. 2 x 109 cuentas) en cada uno de tres tubos de microcentrífuga de 1,5 mL, para un total de 3 mL

3. Se colocaron sobre el imán durante 3 minutos.

5. La etapa 4 se repitió dos veces más seguido de la resuspensión final en un volumen de 540 pL de BWB

6. Se añadieron 60 pL de emB_T7bridge2100 pM a las cuentas y se incubaron durante 15 minutos con rotación suave.

8. Las cuentas se almacenaron a 4°C con azida de sodio al 0,01%.

9. Las cuentas se lavaron 3 veces con Tris 10 mM antes de su uso

ddH2O 572,7 pL

10X Tampón de PCR HiFi 80 pL

MgSO450 mM 40 pL

mezcla de dNTP 10 mM 16 pL emB_T7bridgeDynabeads marcadas con Iscel (2x105 cuentas/pL) 40 pL embB_T7bridgefreeIsceI_2 (10 pM) 3,2 pL emB_BCbridgeIsceI_2 (1 pm) 13,3 pL

emB_IsceI_RV (100 pM) 24 pL

Pirofosfatasa inorgánica termoestable (NEB 2000 unidades/mL) 1,2 pL

Platinum Taq Hifi (Life Technologies, 5 unidades/pL) 9,6 pL

Volumen total 800 pL

2. Se preparó una mezcla de aceite y tensioactivo (20 mL de volumen total):

a. Aceite mineral (Sigma) 18,4 mL

b. EM90 (Evonik) 1,6 mL

3. Se combinaron 800 pL de mezcla de aceite y tensioactivo y 200 pL de mezcla de PCR en cada uno de 12 tubos de microcentrífuga de fondo cónico Maxymum Recovery de 2,0 mL Axygen (MCT-200-L-C). Los tubos se sellaron y se sometieron a movimiento oscilante durante 3 segundos.

6. Los tubos se sometieron a termocilado utilizando el siguiente programa:

Inicial:

94°C 2'

35 Ciclos: 94°C 20"

42°C 30"

68°C 15"

50 Ciclos: 55°C 5,5'

72°C 30"

Extensión final: 68°C 5'

Mantenimiento: 102C mantener

La emulsión se rompió y las cuentas se recuperaron:

2. Se añadieron 100 ul de cebador emB_T7bridgefteeIsceI_2 1 uM a cada tubo

11. Se aspiró el etanol

12. Se repitieron las etapas 10 y 11

14. Se aspiró etanol

15. Se repitieron las etapas 13 y 14

17. Se aspiró el PBS

18. Se repitieron las etapas 16 y 17.

Las cuentas que incorporaron moldes de adaptadores de códigos de barras se separaron a continuación de las cuentas sin registro con código de barras utilizando un Becton Dickinson FACS Aria III, utilizando la fluorescencia del colorante Alexa Fluor 647 incorporado en el cebador inverso emB_IsceI_RV.

Las cuentas se almacenaron en azida de sodio al 0,01% a 4°C para su almacenamiento. El dispositivo de microfluido que se muestra en FIGS. 17-19 y descrito en el Ejemplo 7 se utilizó para encapsular células individuales junto con cuentas registradas con códigos de barras y los otros reactivos necesarios para el ensayo de registro con códigos de barras. Se clasificó mediante FACS una población de células B de memoria CD19+IgG+ y se cultivó durante 6 días en medio IMDM completo (IMDM FBS al 10% 100 U/mL de IL-2, 50 ng/mL de IL-21,50 ng/mL de CD40L, 5 pg/mL de mAb anti-CD40L y 1x Normocina) antes de preparar una suspensión celular utilizando betaína 300 mM con NaCl 10 mM y BSA de 0,5 mg/mL como tampón de suspensión. Las células se utilizaron a una concentración de 2.500 células/pL y cuentas registradas con códigos de barras a una concentración de 100.000 cuentas/uL.

Se preparó una mezcla de RT/ código de barras acuoso de la siguiente manera:

10X Thermopol DF 24 gL

H2O ^{10,6 gL}

200XBSA 4 gL

DTT 1M 2,4 gL

MgCl21 M 2,9 gL

oligo(dT) 50 gM 4,8 gL

Mezcla de NTP (del kit Life Technologies Megascript T7) 25,4 gL

dNTP (NEB) 11,9 gL

Tween 20 al 10% 0,8 gL

Ribolock (Thermo Scientific) 9,5 gL

Pirofosfatasa inorgánica de E, coli (NEB) 19,1 gL

ARNP de T7 (NEB) 9,5 gL

T4gp32 (NEB) 5,7 gL

RTasa Maxima H-(Thermo Scientific) 28,6 gL

Volumen total 159,1 gL

La suspensión de células y cuentas se cargó en un bucle de muestra y la mezcla de RT/registro con código de barras/lisis se cargó en el otro bucle de muestra utilizando jeringas. Las concentraciones de células y cuentas se eligieron de tal manera que se minimizara la aparición de múltiples células o códigos de barras en una sola gotita, mientras se mantenían esas concentraciones lo suficientemente altas como para encapsular una cantidad suficientemente grande de células con cuentas, teniendo en cuenta que las células y las cuentas no migran a través del tubo a la misma velocidad que el fluido de suspensión, lo que conduce de manera efectiva a una dilución. Se cambiaron las válvulas de 4 vías para que los bucles de muestra estuvieran alineados con la bomba, y se activaron las tres bombas. Las dos entradas acuosas se hicieron fluir a velocidades de modo que se mezclaran a una proporción de 1:2 (suspensión celular: mezcla de RT/registro con código de barras/lisis). Las entradas acuosas y de aceite se hicieron fluir a velocidades de modo que se formaran gotitas de ~ 150 gm de diámetro, específicamente 1 gL/min (línea de suspensión de células/cuentas), 2 gL/min (línea de mezcla de RT), 3 gL/min (línea de aceite). La emulsión se recogió en un tubo de PCR de 0,2 mL de Sorenson Bioscience. Después de que se hubiera creado la muestra, se le aplicó en primer lugar una etapa de precalentamiento (3 minutos a 50°C) y a continuación se incubó durante 2 horas a 42°C para permitir que prosiguiera la reacción. Después de la reacción, la emulsión se rompió utilizando el protocolo que se describe a continuación. Esto produjo una muestra purificada de ADNc para la posterior amplificación por PCR y secuenciación.

Para romper la emulsión y recuperar el producto se utilizó el siguiente procedimiento:

1. Los tubos de bloqueo de fase (5Prime) se centrifugaron para empujar el gel hacia el fondo.

2. Se añadieron muestras y 200 gL de tampón TE, 400 gL de mezcla de fenol-cloroformo y 800 gL de cloroformo a cada tubo de bloqueo de fase.

3. Los tubos se centrifugaron durante 3 minutos a 14.000 g

4. La capa acuosa se transfirió a un segundo tubo de bloqueo de fase precentrifugado y se añadió un volumen igual de fenol-cloroformo.

5. Los tubos se centrifugaron durante 3 minutos a 14.000 g

6. Se añadieron 450 gL de TE al filtro Amicon

7. Se repitieron las etapas 5 y 6

8. Se añadieron 450 gL de Tris 10 mM al filtro Amicon

9. Se repitió la etapa 5

10. A continuación, cada unidad de filtro se colocó invertida en un nuevo tubo de recolección.

11. Los tubos se centrifugaron a 1000 g durante 2 minutos y la muestra limpia se centrifugó en el tubo de recolección.

A continuación, se realizaron dos rondas de PCR (PCR1 y PCR2), utilizando los siguientes cebadores además de algunas secuencias de cebadores enumeradas en la Tabla 13.

Tabla 13:

La siguiente mezcla de reacción PCR1 Q5 (NEB) se configuró mediante reacción de RT que utilizó un molde de adaptador de código de barras:

H2O 11 pL

5x Tampón Q5 5 pL

MgCl250 mM 0,15 pL

DMSO 1 pL

dNTP 0,5 pL

FW1-short 10 pM 1 pL

BCfw_longIsceI 2,5 pM 1 pL

K-GSP1 10 pM 0,56 pL

L-GSP1 10 pM 0,5 pL

G-GSP1 10 pM 0,56 pL

ET-SSB (NEB) 0,25 pL

100XBSA 0,25 pL

enzima Q5 0,2 pL

molde de ADNc 2 pL

95°C 5'

18 Ciclos: 98°C 30"

56°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 10°C mantener

Las reacciones de PCR1 a continuación se diluyeron 25x en Tris-HCl 10 mM (pH 8,0) y se utilizaron como molde en dos reacciones de PCR2 separadas, una para las cadenas ligeras kappa y lambda y otra para la cadena pesada gamma.

Las siguientes mezclas de reacción de PCR2 Q5 (NEB) se configuraron mediante reacción de PCR1:

H2O ^{hasta 20 pL}

5x Tampón Q5 4 pL

MgCÍ250 mM ^{0,12 pL}

DMSO 0,67 pL

dNTP 0,4 pL

2FW 10 pM 0,8 pL

K- y L- o G-GSP2 10 pM 0,4 pL

BSA 0,2 pL

Phusion 0,2 pL

Molde PCR1 DiÍ. 1,33 pL

95°C 5'

25 cicÍos: 98°C 30"

65°C 30"

72°C 45"

Extensión final: 72°C 5'

Mantenimiento: 102C mantener

Se hicieron migrar 10 pL de producto de PCR sobre un geÍ (FIG. 24). Se observaron claramente Ías bandas correspondientes a Ía cadena Íigera kappa y Íambda, y a Ía cadena pesada gamma.

Se reaÍizaron dos reacciones de PCR de 4 cicÍos por separado en Íos ampÍicones de cadena Íigera y pesada para añadir adaptadores de secuenciación 454 LibA. En LibPCR1, se añadió eÍ adaptador "A" aÍ extremo 5' de Íos ampÍicones y eÍ adaptador "B" aÍ extremo 3'; y viceversa en LibPCR2. Los detaÍÍes de LibPCR fueron Íos siguientes, utiÍizando Ía mezcÍa de cebadores Lib1-FR en LibPCR1 y utiÍizando Ía mezcÍa Lib2-FR en LibPCR2, y Íos cebadores se enumeran en TabÍa 14.

H2O hasta 20 pL

5x Tampón Q5 6 pL

MgCÍ250 mM ^{0,18 pL}

DMSO 1,2 pL

dNTP 0,6 pL

MezcÍa de Lib1 -FR o Lib2-FR 10 pM 1,2 pL

BSA 0,3 pL

Q5 0,3 pL

MoÍde 2 pL

IniciaÍ:

95°C 5'

25 cicÍos: 98°C 30"

65°C 30"

72°C 45"

Extensión finaÍ: 72°C 5'

Mantenimiento: 10°C mantener

Tabla 14:

A continuación, los amplicones se purificaron mediante la limpieza de cuentas Ampure (Beckman Coulter) según las instrucciones del fabricante utilizando una proporción de cuentas:ADN de 0,68:1 y la purificación en gel utilizando el gel Flashgel Recovery (Lonza) según las instrucciones del fabricante.

A continuación, los amplicones se cuantificaron utilizando la cuantificación de la biblioteca Kapa qPCR (KAPA) de acuerdo con las instrucciones del fabricante, y a continuación se utilizaron las cantidades apropiadas de bibliotecas de amplicones de cadena ligera y pesada en la PCR de emulsión 454, y las emulsiones se rompieron y se amplificaron clonalmente 454 cuentas cargadas en el Secuenciador 454 para secuenciar según las instrucciones del fabricante. Como los adaptadores A y B se añaden a los extremos 5' y 3' de los amplicones, los autores de la presente invención pudieron secuenciar desde ambas direcciones y obtener lecturas tanto directas como inversas.

Las secuencias se generaron a partir de una ronda 454 convencional y las secuencias resultantes se analizaron, aunque también se podrían haber utilizado otras plataformas de secuenciación de próxima generación.

Las secuencias se analizaron escribiendo un programa informático. El programa informático realizó las siguientes etapas en las lecturas de secuencia de las regiones de la placa de picotitulación 454. Las secuencias de la Región 1 se obtuvieron a partir de la biblioteca de cadenas pesadas creada como se describe anteriormente. Las secuencias de la Región 2 se obtuvieron a partir de la biblioteca de cadenas ligeras creada como se describe anteriormente. Para cada lectura, se calcularon dos alineamientos globales-locales para determinar la hebra que tenía una subsecuencia coincidente con las secuencias T2' y T1 de la Tabla 15. El alineamiento global-local calificó un emparejamiento como 0, un emparejamiento erróneo como -1 y utilizó una penalización por apertura de hueco y una penalización por extensión de hueco de -1. Se requería que las puntuaciones fueran mayores que -4 o la lectura se descartaba. Para la región de la cadena pesada, 611x103 lecturas de 841x103 lecturas satisfacían la restricción de puntuación de alineamiento. Para la región de la cadena ligera, 617x103 lecturas de 856x103 lecturas cumplieron con la restricción de puntuación de alineamiento. Según los alineamientos globales-locales, la secuencia de código de barras de ADN se extrajo de la lectura. Para las lecturas de la región de cadena pesada que satisfacían la restricción de puntuación de alineamiento, 397x103 lecturas tenían una secuencia de código de barras compatible con el patrón esperado y se les asignó el código de barras observado. Para las lecturas de la región de la cadena ligera que satisfacían la restricción de puntuación de alineamiento, 437x103 lecturas tenían una secuencia de código de barras compatible con el patrón esperado y se les asignó el código de barras observado.

Las lecturas con secuencias de códigos de barras de ADN idénticas se agruparon para ensamblarlas. Los grupos de lecturas con códigos de barras idénticos se ensamblaron utilizando newbler, el ensamblador 454. Las secuencias consenso de ensamblaje para las secuencias de la región 1 que tenían secuencias de código de barras idénticas a las secuencias de la región 2 se agruparon en conjuntos de pares de cadenas ligeras y pesadas.

Los conjuntos de pares de cadenas pesada y ligera contenían secuencias de cadena pesada y ligera obtenidas a partir de la célula B o células B presentes en la burbuja de emulsión de RT.

Entre los conjuntos de pares de lectura de cadena pesada y ligera, 2.551 tenían al menos 10 lecturas de la región de la cadena pesada y al menos 10 lecturas de la región de la cadena ligera. De los 2.551 pares de este tipo, 1.820 se habían ensamblado en exactamente una cadena pesada y exactamente una cadena ligera. Se encontró que 61 de esos pares tenían una cadena pesada y una ligera que eran únicas en todo el conjunto de datos de secuencias producidas.

Un ejemplo de secuencias de cadena pesada y ligera emparejadas producidas a partir de las lecturas de cadena pesada y ligera registradas con códigos de barras que tienen un código de barras compartido "GCCGACCACGGCACAAGCGCCGAAAAT" (SEQ ID NO: 124) es "MEFGLSWLFLVAILKGVQCGVQLLESGGGLVQPGGSLRLSCAGSQFTFSTYAMNWVRQAPGKGLEWVSGISGDGY RIQYADSVEGRFSISRDNSNNMVYLQMTSLRAEDTAVYFCAKDLFPRTIGYFDYWGQGTRVTVSS" (SEQ ID NO: 125) (secuencia de aminoácidos de cadena pesada) y "MEAPAQLLFLLLLWLPDTTGKIVMTQSPATLSVSPGERATLSCRASQSISINLAWYQHKPGQAPRLLIYGASTRATAIP ARFSGSVSGTEFTLTISSLQSEDFAVYYCQQYDDWPRTFGQGTKVEI" (SEQ ID NO: 126) (secuencia de aminoácidos de cadena ligera).

El análisis demuestra la capacidad de asociar la secuencia de cadena pesada de una célula B con la correspondiente secuencia de cadena ligera de una célula B.

Tabla 15: Secuencias utilizadas para identificar códigos de barras de ADN en lecturas de células B

L. Ejemplo 12: Ácidos nucleicos para registro con códigos de barras de células utilizando cuentas con moldes de adaptadores de códigos de barras en gotitas preparadas utilizando un dispositivo de gotitas de microfluido.

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. Se prepara una biblioteca de cuentas con moldes de adaptadores de códigos de barras como en el Ejemplo 11, excepto que emB_BCbridgeISceI_2 se reemplaza por emB_BCbridgeISceI_N y emB_Iscel_RV se reemplaza por emB_ISceI_RV_n. emB_ISceI_RV_n contiene identificadores moleculares únicos (UMI), de modo que, cuando se prepara, la biblioteca de cuentas con moldes de adaptadores de códigos de barras comprenderá cuentas, cada una con un código de barras de muestra único y un UMI de octómero aleatorio H (nucleótidos de A,C,T) para registrar con códigos de barras moléculas de ARNm individuales con diferentes UMI.

Tabla 16: Oligos adicionales utilizados para preparar una biblioteca de cuentas con moldes de adaptadores de códigos de barras con códigos de barras de muestra y UMI en una sola reacción

Las células junto con las cuentas se encapsulan en gotitas para la reacción de registro con códigos de barras como se describe en el Ejemplo 11, con la única diferencia de que se utilizan PBMC en lugar de células B de memoria activadas, y el oligo(dT) utilizado es oligodT_n, siendo la secuencia CAC GAC CGG TGC TCG ATT TAG TTT TTT TTT TTT TTT TTT Tt T TTT T (SEQ ID NO: 50). A continuación, se rompe la emulsión como se describe en el Ejemplo 11.

A continuación, se realiza una ronda de PCR, utilizando los siguientes cebadores:

Tabla 17:

Se utiliza por reacción la siguiente mezcla de reacción de PCR Q5 (NEB), y se configuran múltiples reacciones, y cada reacción se cicla durante un número diferente de ciclos de 15-26 ciclos para encontrar el número de ciclo óptimo que se debe utilizar:

H2O ^{9,65 pL}

5x Tampón Q5 5 pL

MgCl250 mM 0,15 pL

DMSO 1 pL

dNTP 0,5 pL

FW1-short 10 pM 1 pL

BCfw_ longIsceI 2,5 pM 1 pL

RV_1 10 pM 1 pL

ET-SSB (NEB) 0,25 pL

100XBSA 0,25 pL

enzima Q5 0,2 pL

molde de ADNc 5 pL

Inicial:

95°C 5'

15-25 ciclos, en incrementos de 2 ciclos:

98°C 30"

56°C 30"

72°C 45"

Extensión final:

72°C 5'

Mantenimiento:

102C mantener

Se hacen migrar 5 pL de producto de PCR sobre un gel y el número de ciclos que proporciona una buena cantidad de producto pero que no tiene ciclos excesivos se utiliza en las siguientes etapas aguas abajo.

A continuación, el producto se prepara de acuerdo con el kit de secuenciación de extremo emparejado de Illumina y el extremo anterior se secuencia en un secuenciador de alto rendimiento de Illumina, aunque también se podrían haber utilizado otras plataformas de secuenciación. Las secuencias se generan y analizan. A continuación se utilizan códigos de barras de muestra para asignar lecturas a células individuales, y después se utilizan UMI para realizar análisis de secuenciación de ARN de una sola célula utilizando métodos bien establecidos en el campo (Nat. Methods. febrero de 2014; 11 (2):163-6. doi: 10.1038/nmeth.2772. Publicación electrónica de 22 de diciembre de 2013).

M. Ejemplo 13: Síntesis de molde de adaptador de código de barras utilizando códigos de barras generados por combinatoria

En este ejemplo se sintetizó una biblioteca de cuentas con moldes de adaptadores de códigos de barras.

Se generaron combinatoriamente oligos que contenían códigos de barras (como en la FIG. 15) a partir de dos oligos, BC_part1_sense y BC_part2_type(1, 2, o 3)_antisense. Cada oligo BC_part1_sense y BC_part2_type(1, 2 o 3)_antisense contiene una secuencia única, "código de barras parte 1" y "código de barras parte 2", respectivamente. Estas secuencias combinadas crean una secuencia de código de barras única. "Código de barras parte 1" y "Código de barras parte 2" son los códigos de Hamming (16,11) y (12,7) respectivamente, siguiendo el método de Generalized DNA barcode design based on Hamming codes, Bystrykh 2012 PLoS One. 2012 7: e36852. Por lo tanto, los códigos de barras así diseñados corrigen errores.

Los oligos BC_part2 también se dividen en tres tipos, BC_part2_type1_antisense, BC_part2_type2_antisense y BC_part2_type3_antisense. Esto permite la amplificación para generar moldes de adaptadores de códigos de barras con 3 cebadores inversos diferentes sin cebado erróneo (Rv tipo 1, Rv_tipo 2 y Rv _tipo 3). Cuando cada uno de esos cebadores inversos se acopla covalentemente a un fluoróforo diferente, las cuentas con moldes de adaptadores de códigos de barras generadas se pueden identificar mediante fluorescencia en diferentes colores. Además, las cuentas con moldes de adaptadores de códigos de barras que tienen más de un tipo de código de barras emitirán fluorescencia en más de un color. Como molde de adaptador de código de barras, las cuentas en este ejemplo se preparan en emPCR utilizando una dilución limitante para colocar cuentas con un oligo que contiene un código de barras con los cebadores necesarios en una gotita. Las estadísticas de Poisson indican que un pequeño porcentaje de gotitas contendrá más de un oligo que contiene un código de barras, generando de hecho una cuenta con molde de adaptador de código de barras no monocódigo. Al tener diferentes tipos de cuentas con moldes de adaptadores de códigos de barras fluorescentes en diferentes colores, seguidas de la clasificación FACS de cuentas monocolor, aumentará en gran medida el porcentaje de cuentas monocódigo obtenidas a través de la generación emPCR de cuentas con moldes de adaptadores de códigos de barras.

Tabla 18. Códigos de barras generados combinatoriamente - secuencias

El oligo que contenía el código de barras se generó por PCR utilizando las condiciones de la Tabla 19 y las siguientes condiciones de termociclado: 94°C durante 2 min, seguido de 53°C durante 2 horas, 7 ciclos de 94°C durante 15 s, 53°C durante 30 s y 68°C durante 20 s, seguido de 68°C durante 1 min y un mantenimiento a 10°C. La reacción se limpió utilizando el kit de limpieza y concentración de ADN Zymo y las concentraciones se cuantificaron con Qubit (Life Technologies).

Tabla 19. Mezcla maestra para preparar oligos que contienen códigos de barras

El tamaño de 82 pb para oligos que contenían códigos de barras se confirmó sobre un gel (FIG. 25, parte superior izquierda).

Se acoplaron cuentas de microesferas SuperAvidin de 9,8 pm (Bangs Lab) con oligos conectores de cuentas SAV biotinilados. Se incubaron 15 millones de cuentas con 60 pL de oligo 10 pM durante 1 hora y a continuación se lavaron 3 veces con tampón BWB (NaCl 1M en TE), seguido de 3 lavados en Tris 10 mM para generar cuentas SAV_beads_ linker acopladas.

Se realizó una emPCR para generar cuentas con moldes de adaptadores de códigos de barras de la siguiente manera:

Tabla 20. Mezcla maestra para preparar cuentas con moldes de adaptadores de códigos de barras

La emulsión se creó sometiendo a movimiento oscilante el aceite de emulsión con la mezcla maestra de la Tabla 20. La formulación de aceite de emulsión fue 10 mL de aceite de silicona AR20 (Sigma), 7,5 mL de 7225C Formulation Aid (Dow Corning), 7,5 mL de Resin 0749 (Dow Corning) y 0,1% de Triton X-100 (Sigma). Se sometieron a movimiento oscilante 12 mL de aceite de emulsión con 4 mL de mezcla simulada (sin oligos, cebadores ni enzimas de la mezcla maestra en la Tabla 20) a 30 Hz durante 5 min en TissueLyser (Qiagen), y a continuación se agitaron a 12 Hz durante 5 min después de añadir 4 mL de mezcla maestra. Esto proporcionó la mayoría de las gotitas más grandes entre 30 80 um de diámetro. Las condiciones de termociclado fueron:

Inicial:

94°C 2'

35 ciclos: 94°C 30

53°C 60

68°C 90

50 ciclos: 94°C 30

59°C 6'

Mantenimiento 102C

La emulsión se rompió lavando con la mezcla de ruptura 1 seguido de la mezcla de ruptura 2, seguido de lavados con etanol del 70% y lavados con TE. Las cuentas se resuspendieron en TE con Tween 20 al 0,001%.

Las cuentas se hicieron circular en un BD FACS Jazz y las cuentas monocolor brillantes se clasificaron (FIG. 25, derecha). Se llevó a cabo una reacción de registro con códigos de barras realizada como en el Ejemplo 14 para verificar que las cuentas se podían utilizar como adaptadores de códigos de barras para ARN de registro con código de barras, excepto que la reacción se realizó en PCR abierta con múltiples cuentas en un tubo de PCR y con ARN de PBMC purificado. Como en la FIG. 25, abajo a la izquierda, se obtuvieron bandas que mostraban que las cuentas eran efectivamente utilizables como moldes de adaptadores de códigos de barras para ARN de registro con código de barras.

N. Ejemplo 14: Ácidos nucleicos para registro con códigos de barras de células T utilizando cuentas con moldes de adaptadores de códigos de barras en gotitas de volúmenes variables

Las PBMC crioconservadas se descongelaron y se incubaron en medio AIM V (Life Technology) durante la noche a una densidad de 3 millones de células por mL. A continuación, las células T se aislaron mediante clasificación de células activadas magnéticamente (MACS) utilizando microcuentas CD3 (Miltenyi Biotec) de acuerdo con las instrucciones del fabricante. En resumen, las células T se centrifugaron a 300 g durante 10 minutos y se suspendieron en tampón de MACS (suero bovino fetal al 2% y EDTA 2 mM en 1X PBS) que contenía microcuentas c D3 al 20% durante 15 minutos a 4°C. A continuación, las células T marcadas magnéticamente se separaron utilizando una columna de separación magnética, seguido de co-estimulación con 1X ionomicina y 1X 12-miristato 13-acetato de forbol (PMA) durante 3 horas. Después de retirar los medios que contenían ambos estímulos, las células se incubaron con 1X ADNasa (Sigma) como agente antiaglomerante durante 15 minutos.

Las células se centrifugaron para eliminar el sobrenadante que contenía ADNasa y se lavaron 3 veces con tampón de suspensión celular (CSB) que contenía NaCl 1 M al 5%, EDTA 500 mM al 1,5%, Betaína 4 M al 33,8% y Betaína 4 M al 7,5% albúmina sérica (BSA). Las células también se filtraron con un filtro de células de 40 pm (BD Falcon) para eliminar los grumos de células después de resuspenderlas en 1 mL de CSB. A continuación, las suspensiones celulares se hicieron circular en un dispositivo generador de gotitas como en el Ejemplo 8 para encapsular las células y las cuentas con moldes de adaptadores de códigos de barras en gotitas, donde las cuentas se generaron como en el Ejemplo 13. En este ejemplo, las células y las cuentas se encapsularon en gotitas de diferentes tamaños: 1,4, 3,1 y 5,6 nL.

Las gotitas que contenían células y códigos de barras se sometieron a una transcripción inversa incubando a 50°C durante 3 minutos seguido de 42°C durante 3 horas en la siguiente composición de tampón de reacción final: Mezcla de reacción de RT

Tris-HCl pH 8 20 mM

NaCl 3,33 mM

KCl 10 mM

(NH4)2SO4 10 mM

MgSO4 15 mM

EDTA 0,5 mM

Betaína 90 mM

BSA 0,4 mg/mL

DTT 4 mM

Tween 20 0,30%

dNTP 2mM

NTP 8mM

Ribolock 1,6 U/pL

ARNP de T7 4 U/pL

IPP de E. coli 0,001 U/pL

T4gp32 0,25 pg/pL

Máxima H- 3 U/pL

Oligo(dT) 0,1 pM

Hexámeros y octómeros aleatorios 25 nM

Pentadecámero aleatorio 6,25 nM

A continuación, la emulsión se rompió con una mezcla de fenol/cloroformo y se concentró en una columna Amicon de 100 kDa (Millipore) como en el Ejemplo 8. El ADNc se sometió a 18 ciclos de PCR1, seguido de PCR2 utilizando la mezcla de reacción por reacción de RT que se indica a continuación y las condiciones de termociclado enumeradas en la Tabla 21. Los cebadores utilizados están en Tabla 22.

Mezcla de reacción para PCR1 Mezcla de reacción para PCR2

H2O 15,64 pL H2O 17,82 pL 5X Tampón Q5 6,00 pL 5X Tampón Q5 6,00 pL MgCl2 ^{0,19 pL MgCl}2 ^{0,18 pL}DMSO 1,20 pL DMSO 1,00 pL dNTP 0,63 pL dNTP 0,60 pL Index_sID 0,63 pL FW2-N-V2 0,60 pL PCR1_short_n_v2 0,63 pL RV2-n 0,60 pL TRAC 53-78 / TRBC 37-60 0,63 pL TRAC GSP2 / TRBC GSP2 0,60 pL ET-SSB 0,31 pL BSA 0,30 pL BSA 0,31 pL Enzima Q5 0,30 pL Tipp 0,60 pL Molde 2,00 pL Enzima Q5 0,25 pL Total 30,00 pL Molde 3,00 pL

Total 30,00 pL

Tabla 21. Condiciones de termociclado de PCR1 y PCR2

Tabla 22. Secuencias de cebadores para PCR 1 y PCR2

Como se puede observar a partir de la FIG. 26, a los 3 volúmenes de gotitas sometidos a prueba, la reacción se completó con éxito.

O. Ejemplo 15: Amplificación y secuenciación de genes de TCR alfa y beta a partir de ácidos nucleicos registrados con código de barras

Se generó ADNc de células T registrado con código de barras como se describe en el Ejemplo 14. En resumen, las PBMC se co-estimularon con 1X ionomicina y PMA en medio AIM V durante 3 horas. Las células T que expresaban CD3, CD4 o CD8 se marcaron magnéticamente y se aislaron por separado utilizando kits MACS (Miltenyi Biotec) y se hicieron circular a través de un dispositivo de gotitas para encapsular células con cuentas con moldes de adaptadores de códigos de barras, que se generaron como en el Ejemplo 13. La emulsión que contenía las células y los códigos de barras se transcribieron de forma inversa a 50°C durante 3 minutos y 42°C durante 3 horas. A continuación, la emulsión se rompió con una mezcla de fenol/cloroformo y se concentró utilizando una columna Amicon de 100 kDa (Millipore).

La transcripción inversa y la PCR1 y PCR2 se realizaron como en el Ejemplo 14, con diferentes cebadores index_sID, cada uno con un código de barras de ID de índice único, utilizado para cada muestra. Esto permite agrupar y multiplexar muestras en el mismo experimento de secuenciación de próxima generación, donde las diferentes muestras se distinguen entre sí a través del código de barras de ID de índice.

A continuación, los productos de PCR2 se concentraron con cuentas magnéticas AMPure (Roche) según las instrucciones del fabricante a una proporción de 1 pL de productos de PCR 2 por 0,8 pL de cuentas magnéticas. A continuación, las muestras se prepararon para la secuenciación de Illumina utilizando una PCR de biblioteca adicional para añadir adaptadores para la secuenciación de Illumina. Los cebadores utilizados se enumeran en la Tabla 23.

H2O ^{16,22 pL}

5X Tampón GC 6,00 pL

MgCl2 0,18 pL

DMSO 1,20 pL

dNTP 0,60 pL

Next i5 n 10 pM 0,60 pL

Next i7 FULL n 10 pM 0,60 pL

BSA 0,30 pL

ADN polimerasa Phusion 0,30 pL

Molde 4,00 pL

Total 30,00 pL

Condiciones de termociclado para la PCR de la biblioteca

Tabla 23. Secuencia de cebadores utilizada en la amplificación por PCR de la biblioteca

El producto amplificado se limpió con Pippin Prep y DNA Purification and Concentrator kit (Zymo Research) para eliminar pequeños fragmentos y se analizó mediante electroforesis en gel de agarosa (FIG. 27), y se secuenció utilizando la secuenciación de Illumina.

Se analizaron las lecturas finales emparejadas de la secuenciación de Illumina para determinar la línea germinal del receptor de células T (TCR), TCR CDR3 e inferir la secuencia de longitud completa. La secuenciación generó 21.207.225 lecturas finales emparejadas filtradas. Los códigos de barras de ADN se utilizaron para asignar lecturas emparejadas al transcrito de un TCR dentro de las células T individuales basándose en la secuencia de lectura directa. La identificación de los códigos de barras de ADN dentro de las lecturas directas se realizó mediante un script en python. Para cada lectura directa, la distancia de edición a la secuencia fija 1 se calculó mediante un alineamiento global/local. Se requirió una distancia de edición de 2 o menos o se descartó el par de lectura. Desde la ubicación de la secuencia fija 1 y las longitudes conocidas de la parte 1 del código de barras (BC1) y la parte 2 del código de barras (BC2), las secuencias candidatas BC1 y BC2 se extrajeron de la lectura directa. Se comprobaron BC1 y BC2 para verificar que cumplían la condición de Hamming para un código de barras de ADN de Hamming(16, 11) o Hamming(12, 7), respectivamente (véase la Tabla 18 para la secuencia y las posiciones relativas de las secuencias nombradas entre sí). Basándose en BC1 y BC2, se asignó una lectura emparejada a una célula T específica. Como resultado, se asignaron 3.712.013 pares de lectura a las células T.

Las lecturas emparejadas asignadas a las células T se compararon a continuación con variantes conocidas de secuencias de TCR de línea germinal V, J y constante utilizando el programa blastn con un e-valor de corte de 10-5. Si cualquiera de las lecturas del par se calificaba como un acierto en una línea germinal por medio de blast, el recuento de esa línea germinal y el alelo asociado se incrementaba en uno para la cadena alfa o beta del TCR correspondiente (de la célula identificada por BC1, BC2). Además, para cada combinación de alelos de la línea germinal y célula específica, se almacenó una lista de secuencias que tenían un acierto.

Para cada célula identificada por una combinación única de BC1 y BC2, se asignó la composición alélica v, j y/o constante de la línea germinal para las cadenas alfa y beta basándose en la mayoría de los recuentos indicados anteriormente, y para cada línea germinal la secuencia que tenía la HSP más larga asociada con ella se seleccionó como una porción representativa del transcrito para esa línea germinal.

A continuación, se determinó la composición de la región CDR3 utilizando las siguientes etapas. Para cada línea germinal j, se determinó la ubicación de la secuencia de 4 aminoácidos (AA) que satisfacía el patrón FG*G cuando fue posible, y se identificó la lista de líneas germinales v que tenían la combinación de CA en los últimos 10 AA de su secuencia. Para cada célula, se buscó el patrón de 4 AA de la línea germinal j y la combinación de CA en los tres marcos de la secuencia representativa traducida para j. Se determinó que la CDR3 era la secuencia de AA entre CA y el patrón de 4 AA. La supuesta secuencia de AA del TCR se obtuvo combinando la secuencia de AA de la línea germinal v hasta CA seguida de la secuencia CDR3 seguida de la secuencia de AA de la línea germinal j comenzando con el patrón de 4 AA. Utilizando un enfoque similar, se determinaron la secuencia de nucleótidos de la CDR3 y la supuesta secuencia de nucleótidos de longitud completa del TCR.

La línea germinal D y el alelo D se evaluaron mediante la evaluación de la distancia de edición basada en un alineamiento global-local entre las líneas germinales D y la secuencia de nucleótidos de la CDR3. Se asignó una línea germinal/alelo D al TCR siempre que la distancia de edición a la secuencia de la línea germinal más cercana fuera menor o igual a 2.

La Tabla 24 muestra estadísticas resumidas de las muestras que se procesaron, incluida la cantidad estimada de células con código de barras, células con una cadena TCR alfa o beta asignada, células con TCR alfa y beta asignadas, y la cantidad de cadenas alfa o beta de longitud completa inferidas.

Tabla 24. Cadenas alfa y beta de TCR

P. Ejemplo 16: Amplificación y secuenciación de genes específicos de subtipos celulares a partir de ácidos nucleicos registrados con código de barras

Se generó ADNc de células T registrado con código de barras como se describe en el Ejemplo 15. En resumen, las PBMC se co-estimularon con 1X de ionomicina y PMA en medio AIM V durante 3 horas. Las células T que expresaban CD3, CD4 o CD8 se marcaron magnéticamente y se aislaron por separado utilizando kits MACS (Miltenyi Biotec) y se hicieron circular a través de un dispositivo de gotitas. La emulsión que contenía células y códigos de barras se sometió a transcripción inversa a 50°C durante 3 minutos y 42°C durante 3 horas como en el Ejemplo 14. A continuación, la emulsión se rompió con una mezcla de fenol/cloroformo y se concentró utilizando una columna Amicon de 100 kDa (Millipore). A continuación, se realizaron la PCR1 y PCR2 en diferentes ciclos utilizando las condiciones de termociclado de la Tabla 21, junto con los cebadores específicos para los genes de los subconjuntos dirigidos a las células T, p. ej. CD4, CD8 e interferón gamma (IFNy) como se enumera en la Tabla 25. Las mezclas de reacción se prepararon de la siguiente manera:

Mezcla de reacción para PCR1 Mezcla de reacción para PCR2

H2O 10,61 pL H2O ^{12,42 pL}5X Tampón Q5 6,00 pL 5X Tampón Q5 6,00 pL MgCl2 0,19 pL MgCl2 0,18 pL DMSO 1,20 pL DMSO 1,00 pL dNTP 0,63 pL dNTP 0,60 pL ID de índice de la muestra 2,5 pM 0,63 pL FW2-N-V2 10 pM 0,60 pL PCR1_short_n_v2 10 pM 0,63 pL Cebador específico de gen 1 pM 6,00 pL Cebador específico de gen 1 pM 6,30 pL BSA 0,30 pL ET-SSB 0,31 pL Enzima Q5 0,30 pL BSA 0,31 pL Molde 2,00 pL Tipp 0,60 pL Total 30,00 pL Enzima Q5 0,25 pL

Molde 3,00 pL

Total 30,00 pL

Tabla 25. Secuencias de cebadores inversos de genes dirigidos a células T para PCR1 y PCR2 además de la secuencia utilizada en PCR 1 y PCR 2.

A continuación, se prepararon productos de PCR2 para la secuenciación de Illumina como en el Ejemplo 15, y los productos se analizaron mediante electroforesis en gel de agarosa (FIG. 27) antes de la secuenciación de Illumina.

Se analizaron las lecturas finales emparejadas de la secuenciación de Illumina para determinar el subtipo de células T en función de los marcadores específicos del gen. La secuenciación generó 19.205.611 lecturas finales emparejadas filtradas. Los códigos de barras de ADN se utilizaron para asignar lecturas emparejadas a transcritos dentro de células T individuales basándose de la secuencia de lectura directa. La identificación de los códigos de barras de ADN dentro de las lecturas directas se realizó mediante un script en python. Para cada lectura directa, la distancia de edición a la secuencia fija 1 se calculó mediante un alineamiento global/local. Se requirió una distancia de edición de 2 o menos o se descartó el par de lectura. Desde la ubicación de la secuencia fija 1 y las longitudes conocidas del código de barras parte 1 (BC1) y del código de barras parte 2 (BC2), las secuencias candidatas BC1 y BC2 se extrajeron de la lectura directa. Se comprobaron BC1 y BC2 para verificar que cumplían la condición de Hamming para un código de barras de ADN de Hamming(16, 11) o Hamming(12, 7), respectivamente. Para las lecturas directas que satisfacían la condición de Hamming, se extrajo un código de barras molecular candidato en función de las longitudes conocidas de X, la secuencia fija 2 y el código de barras molecular (véase la Tabla 18 para la secuencia y las posiciones relativas de las secuencias nombradas entre sí). Si la secuencia de código de barras molecular no tenía nucleótidos "C", las lecturas emparejadas se asignaban a una célula T (basándose en BC1 y BC2) y un transcrito específico dentro de la célula T (basándose en el código de barras molecular). Se asignaron 3.902,569 pares de lectura a los transcritos dentro de las células T individuales.

Las lecturas emparejadas asignadas a los transcritos de células T se compararon a continuación con variantes de empalme conocidas de los genes marcadores utilizando el programa blastn con un e-valor de corte de 10-6 y ajustando perc_identity a 98. Si cualquiera de las lecturas del par se calificaba como un acierto por blast, el transcrito correspondiente de la célula T (identificada por BC1, BC2 y el código de barras molecular) se asociaba con el gen marcador.

Para cada célula identificada por una combinación única de BC1 y BC2, la cantidad de veces distintas que se observó un transcrito de un gen marcador dado se determinó contando la cantidad de códigos de barras moleculares distintos observados a partir de pares de lectura asociados con el gen marcador dado.

La cantidad de cada tipo de célula T detectada se determinó basándose en los genes marcadores. Las células T en las que se determinó que se asignaban al menos un transcrito de CD4 y un transcrito de IFNy se contaron como células Th1. Las células T en las que se determinó que se asignaba al menos un transcrito de CD4 y no se asignaba ningún transcrito de IFNy se contaron como muestras de CD4 no Th1. Las células T en las que se determinó que se identificaron al menos un transcrito de CD8 y un transcrito de IFNy se contaron como células T citotóxicas IFNy+. Las células T en las que se determinó que se asignaba al menos un transcrito de CD8 y no se asignaba ningún transcrito de IFNy se contaron como células T citotóxicas IFNy-.

La Tabla 26 muestra el número total de células T CD4 detectadas, el número de células T CD4 Th1, el total de células T citotóxicas y las células T citotóxicas IFNy+ resultantes del procesamiento de tres muestras diferentes utilizando el procedimiento descrito aquí.

Tabla 26. Resumen de subconjuntos.

Q. Ejemplo 17: Realización de transcriptómica de células individuales

Se generó ADNc de células T con código de barras como se describe en el Ejemplo 15. En resumen, las PBMC se co-estimularon con 1X ionomicina y PMA en medio AIM V durante 3 horas. Las células T que expresaban CD3, CD4 o CD8 se marcaron magnéticamente y se aislaron por separado utilizando kits MACS (Miltenyi Biotec) y se hicieron circular a través de un dispositivo de gotitas. La emulsión que contenía células y códigos de barras se sometió a transcripción inversa a 50°C durante 3 minutos y 42°C durante 3 horas como en el Ejemplo 14. A continuación, la emulsión se rompió con una mezcla de fenol/cloroformo y se concentró utilizando una columna Amicon de 100 kDa (Millipore). Se realizó una única ronda de PCR para amplificar todo el transcriptoma, en las condiciones que se muestran a continuación:

Condiciones de PCR de transcriptoma completo

Condiciones de termociclado

Se añadió un adaptador a la biblioteca utilizando 5 ciclos de PCR, con las mismas condiciones de PCR y condiciones de termociclado que antes, pero utilizando FW2-n-V2 como cebador directo en su lugar. A continuación, las muestras se agruparon, se limpiaron con cuentas Ampure y se prepararon para la secuenciación de Illumina con el kit de preparación de ADN Nextera XT (Illumina), que tagmentó ADN en fragmentos más pequeños, siguiendo las instrucciones del fabricante, excepto que se utilizaron 5 ng de molde de ADN y cebadores internos personalizados en su lugar durante la etapa de amplificación. Los cebadores internos utilizados, Next_i5_n_v2 y Next_i7_n, garantizaron que solo se amplificarían los fragmentos tagmentados que contenían el código de barras. Se hicieron migrar sobre un gel y se mostró en la FIG. 29.

Tabla 27. Cebadores adicionales utilizados para la amplificación transcriptómica completa y la preparación de bibliotecas

La biblioteca de amplicones registrados con códigos de barras se secuenció utilizando un aparato Illumina NextSeq. Se analizaron lecturas finales emparejadas para asociar lecturas emparejadas con células individuales y para identificar los genes que se expresaron en esas células. La secuenciación generó 371.918.220 lecturas finales emparejadas filtradas. Los códigos de barras de ADN se utilizaron para asignar lecturas emparejadas a transcritos dentro de células individuales basándose en la secuencia de lectura directa. La identificación de los códigos de barras de ADN dentro de las lecturas directas se realizó mediante un script en python. Para cada lectura directa, la distancia de edición a la secuencia fija 1 se calculó mediante un alineamiento global/local. Se requirió una distancia de edición de 2 o menos o se descartó el par de lectura. Desde la ubicación de la secuencia fija 1 y las longitudes conocidas de BC1 y BC2, se extrajeron las secuencias candidatas BC1 y BC2 de la lectura directa. Se comprobaron BC1 y BC2 para verificar que cumplían la condición de Hamming para un código de barras de ADN de Hamming(16, 11) o Hamming(12, 7), respectivamente. Para las lecturas directas que satisfacían la condición de Hamming, se extrajo un código de barras molecular candidato en función de las longitudes conocidas de X, la secuencia fija 2 y el código de barras molecular. Si la secuencia de código de barras molecular no tenía nucleótidos "C", las lecturas emparejadas se asignaban a una célula (basándose en BC1 y BC2) y un transcrito específico dentro de la célula (basándose en el código de barras molecular). Se asignaron 37.110.172 pares de lectura a los transcritos dentro de las células individuales.

Las lecturas emparejadas asignadas a los transcritos celulares se compararon a continuación con las variantes de empalme conocidas de los genes, como se informó en la versión 78 de Ensembl (www.ensembl.org), utilizando el programa blastn con un e-valor de corte de 10-6 y establecer perc_identity en 98. Si cualquiera de las lecturas del par se calificaba como un éxito mediante blast, el transcrito correspondiente de la célula (identificado por BC1, BC2 y el código de barras molecular) se asociaba con el gen. Si había más de un éxito por blast, se seleccionaba la mejor coincidencia encontrando el gen que tenía la mayor suma de longitudes de HSP para lecturas directas e inversas. En caso de empate entre dos genes diferentes, la asignación del par de lectura a un gen se consideraba ambigua y no se volvía a tener en cuenta.

Para cada célula identificada por una combinación única de BC1 y BC2, el número de veces distintas que se observó un transcrito a partir de un gen dado se determinó contando el número de códigos de barras moleculares distintos observados de pares de lectura asociados con el gen dado.

La Tabla 33 muestra los genes detectados con mayor frecuencia después de procesar cuatro muestras utilizando este procedimiento. La tabla muestra el ID del gen Ensembl, la descripción Ensembl del gen y el número de células en las que se detectó el gen.

R. Ejemplo 18: Incorporación del adaptador de código de barras al extremo 5' de la primera hebra de ADNc

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. Las células y el molde de adaptador de código de barras se juntan en recipientes de reacción en los que la mayoría de los recipientes de reacción tienen solo una célula y una molécula de molde, o una célula y una cuenta con molde de adaptador de código de barras, por ejemplo, mediante un dispositivo generador de gotitas y los recipientes de reacción son gotitas de agua en aceite, tal como en el ejemplo 14. La secuencia del adaptador de código de barras comprende una secuencia fija, una secuencia de código de barras, opcionalmente un UMI y oligo(dT) o una secuencia aleatoria o semialeatoria (Barcode_adapter_5c_oligodT y Barcode_adapter_5c_randomer respectivamente en la Tabla 28), o combinados. El oligo de cambio de molde (TSO) comprende una secuencia fija, opcionalmente un UMI y una secuencia complementaria a la 1a hebra de ADNc (adaptador 5' en la Tabla 28).

La reacción de transcripción inversa se realiza a 50°C durante 3 minutos, seguido de 42°C durante 3 horas, en las siguientes condiciones de reacción:

Mezcla de reacción de RT

El registro con código de barras se produce durante la reacción de RT a medida que el adaptador de código de barras ceba la reacción y se incorpora al extremo 5' de la 1a hebra de ADNc. Los adaptadores de códigos de barras se generan a partir de una ARNP o ADNP (con el promotor de ARN apropiado o el sitio de reconocimiento de ADNP de desplazamiento de hebra, como una mella creada por una enzima de mellado, en el molde de adaptador de código de barras) ya que la transcripción inversa puede utilizar tanto ADN como ARN como cebadores (FIGS. 8 y 9).

La emulsión se rompe como en el Ejemplo 14, y la biblioteca de ácidos nucleicos registrados con código de barras resultante se combina y amplifica a continuación utilizando cebadores directos e inversos que comprenden secuencias complementarias a las secuencias fijas añadidas por el adaptador 5' y barcode_adapter_5c_oligodT o barcode_adapter_5c_randomer en la reacción de registro con códigos de barras respectivamente, tal como en el Ejemplo 17. Las condiciones de reacción se muestran a continuación:

H2O ^{28,525 pL}

5x Tampón Q5 12 pL

Mg++ 0,375 pL

DMSO 2,4 pL

dNTP 1,25 pL

índice sID (2,5 pM) 5,00 pL

PCR1_short_n_v2 (10 pM) 1,25 pL

PCR1 -RV-N-v2 (10 pM) 1,25 pL

ET-SSB 0,625 pL

BSA 0,625 pL

Tipp 1,2 pL

enzima Q5 0,5 pL

Molde 5 pL

total 60 pL

Condiciones de termociclado

Los genes diana de interés también se pueden amplificar realizando la amplificación utilizando cebadores directos que comprenden secuencias específicas de genes y utilizando un cebador inverso que comprende secuencias complementarias a la secuencia fija añadida por barcode_adapter_5c_oligodT o barcode_adapter_5c_randomer en la reacción de registro con códigos de barras, como en los Ejemplos 14 y 16. A continuación se muestran las condiciones de reacción para amplificar las cadenas alfa y beta de TCR en dos reacciones de PCR sucesivas, donde los productos de PCR1 se diluyeron 50x antes de utilizarse en la PCR2:

Mezcla de reacción para PCR1 Mezcla de reacción para PCR2

H2O 15,64 pL H2O 17,82 pL 5X Tampón Q5 6,00 pL 5X Tampón Q5 6,00 pL MgCl2 0,19 pL MgCl2 0,18 pL DMSO 1,20 pL DMSO 1,00 pL dNTP 0,63 pL dNTP 0,60 pL PCR1_i5_new 0,63 pL FW2-N-V2 0,60 pL PCR1_short_n_v2 0,63 pL RV2-n 0,60 pL TRAC 53-78 / TRBC 37-60 0,63 pL TRAC GSP2 / TRBC GSP2 0,60 pL ET-SSB 0,31 pL BSA 0,30 pL Mezcla de reacción para PCR1 Mezcla de reacción para PCR2

BSA 0,31 pL Enzima Q5 0,30 pL Tipp 0,60 pL Molde 2,00 pL Enzima Q5 0,25 pL Total 30,00 pL Molde 3,00 pL

Total 30,00 pL

Condiciones de termociclado de PCR1 y PCR2

A continuación, la biblioteca se prepara para la secuenciación de próxima generación, tal como en la plataforma Illumina o Ion Torrent.

Tabla 28. Secuencias de cebadores

S. Ejemplo 19: Incorporación del adaptador de código de barras al extremo de 5 ’ durante la PCR

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. Las células y el molde de adaptador de código de barras se juntan en recipientes de reacción en los que la mayoría de los recipientes de reacción tienen solo una célula y una molécula de molde, o una célula y una cuenta con molde de adaptador de código de barras, por ejemplo, mediante un dispositivo generador de gotitas y los recipientes de reacción son gotitas de agua en aceite, como en el ejemplo 14. El oligo de cambio de molde (TSO) comprende una secuencia fija, opcionalmente un UMI, y una secuencia complementaria a la 1a hebra de ADNc (adaptador 5' en la Tabla 29). La secuencia adaptadora 3' comprende una secuencia fija, opcionalmente un UMI, y oligo(dT) o una secuencia aleatoria o semialeatoria (3'_adapter_oligodT y 3'_adapter_randomer respectivamente en la Tabla 29), o combinados.

La reacción de transcripción inversa con una célula y una cuenta con molde de adaptador de código de barras se realiza a 50°C durante 3 minutos, seguido de 42°C durante 3 horas, seguido de condiciones de ciclado de PCR convencionales, en las siguientes condiciones de reacción:

Mezcla de reacción de RT

Tris-HCl pH 8 20 mM

NaCl 3,33 mM

KCl 10 mM

(NH4)2SÜ4 10 mM

MgSÜ4 7 mM

EDTA 0,5 mM

Betaína 90 mM

BSA 0,4 mg/mL

DTT 4 mM

Tween 20 0,30%

dNTP 2 mM

Ribolock 1,6 U/pL

Fragmento de Klenow 0,4 U/pL

Nt.BbvCI 0,3 U/UL

IPP de E. coli 0,001 U/pL

T4gp32 0,25 pg/pL

Máxima H- 3 U/pL

adaptador 5' 1 pM

3'_adapterPCR_oligodT 0,1 pM (cada uno) y/o 3'_adapter_PCR_randomer

3'_PCR_primer 0,5 pM

Se genera 5'_PCR_barcode_adapter_primer a partir de un barcode_adapter_template utilizando una ADNP (con el sitio de reconocimiento de ADNP de desplazamiento de hebra adecuado, tal como una mella creada por una enzima de mellado, en el molde de adaptador de código de barras). Aquí, el fragmento Klenow se utiliza como ADNP y Nt.BbvCI se utiliza como endonucleasa de mellado, y el sitio de reconocimiento es "CCTCAGC". Después de la transcripción inversa, los cebadores con su extremo 3' complementario a las secuencias adaptadoras añadidos a la 1a hebra de ADNc se utilizan para la amplificación, siendo el cebador directo 5'_PCR_barcode_adapter_primer, que se genera a partir de moldes de adaptadores de códigos de barras, y siendo el cebador inverso 3'_PCR_primer.

El registro con código de barras se produce durante la reacción de PCR, ya que el adaptador de código de barras (5'_PCR_barcode_adapter_primer) es el cebador directo y el adaptador de código de barras se incorpora al extremo 5' de la ia hebra de ADNc (FIG. 11).

Los genes diana de interés también se pueden amplificar realizando la amplificación utilizando 5'_PCR_barcode_adapter_primer como cebador directo y cebadores inversos que comprenden secuencias específicas de genes.

A continuación, la biblioteca se agrupa y se prepara para la secuenciación de próxima generación, tal como en la plataforma Illumina o Ion Torrent.

Tabla 29. Secuencias de cebadores

T. Ejemplo 20: Incorporación del adaptador de código de barras al extremo 3 ’ durante la PCR

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. Este ejemplo es similar al Ejemplo 19, excepto que el adaptador de código de barras generado a partir de moldes de adaptadores de códigos de barras se utiliza como cebador inverso en la PCR. La transcripción inversa se realiza como en el Ejemplo 19, y en la PCR 5'_PCR_primer es el cebador directo, y 3'_PCR_barcode_adapter_primer se genera a partir de barcode_adapter_template y se utiliza como cebador inverso (FIG. 12). La reacción de transcripción inversa con una célula y una cuenta con molde de adaptador de código de barras se realiza a 50°C durante 3 minutos, seguido de 42°C durante 3 horas, seguido de condiciones de ciclado de PCR convencionales, en las siguientes condiciones de reacción:

Mezcla de reacción de RT

Tris-HCl pH 8 20 mM

NaCl 3,33 mM

KCl 10 mM

(NH4)2SO4 10 mM

MgSO4 7 mM

EDTA 0,5 mM

Betaína 90 mM

BSA 0,4 mg/mL

DTT 4 mM

Tween 20 0,30%

dNTP 2 mM

Ribolock 1,6 U/pL

Fragmento de Klenow 0,4 U/pL

Nt.BbvCI 0,3 U/UL

IPP de E. coli 0,001 U/pL

T4gp32 0,25 pg/pL

Máxima H- 3 U/pL

adaptador 5' 1 pM

3'_adapter_PCR_oligodT 0,1 pM (cada uno)

y/o 3'_adapter_PCR_randomer

5'_PCR_primer 0,5 pM

Los genes diana de interés también se pueden amplificar realizando una amplificación utilizando cebadores directos e inversos que comprenden secuencias específicas de genes, y

3'_PCR_barcode_adapter_primer como cebador inverso.

A continuación, la biblioteca se agrupa y se prepara para la secuenciación de próxima generación, como en la plataforma Illumina o Ion Torrent.

Tabla 30. Secuencias de cebadores

U. Ejemplo 21: ARN para registro con código de barras de fuentes no celulares

En las realizaciones de la presente invención, todo el ARN en el recipiente de reacción está registrado con código de barras, siempre que el cebador utilizado en la reacción pueda unirse e iniciar la transcripción inversa para un ARN particular. Por lo tanto, el ARN introducido exógenamente también se puede registrar con códigos de barras. En este ejemplo, se registró con código de barras el ARN generado utilizando transcripción in vitro.

La secuencia SpikeIn se ordenó a partir de IDT y PCR amplificada con ADN polimerasa Phusion utilizando SPIKEIN-FW y SPIKEIN-RV como cebadores para obtener material de doble hebra con una secuencia del promotor de ARNP de T7 5' y una cola de poli A en 3'. A continuación, el producto se limpió con el kit Qiagen MinElute y el producto de ADN se utilizó para transcripción in vitro con el kit T7 MEGAScript de Life Technologies. El ARN así obtenido se limpió a continuación lavando y concentrando con Tris 10 mM utilizando columnas Amicon 30 kDA (Millipore).

En cada pocillo de ocho placas de 96 pocillos, se sometieron a transcripción inversa una única célula B de memoria junto con 0,5 ng de ARNt de levadura (Life Technologies) y 0,1 pg de ARN Spike-In. En una reacción de 10 pL por pocillo, la reacción fue:

10x Tampón MMLV (NEB) 1 pL

Tris 10 mM pH 8,0 Hasta 10 pL

oligo(dT)25 biotinilado 1 pM (SEQ ID NO: 40) 0,003 pL

MgCl2100 mM ^{0,3 pL}

Ribolock 0,025 pL

T4gp32 (NEB) 0,006 pL

MaxH-(Fisher Scientífic) 0,04 pL

adaptador welllD 1 pL

La reacción se incubó a 55°C durante 3 minutos y a continuación a 42°C durante 2 horas. Cada pocillo de una placa de 96 pocillos tenía un código de barras de pocillo diferente en el adaptador welllD. A continuación, la reacción se limpió uniendo la 1a hebra de ADNc con C1 Dynabeads (Life Technologies) paramagnéticas con estreptavidina que se une al oligodT biotinilado, y a continuación utilizando un imán para tirar de la 1a hebra de ADNc, y lavándolas 3x con tampón BWB (NaCl 2 M en TE) y a continuación con 3x Tris 10 mM, y resuspendiendo en 15 pl de Tris 10 mM. Se realizaron dos rondas de amplificación por PCR para amplificar genes de inmunoglobulina de cadena pesada y ligera. Se añadió una secuencia de código de barras de placa diferente a todo el ADNc registrado con código de barras agrupado en una placa diferente.

Por pocillo para la PCR1:

H2O 27,575 pL

5x Tampón Q5 12,5 pL

MgCl2 0,375 pL

DMSO 2,5 pL

dNTP 1,25 pL

FW1-short 2,5 pL

K-GSP1 1,4 pL

L-GSP1 1,25 pL

G-GSP1 1,4 pL

ET-SSB (NEB) 0,625 pL

BSA 0,625 pL

Enzima Q5 0,5 pL

ID de Placa 5 pL

Molde 5 pL

El producto de la PCR1 se diluyó 50x y se utilizó en la PCR2. Reacción por pocillo para la PCR2:

H2O ^{18,42 pL}

5x Tampón Q5 6 pL

MgCl2 0,18 pL

DMSO 1 pL

dNTP 0,6 pL

2FR 0,6 pL

G-GSP2 o K-GSP2 y L-GSP2 0,6 pL

BSA 0,3 pL

Q5 0,3 pL

Molde 2 pL

Las cantidades de material amplificado resultante se normalizaron y prepararon como en el Ejemplo 11 para la secuenciación 454. Los cebadores utilizados en este ejemplo se pueden encontrar en las Tablas 13, 14 y 32.

Las lecturas de 454 obtenidas se categorizaron en función de los códigos de barras de identificación de placas y pocillos. Por lo tanto, las lecturas se pueden volver a categorizar en el pocillo original en una placa específica. Las lecturas se ensamblaron con Newbler después de recortar las secuencias de códigos de barras. Para cada cóntigo, los autores de la presente invención realizaron un alineamiento de Smith-Waterman del cóntigo con la secuencia Spike-In utilizando una matriz de puntuación de 2 para una coincidencia, -1 para una falta de coincidencia, -1 para una apertura de hueco y -1 para una extensión de hueco. Cualquier cóntigo con una puntuación > 800 se consideró una coincidencia. Los autores de la presente invención contaron el número de pocillos en cada placa para los que se observó una coincidencia. La secuencia Spike-In se detectó en la gran mayoría de los pocillos (Tabla 31).

Tabla 31. Pocillos en los que se detectó la secuencia Spike-In

Tabla 32. Secuencias utilizadas

V. Ejemplo 22: ARN para registro con código de barras de fuentes no celulares para identificar poblaciones de células

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. Como se muestra en el Ejemplo 21, el ARN introducido exógenamente se puede registrar con códigos de barras. En este ejemplo, se utiliza ARN registrado con código de barras para identificar poblaciones celulares específicas. El ADN Spike-In se genera como en el Ejemplo 21, excepto que SPIKEIN-FW tiene una modificación 5' NH2. Se conjuga con un anticuerpo anti-CD4 mediante el All-in-one Antibody-Oligonucleotide Conjugation Kit (Solulink). El a Rn generado a partir del ADN Spike-In utilizando la transcripción in vitro también puede conjugarse en su lugar con el anticuerpo anti-CD4.

Las células T se preparan y secuencian como en el Ejemplo 15, siendo una etapa adicional que las células T se incuban con el anticuerpo anti-CD4 conjugado con Spike-In antes de hacer circular las células T en un generador de gotitas y, posteriormente, registrar con código de barras el ARN. Las lecturas obtenidas se categorizan según el ID de índice y los códigos de barras añadidos por los adaptadores de códigos de barras. Por lo tanto, las lecturas se pueden volver a categorizar en el recipiente de reacción original. Se realiza el alineamiento de Smith-Waterman del cóntigo con la secuencia Spike-In utilizando una matriz de puntuación de 2 para una coincidencia, -1 para una falta de coincidencia, -1 para una apertura de hueco y -1 para una extensión de hueco. Cualquier cóntigo con una puntuación > 800 se considera una coincidencia. A continuación, los autores de la presente invención cuentan los recipientes de reacción en los que se observó una coincidencia. Para los recipientes de reacción en los que se detecta la secuencia Spike-In, la célula T se identifica como una célula T CD4 (FIG. 14A). Se pueden utilizar múltiples anticuerpos acoplados con diferentes secuencias Spike-In, con el resultado final de que se pueden identificar diferentes células con diferentes antígenos de superficie celular en la misma ronda experimental.

W. Ejemplo 23: ARN para registro con código de barras de fuentes no celulares para identificar células B específicas de antígeno

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. En este ejemplo, el ARN introducido exógenamente está registrado con código de barras y se utiliza para identificar células B específicas de antígeno. El ADN Spike-In se genera como en el Ejemplo 21, excepto que SPIKEIN-FW tiene una modificación 5' NH2. Se conjuga con un antígeno de hemaglutinina de influenza utilizando el All-in-one Antibody-Oligonucleotide Conjugation Kit (Solulink). El ARN generado a partir de ADN Spike-In utilizando la transcripción in vitro también puede conjugarse en su lugar con hemaglutinina.

Las células B de ratones inmunizados con la vacuna contra la influenza se preparan como en el Ejemplo 8 y se secuencian, siendo una etapa adicional que las células B se incuban con el antígeno conjugado con Spike-In antes de registrarlas con códigos de barras. Las lecturas obtenidas se categorizan según el ID de índice y los códigos de barras añadidos por los adaptadores de códigos de barras. Por lo tanto, las lecturas se pueden volver a categorizar en el recipiente de reacción original. Se realiza el alineamiento de Smith-Waterman del cóntigo con la secuencia Spike-In utilizando una matriz de puntuación de 2 para una coincidencia, -1 para una falta de coincidencia, -1 para una apertura de hueco y -1 para una extensión de hueco. Cualquier cóntigo con una puntuación > 800 se considera una coincidencia. A continuación, los autores de la presente invención cuentan los recipientes de reacción en los que se observó una coincidencia. Para los recipientes de reacción en los que se detecta la secuencia Spike-In, la célula B se identifica como específica de hemaglutinina (FIG. 14B). Se pueden utilizar múltiples antígenos acoplados con diferentes secuencias Spike-In, con el resultado final de que se pueden identificar diferentes células B específicas para diferentes antígenos en la misma ronda experimental.

X. Ejemplo 24: ARN para registro con código de barras de fuentes no celulares para identificar células T específicas de antígeno

Este ejemplo describe una realización de la invención basada en resultados predichos en lugar de resultados realmente logrados. En este ejemplo, el ARN introducido exógenamente está registrado con código de barras y se utiliza para identificar células B específicas de antígeno. El ADN Spike-In se genera como en el Ejemplo 21, excepto que SPIKEIN-FW tiene una modificación 5' NH2. Se conjuga con un antígeno péptido-MHC particular mediante el Allin-one Antibody-Oligonucleotide Conjugation Kit (Solulink). El ARN generado a partir de ADN Spike-In utilizando la transcripción in vitro también puede conjugarse en su lugar con el complejo de péptido-MHC.

Las células T se preparan y secuencian como en el Ejemplo 15, siendo una etapa adicional que las células T se incuban con el anticuerpo anti-CD4 conjugado con Spike-In antes de hacer circular las células T en un generador de gotitas y, posteriormente, registrar con código de barras el ARN. Las lecturas obtenidas se categorizan según el ID de índice y los códigos de barras añadidos por los adaptadores de códigos de barras. Por lo tanto, las lecturas se pueden volver a categorizar en el recipiente de reacción original. Se realiza el alineamiento de Smith-Waterman del cóntigo con la secuencia Spike-In utilizando una matriz de puntuación de 2 para una coincidencia, -1 para una falta de coincidencia, -1 para una apertura de hueco y -1 para una extensión de hueco. Cualquier cóntigo con una puntuación > 800 se considera una coincidencia. A continuación, los autores de la presente invención cuentan los recipientes de reacción en los que se observó una coincidencia. Para los recipientes de reacción en los que se detecta la secuencia Spike-In, la célula T se identifica como específica de antígeno (FIG. 14C). Se pueden utilizar múltiples péptidos-MHC diferentes acoplados con diferentes secuencias Spike-In, con el resultado final de que se pueden identificar diferentes células T que reconocen diferentes péptidos-MHC en la misma ronda experimental.

Tabla 33. Genes más frecuentemente observados.

Claims

REIVINDICACIONES

1. Un método para producir uno o más polinucleótidos de interés, comprendiendo el método:

obtener una pluralidad de ARN asociados a una o más muestras, en donde

las muestras se obtienen de uno o más sujetos, y

los ARN asociados con una muestra están presentes en un volumen de reacción separado;

generar una molécula adaptadora mediante una reacción enzimática en el volumen de reacción en el que están presentes los ARN a los que se añade la molécula adaptadora, y añadir la molécula adaptadora a los ARN asociados a la muestra, en donde la molécula adaptadora comprende una secuencia de cebado universal, una secuencia de código de barras y un sitio de unión;

en donde la molécula adaptadora es una molécula de ARN generada al poner en contacto una molécula molde con una o más enzimas y la molécula molde es una molécula de ADNdh que comprende un promotor de ARN polimerasa (ARNP), y las una o más enzimas incluyen una ARN polimerasa, opcionalmente seleccionada del grupo que consiste en T7, T3 y SP6; y

someter a transcripción inversa los ARN asociados con la muestra para obtener una pluralidad de ADNc, en donde que la transcripción inversa de un ARN comprende la síntesis de una primera hebra de ADNc utilizando una transcriptasa inversa y un cebador de la primera hebra, en donde la transcripción inversa de los ARN asociados con la muestra ocurre en el mismo volumen de reacción donde se genera la molécula adaptadora añadida a los ARN e incorpora la secuencia adaptadora a la primera hebra de ADNc,

produciendo así los uno o más polinucleótidos de interés.

2. El método de reivindicación 1, en donde:

la molécula molde está unida a un soporte sólido,

el soporte sólido se pone en contacto con una solución acuosa, y

la molécula adaptadora es liberada a la solución acuosa a medida que se genera.

3. El método de reivindicación 1, en donde la molécula adaptadora comprende adicionalmente una secuencia de identificador molecular único (UMI).

4. El método de reivindicación 1, en donde:

la transcriptasa inversa tiene actividad de cambio de molde,

al menos algunas primeras hebras de ADNc asociadas con la muestra comprenden un saliente 3', que comprende opcionalmente uno o más nucleótidos de C,

el sitio de unión de la molécula adaptadora comprende una porción 3' complementaria al saliente 3' que comprende opcionalmente uno o más nucleótidos de G, y

la molécula adaptadora sirve como molde para la transcriptasa inversa, de modo que la secuencia de código de barras se incorpora a las primeras hebras de ADNc asociadas con la muestra.

5. El método de la reivindicación 1, en donde la producción de polinucleótidos de interés comprende la amplificación de las primeras hebras de ADNc para la muestra utilizando un primer cebador y un segundo cebador, teniendo el segundo cebador la misma secuencia que al menos una porción del cebador de la primera hebra, en donde el primer cebador o el segundo cebador son la molécula adaptadora.

7. El método de la reivindicación 1, en donde la muestra comprende una célula, opcionalmente una célula sanguínea, una célula inmunitaria, una célula tisular, una célula tumoral, una célula B o una célula T.

8. El método de la reivindicación 1, en donde la molécula adaptadora se amplifica linealmente en la misma reacción que la reacción de transcripción inversa a partir de ADN de doble hebra que contiene un promotor de T75' utilizando una ARN polimerasa de T7.