ES2956757T3

ES2956757T3 - Codificación con códigos de barras moleculares precisa

Info

Publication number: ES2956757T3
Application number: ES17735675T
Authority: ES
Inventors: Eleen Shum; Glenn Fu
Original assignee: Becton Dickinson and Co
Current assignee: Becton Dickinson and Co
Priority date: 2016-05-02
Filing date: 2017-04-28
Publication date: 2023-12-27
Anticipated expiration: 2037-04-28
Also published as: EP3452614A1; US20170314067A1; CN109072288A; EP4269616A2; JP7607614B2; US10822643B2; JP2019520046A; USRE50636E1; CA3019589A1; AU2017261189B2; AU2023202747B2; AU2017261189A1; AU2023202747A1; WO2017192387A1; EP4269616A3; JP7129343B2; EP3452614B1; JP2022153390A

Abstract

De acuerdo con algunas realizaciones en el presente documento, se describen composiciones y métodos para códigos de barras precisos de ácidos nucleicos. Las composiciones y métodos implican una pluralidad de especies de oligonucleótidos únicas que comprenden códigos de barras de moléculas únicas. Los códigos de barras moleculares tienen un contenido de G (guanina) relativamente bajo, por ejemplo, cada uno de los códigos de barras contiene menos del 50% de guanina o el conjunto total de códigos de barras contiene en promedio menos del 12,5% de guanina. El conjunto de códigos de barras está destinado a mostrar un sesgo reducido en la amplificación y el análisis. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Codificación con códigos de barras moleculares precisa

CAMPO

Las realizaciones de la presente se refieren de manera general a composiciones y métodos para la codificación con código de barras precisa de moléculas, por ejemplo moléculas de ácidos nucleicos.

La WO02059355 describe una familia de secuencias de nucleótidos de hibridación cruzada mínima y métodos de uso. En particular, se describe una familia específica de 1168 24mers. La WO2015031691 describe métodos, composiciones y kits para el análisis multiplex de ácidos nucleicos de células individuales. Los métodos, composiciones y sistemas pueden usarse para la secuenciación masiva paralela de células individuales. La US2010159533 describe métodos y kits para la preparación selectiva de ADNc relativamente libre de secuencias que se encuentran en el ARNr y los ARN subcelulares. Los métodos y kits utilizan aproximadamente 200 secuencias de hexámeros que se dirigen al ARN mensajero. BUSCHMANN T et al. (BMC BIOINFORMATICS, 2014, vol. 15(1):264) describe la mejora de la detección de lecturas con código de barras en datos de secuenciación de ADN de alto rendimiento mediante el control de la tasa de falsos descubrimientos. La WO2016138500 describe métodos y composiciones para marcar un ácido nucleico en una muestra con un código de barras estocástico usando un oligonucleótido extensible con un sitio de cebado universal y una región específica del objetivo. Algunas realizaciones se refieren a métodos y composiciones para caracterizar una muestra identificando la cadena alfa o la cadena beta del TCR de una célula T. La WO2015134787 describe métodos para la corrección del sesgo de amplificación y la cuantificación de células inmunitarias adaptativas en una muestra usando plantillas sintéticas que incluyen secuencias de oligonucleótidos aleatorias.

SUMARIO

La invención se expone en el conjunto de reivindicaciones adjunto.

La invención proporciona una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos, cada especie de oligonucleótido único comprendiendo una región de código de barras y una región uniforme, la región de código de barras comprendiendo un código de barras molecular que comprende por lo menos 7 nucleótidos, en donde la región uniforme es 3' de la región de código de barras, la región uniforme comprendiendo una región específica de objetivo 3' de la región del código de barras, la región específica de objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo, en la que las especies de oligonucleótidos únicos comprenden diferentes secuencias de ácidos nucleicos en sus regiones de códigos de barras, y en la que: (a) la composición consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras de molécula tiene un contenido de G de menos del 50%; y/o (b) los códigos de barras de molécula de todas las especies de oligonucleótidos únicos en la composición tienen colectivamente un contenido de G de no más del 12,5%, en donde la región del código de barras comprende además un código de barras de muestra que comprende por lo menos 3 nucleótidos. En algunas realizaciones, la composición consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%. En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos de la composición tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos dos grupos espacialmente aislados, cada grupo comprendiendo por lo menos 100 oligonucleótidos únicos de las especies de oligonucleótidos únicos, en donde los oligonucleótidos únicos del mismo grupo comprenden la misma secuencia de código de barras de muestra, y en donde diferentes oligonucleótidos únicos del mismo grupo comprenden secuencias de códigos de barras de molécula diferentes. En algunas realizaciones, el código de barras de muestra de cada especie de oligonucleótido único tiene un contenido de G del 50% o menos. En algunas realizaciones, la región del código de barras de cada especie de oligonucleótido único tiene un contenido de G del 50% o menos. En algunas realizaciones, los códigos de barras de las moléculas de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G menor del 12,5%. En algunas realizaciones, las regiones de códigos de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, la composición consiste esencialmente en especies de oligonucleótidos únicos para los que cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, por lo menos el 95% de los códigos de barras de molécula de las especies de oligonucleótidos únicos comprenden una secuencia que suma por lo menos 6 H y N alternadas, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de las especies de oligonucleótidos únicos comprenden la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C, o T, y en donde cada "N" es una cualquiera de A, G, C, o T. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C, o T. En algunas realizaciones, cada una de las especies de oligonucleótidos únicos comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada una de las especies de oligonucleótidos únicos comprende un espaciador 3' de la región del código de barras y 5' de la región específica de la objetivo, dicho espaciador comprendiendo la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. En algunas realizaciones, la región específica del objetivo comprende una secuencia oligo dT. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras molecular es 3' del código de barras de la muestra. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras de la muestra es 3' del código de barras molecular. En algunas realizaciones, cada especie de oligonucleótido tiene una longitud de por lo menos 24 nucleótidos. En algunas realizaciones, cada especie de oligonucleótido tiene una longitud de 24-140 nucleótidos. En algunas realizaciones, la composición comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, la composición comprende por lo menos 65.000 especies de oligonucleótidos únicos. En algunas realizaciones, la composición comprende por lo menos dos oligonucleótidos de la misma especie de oligonucleótido único. En algunas realizaciones, no hay dos oligonucleótidos de la composición que sean de la misma especie de oligonucleótido único. En algunas realizaciones, la composición comprende por lo menos 48 grupos. En algunas realizaciones, las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares son los mismos para las especies de oligonucleótidos inmovilizadas en cada sustrato. En algunas realizaciones, el sustrato comprende una región discreta de una superficie, de tal manera que la superficie puede comprender dos o más sustratos. En algunas realizaciones, el sustrato comprende una perla. En algunas realizaciones, cada una de las especies de oligonucleótidos únicos comprende además un adaptador configurado para inmovilizar el oligonucleótido único en el sustrato, en donde dicha región de código de barras se encuentra a 3' del adaptador. En algunas realizaciones, la región uniforme comprende una región específica del objetivo que comprende una secuencia que flanquea una secuencia codificante de región variable de receptor de células inmunitarias o inmunoglobulina. En algunas realizaciones, la secuencia codificante de la región variable del receptor de células inmunitarias es una secuencia codificante de la región variable del receptor de células T, una secuencia codificante de la región variable del receptor de células B o una combinación de las mismas. En algunas realizaciones, la invención proporciona un kit que comprende la composición de la invención, en donde la región específica del objetivo comprende una secuencia que flanquea una secuencia codificante de región variable del receptor de células inmunitarias o inmunoglobulina, y un cebador configurado para hibridar en un lado opuesto de la región variable como la región específica del objetivo y para hibridar a una cadena complementaria a una cadena hibridada por la región específica del objetivo, de tal manera que el cebador está configurado para amplificar la región variable junto con la región específica del objetivo. En algunas realizaciones, el cebador y la región específica del objetivo están configurados para amplificar un ácido nucleico de por lo menos 1 kb y que comprende la región variable. En algunas realizaciones, el cebador del kit forma parte de la composición que comprende la especie de oligonucleótido único. En algunas realizaciones, el cebador del kit forma parte de otra composición que está separada de la composición que comprende la especie de oligonucleótido único.

La invención también proporciona un método de codificar específicamente con códigos de barras una pluralidad de ácidos nucleicos de dos o más muestras, cada muestra comprendiendo ácidos nucleicos, que comprende poner en contacto cada muestra con un grupo que comprende por lo menos 100 especies de oligonucleótidos únicos, en el que cada muestra se pone en contacto en aislamiento espacial de las otras muestras, cada especie de oligonucleótido único comprendiendo una región de código de barras que comprende: un código de barras molecular que comprende por lo menos 7 nucleótidos; un código de barras de muestra que comprende por lo menos 3 nucleótidos; y una región uniforme 3' de la región del código de barras, la región uniforme comprendiendo una región específica de objetivo 3' de la región del código de barras, la región específica de objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo; en donde las especies de polinucleótidos únicos de cada grupo comprenden el mismo código de barras de muestra, y comprenden diferentes códigos de barras moleculares, y en donde: (a) las especies de oligonucleótidos únicos puestas en contacto con la muestra consisten esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%; y/o (b) los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12.5%; hibridar regiones específicas del objetivo de por lo menos algunos oligonucleótidos de las especies de oligonucleótidos únicos con por lo menos algunos de los ácidos nucleicos de la muestra; y extender los oligonucleótidos hibridados, produciendo de este modo cadenas que comprenden un oligonucleótido de las especies de oligonucleótidos únicos y una secuencia complementaria al objetivo, en donde para cada muestra, las cadenas comprenden el mismo código de barras de muestra y diferentes códigos de barras moleculares, y en donde para diferentes muestras, los códigos de barras moleculares son diferentes. En algunas realizaciones, las especies de oligonucleótidos únicos puestas en contacto con la muestra consisten esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%. En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, el método comprende además determinar las secuencias de ácidos nucleicos de las cadenas que comprenden los oligonucleótidos de las especies de oligonucleótidos únicos y la secuencia complementaria al objetivo. En algunas realizaciones, las por lo menos 100 especies de oligonucleótidos únicos de cada grupo se inmovilizan sobre un sustrato, de tal manera que las especies de oligonucleótidos únicos inmovilizadas sobre un sustrato dado comprenden el mismo código de barras de muestra, y diferentes especies de oligonucleótidos únicos inmovilizadas sobre el sustrato comprenden diferentes códigos de barras moleculares. En algunas realizaciones, cada código de barras de muestra tiene un contenido de G del 50% o menos. En algunas realizaciones, los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%. En algunas realizaciones, las regiones de código de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, cada grupo consiste esencialmente en especies de oligonucleótidos únicos para las que cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de las especies de oligonucleótidos únicos comprenden una secuencia que suma por lo menos 6 H y N alternadas, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de las especies de oligonucleótidos únicos comprende la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de los oligonucleótidos únicos comprende la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. En algunas realizaciones, cada oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HNHNHNHN, en donde cada "H" es uno cualquiera de A, C, o T, y en donde cada "N" es uno cualquiera de A, G, C, o T. En algunas realizaciones, cada oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HHHHHHHH, en donde cada "H" es uno cualquiera de A, C, o T. En algunas realizaciones, por lo menos un grupo comprende por lo menos dos oligonucleótidos de la misma especie de oligonucleótido único. En algunas realizaciones, ningún grupo comprende dos oligonucleótidos de la misma especie de oligonucleótido único. En algunas realizaciones, la región específica del objetivo comprende una secuencia oligo dT. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras molecular es 3' del código de barras de la muestra. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras de la muestra es 3' del código de barras molecular. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de por lo menos 24 nucleótidos. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de 24-140 nucleótidos. En algunas realizaciones, cada grupo comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 65.000 especies de oligonucleótidos únicos. En algunas realizaciones, por lo menos 48 muestras únicas se ponen en contacto con un único grupo. En algunas realizaciones, por lo menos el 99% de las muestras comprenden no más de una célula cada una. En algunas realizaciones, las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares son los mismos para las especies de oligonucleótidos únicos inmovilizadas en cada sustrato de la pluralidad. En algunas realizaciones, el sustrato comprende una región espacialmente aislada de una superficie, de tal manera que los sustratos de diferentes grupos comprenden las diferentes regiones espacialmente aisladas de la superficie. En algunas realizaciones, el sustrato comprende una perla. En algunas realizaciones, cada una de las especies de oligonucleótidos únicos comprende además un adaptador configurado para inmovilizar el oligonucleótido único en el sustrato, en donde dicha región de código de barras se encuentra 3' del adaptador. En algunas realizaciones, la región uniforme comprende una región específica de objetivo que comprende una secuencia que flanquea una secuencia que codifica la región variable de un receptor de células inmunitarias o inmunoglobulina. En algunas realizaciones, la región variable es de un receptor de células T o un receptor de células B, o una combinación de los mismos. En algunas realizaciones, el método comprende además poner en contacto las cadenas extendidas que comprenden un oligonucleótido de la especie de oligonucleótido único y una secuencia complementaria al objetivo con cebador configurado para hibridar en un lado opuesto de la región variable como la región específica del objetivo, y para hibridar con una cadena complementaria a una cadena hibridada por la región específica del objetivo. Como tal, el método puede comprender amplificar secuencias que codifican regiones variables de un receptor de células T, receptor de células B o inmunoglobulina. En algunas realizaciones, el método amplifica una secuencia de por lo menos 1 kb, que comprende la secuencia codificante de la región variable.

La invención también proporciona un método de elaboración de una composición que comprende oligonucleótidos únicos que comprende: proporcionar una pluralidad de códigos de barras de muestra diferentes que comprenden por lo menos 3 nucleótidos cada uno, proporcionar una pluralidad de códigos de barras moleculares diferentes que comprenden por lo menos 7 nucleótidos cada uno; sintetizar una pluralidad de especies de oligonucleótidos únicos, cada especie de oligonucleótido único comprendiendo una región de código de barras que comprende un código de barras de muestra y un código de barras molecular; y una región uniforme 3' de la región del código de barras, la región uniforme comprendiendo una región específica de objetivo 3' de la región del código de barras, la región específica de objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo; y disponer las especies de oligonucleótidos únicos en grupos espacialmente aislados, en las que cada grupo comprende múltiples especies de oligonucleótidos únicos, de tal manera que las especies de oligonucleótidos únicos del mismo grupo comprenden la misma secuencia de código de barras de muestra, y en donde diferentes especies de oligonucleótidos únicos del mismo grupo comprenden diferentes secuencias de código de barras molecular, y en las que cada grupo comprende por lo menos 1000 especies de oligonucleótidos únicos, en las que para cada grupo (a) la pluralidad de especies de oligonucleótidos únicos consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%; y/o b) los códigos de barras moleculares de todas las especies de oligonucleótidos únicos de la pluralidad tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, la pluralidad de especies de oligonucleótidos únicos consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido G de menos del 50%. En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos de la pluralidad tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, cada código de barras molecular tiene un contenido de G del 50% o menos. En algunas realizaciones, cada código de barras de muestra tiene un contenido de G del 50% o menos. En algunas realizaciones, los códigos de barras de muestra de las especies de oligonucleótidos únicos tienen colectivamente un contenido G de no más del 12,5%. En algunas realizaciones, los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%. En algunas realizaciones, las regiones de código de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, la pluralidad de las especies de oligonucleótidos únicos consiste esencialmente en especies de oligonucleótidos únicos para los que cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de las especies de oligonucleótidos únicos comprenden una secuencia que totaliza por lo menos 6 H y N alternadas, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de los oligonucleótidos únicos comprenden la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de los oligonucleótidos únicos comprende la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de los oligonucleótidos únicos comprende la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. En algunas realizaciones, cada especie de oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C, o T, y en donde cada "N" es una cualquiera de A, G, C, o T. En algunas realizaciones, cada especie de oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. En algunas realizaciones, la región específica del objetivo comprende una secuencia oligo dT. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras molecular es 3' del código de barras de la muestra. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras de la muestra es 3' del código de barras molecular. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de por lo menos 24 nucleótidos. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de 24-140 nucleótidos. En algunas realizaciones, cada grupo comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 65.000 especies de oligonucleótidos únicos. En algunas realizaciones, se hacen por lo menos 48 grupos. En algunas realizaciones, el método comprende además inmovilizar las especies de oligonucleótidos únicos de cada grupo en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares sean los mismos para las especies de oligonucleótidos inmovilizadas en cada sustrato de la pluralidad. En algunas realizaciones, los sustratos comprenden regiones discretas de una superficie. En algunas realizaciones, los sustratos comprenden perlas. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados simultáneamente con dicha síntesis. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados después de dicha síntesis. En algunas realizaciones, la región uniforme comprende una región específica de objetivo que comprende una secuencia que flanquea una secuencia codificante de región variable de un receptor de células inmunitarias o inmunoglobulina. En algunas realizaciones, la secuencia codificante de región variable del receptor de células inmunitarias es una secuencia codificante de región variable del receptor de células T, una secuencia codificante de región variable del receptor de células B o una combinación de las mismas. En algunas realizaciones, el kit comprende además un cebador configurado para hibridar en un lado opuesto de la secuencia codificante de región variable como la región específica del objetivo, y para hibridar con una cadena complementaria a una cadena hibridada por la región específica del objetivo, y está por tanto configurado, junto con la región específica del objetivo, para amplificar la secuencia codificante de región variable.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

La FIG. 1A es un diagrama esquemático que ilustra una especie de oligonucleótido que comprende una región de código de barras 5' de una región uniforme, de acuerdo con algunas realizaciones de la presente.

La FIG. 1B es un diagrama esquemático que ilustra una especie de oligonucleótido que comprende una región de código de barras 5' de una secuencia de oligo dT, de acuerdo con algunas realizaciones de la presente.

La FIG. 1C es un diagrama esquemático que ilustra una especie de oligonucleótido que comprende una región de código de barras 5' de una región específica de un gen, de acuerdo con algunas realizaciones de la presente. La FIG. 2A es un diagrama esquemático que ilustra una región de código de barras que comprende un código de barras molecular 5' de un código de barras de muestra, y que puede comprender una región de código de barras de una especie de oligonucleótido único de acuerdo con algunas realizaciones de la presente.

La FIG. 2B es un diagrama esquemático que ilustra una región de código de barras que comprende un código de barras de muestra 5' de un código de barras molecular, y que puede comprender una región de código de barras de una especie de oligonucleótido único de acuerdo con algunas realizaciones de la presente.

Las FIGS. 3A-3H son diagramas que ilustran una variedad de configuraciones de especies de oligonucleótidos de acuerdo con algunas realizaciones de la presente. La FIG. 3A ilustra un oligonucleótido de referencia. La FIG. 3B ilustra un oligonucleótido con un espaciador de base 3' de la región del código de barras. La FIG. 3C ilustra un oligonucleótido con un espaciador de 5 bases 3' de la región del código de barras. La FIG. 3D ilustra un oligonucleótido en el que las posiciones del código de barras molecular (indicado como "NNNNNNNNN") y el código de barras de la muestra dentro de la región del código de barras están intercambiadas en comparación con la FIG.

3A, de tal manera que el código de barras molecular está 5' del código de barras de la muestra. La FIG. 3E ilustra un oligonucleótido en el que las posiciones del código de barras molecular (indicado como "NNNNNNNNN") y el código de barras de la muestra dentro de la región del código de barras están intercambiadas en comparación con la FIG. 3A, de tal manera que el código de barras molecular está 5' del código de barras de la muestra, e incluye un espaciador de 3 bases. La FIG. 3F ilustra un oligonucleótido en el que las posiciones del código de barras molecular (indicado como "NNNNNNNNN") y del código de barras de la muestra dentro de la región del código de barras están intercambiadas, de tal manera que el código de barras molecular está 5' del código de barras de la muestra, e incluye un espaciador de 5 bases. La FIG. 3G ilustra un oligonucleótido en el que el código de barras molecular comprende la secuencia HHHHHHHH (en la que cada H es una A, C o T, y en la que cada H puede ser igual o diferente de cualquier otra H). La FIG. 3H ilustra un oligonucleótido en el que el código de barras molecular comprende la secuencia HNHNHNHN (en la que cada H es una A, C o T, y en la que cada H puede ser igual o diferente de cualquier otra H).

La FIG. 4A es un diagrama que ilustra el uso de nucleótidos en un muestreo de especies de oligonucleótidos convencionales únicos.

La FIG. 4B es un diagrama que ilustra el uso de nucleótidos en un muestreo de especies de oligonucleótidos convencionales únicos.

La FIG. 4C es un diagrama que ilustra el uso de nucleótidos en un muestreo de especies de oligonucleótidos convencionales únicos.

La FIG. 5A es un diagrama que ilustra secuencias de ácidos nucleicos de especies de oligonucleótidos que se construyeron de acuerdo con algunas realizaciones de la presente. Las SEQ ID NO: indicadas en las columnas más a la derecha de las FIGS 5A-5D se refieren a la secuencia de polinucleótidos que incluye el "ancla", "1° be", "2° be", "Espaciador" (si lo hay), y "Secuencia de Reconocimiento 5 a 3' " como se muestra. Cada "ancla" de las FIGS. 5A-5D tiene la secuencia de polinucleótidos de la SEQ ID NO: 97.

La FIG. 5B es un diagrama que ilustra secuencias de ácidos nucleicos de especies de oligonucleótidos que se construyeron de acuerdo con algunas realizaciones de la presente.

La FIG. 5C es un diagrama que ilustra secuencias de ácidos nucleicos de especies de oligonucleótidos que se construyeron de acuerdo con algunas realizaciones de la presente.

La FIG. 5D es un diagrama que ilustra secuencias de ácidos nucleicos de especies de oligonucleótidos que se construyeron de acuerdo con algunas realizaciones de la presente.

La FIG. 6 es un gráfico de corrección de errores por individuo para un análisis que usa especies de oligonucleótidos únicos de acuerdo con algunas de las realizaciones de la presente.

La FIG. 7 es un gráfico de corrección de errores por cruce de MI individual y de filtro para un análisis que usa especies de oligonucleótidos únicos de acuerdo con algunas realizaciones de la presente.

La FIG. 8 es un diagrama que ilustra esquemáticamente, sin estar limitado por ninguna teoría, los posibles errores de amplificación que pueden resultar de oligonucleótidos con altos contenidos de G.

DESCRIPCIÓN DETALLADA

De acuerdo con algunas realizaciones de la presente, se describen métodos y composiciones para codificar con códigos de barras y el análisis de ácidos nucleicos precisos. En algunas realizaciones, los ácidos nucleicos individuales de una muestra pueden asociarse con un código de barras único (por ejemplo, un "código de barras molecular"), de tal manera que tras la amplificación y el análisis de la secuencia, los ácidos nucleicos individuales de una muestra pueden cuantificarse. Sin estar limitado por ninguna teoría, se contempla que el sesgo que favorece o desfavorece la representación, amplificación o propiedades de ciertos tipos de secuencias de código de barras puede interferir con la cuantificación y análisis de los ácidos nucleicos individuales de una muestra (las posibles fuentes de sesgo en algunos eventos de amplificación se ilustran esquemáticamente en la FIG. 8). De acuerdo con algunas realizaciones de la presente, se describen configuraciones y características de especies de oligonucleótidos únicos que comprenden códigos de barras, en las que las especies de oligonucleótidos únicos están configuradas para minimizar el sesgo relacionado con los códigos de barras y producir un análisis preciso de los ácidos nucleicos. Sin estar limitado por ninguna teoría, se contempla que las regiones de código de barras que comprenden características como un contenido de guanosina (G) de menos del 50%, y/o sin dos "G" consecutivas en la región de código de barras pueden minimizar el sesgo que de otro modo podría confundir la cuantificación y/o el análisis de los ácidos nucleicos de una muestra. Opcionalmente, las moléculas individuales de ácidos nucleicos de una muestra dada también pueden asociarse a un "código de barras de la muestra", de tal manera que los ácidos nucleicos asociados al código de barras puedan agruparse posteriormente para un análisis eficiente por lotes de ácidos nucleicos de dos o más muestras, por ejemplo mediante secuenciación de próxima generación.

Adyuvantes nucleicos

Se describen varios ácidos nucleicos de acuerdo con algunas realizaciones de la presente. Por ejemplo, las especies de oligonucleótidos, las muestras y/o los objetivos pueden comprender ácidos nucleicos.

Como se usa en la presente, un "ácido nucleico" se refiere a una secuencia de polinucleótidos, o fragmento de la misma. Un ácido nucleico puede comprender nucleótidos. Un ácido nucleico puede ser exógeno o endógeno a una célula. Un ácido nucleico puede existir en un entorno libre de células. Un ácido nucleico puede comprender, consistir o consistir esencialmente en un gen o fragmento del mismo. Un ácido nucleico puede comprender, consistir o consistir esencialmente en ADN. Un ácido nucleico puede comprender, consistir o consistir esencialmente en ARN. Un ácido nucleico puede comprender uno o más análogos (por ejemplo, una estructura principal, azúcar o nucleobase alterada). Algunos ejemplos no limitativos de análogos incluyen: 5-bromouracilo, ácido nucleico peptídico, ácido xeno nucleico, morfolinos, ácidos nucleicos bloqueados, ácidos nucleicos glicólicos, ácidos nucleicos de treosa, dideoxinucleótidos, cordicepina, 7-deaza-GTP, floróforos (por ejemplo rodamina o fluresceína enlazada al azúcar), nucleótidos que contienen tiol, nucleótidos enlazados a biotina, análogos de bases fluorescentes, islas CpG, metil-7-guanosina, nucleótidos metilados, inosina, tiouridina, pseudourdina, dihidrouridina, queuosina y wiosina. "Ácido nucleico", "polinucleótido", "polinucleótido objetivo" y "ácido nucleico objetivo" pueden usarse indistintamente.

Como se usa en la presente, "en sentido ascendente" (y variaciones de este término raíz) se refiere a una posición que es relativamente 5' en un ácido nucleico (por ejemplo, 5' en comparación con la posición de referencia). Como se usa en la presente, "en sentido descendente" (y variaciones de este término raíz) se refiere a una posición que es relativamente 3' en un ácido nucleico (por ejemplo, 3' en comparación con la posición de referencia). Por ejemplo, como se muestra en la FIG. 2A, el "código de barras de la muestra" está 3' del "código de barras molecular" y se entiende que está en sentido descendente del "código de barras" de la molécula. Por ejemplo, como se muestra en la FIG. 2B, el "código de barras de la muestra" está 5' del "código de barras molecular" y se entiende que está en sentido ascendente del "código de barras" de la molécula.

Un ácido nucleico puede comprender una o más modificaciones (por ejemplo, una modificación de base, una modificación de la estructura principal), para proporcionar al ácido nucleico una característica nueva o mejorada (por ejemplo, estabilidad mejorada). Un ácido nucleico puede comprender una etiqueta de afinidad de ácido nucleico. Un nucleósido puede comprender, consistir o consistir esencialmente en una combinación de base-azúcar. La porción de base del nucleósido puede ser una base heterocíclica. Las dos clases más comunes de tales bases heterocíclicas son las purinas y las pirimidinas. Los nucleótidos pueden comprender, consistir o consistir esencialmente en nucleósidos que además incluyen un grupo fosfato enlazado covalentemente a la porción de azúcar del nucleósido. Para aquellos nucleósidos que incluyen un azúcar de pentofuranosilo, el grupo fosfato puede estar enlazado a la fracción hidroxilo 2', 3' o 5' del azúcar. Al formar ácidos nucleicos, los grupos fosfato pueden enlazar covalentemente nucleósidos adyacentes entre sí para formar un compuesto polimérico lineal. A su vez, los extremos respectivos de este compuesto polimérico lineal pueden unirse adicionalmente para formar un compuesto circular; sin embargo, los compuestos lineales son generalmente adecuados. Además, los compuestos lineales pueden tener complementariedad interna de bases nucleotídicas y, por lo tanto, pueden plegarse de manera que produzcan un compuesto total o parcialmente bicatenario. Dentro de los ácidos nucleicos, los grupos fosfato pueden denominarse comúnmente como formando la estructura principal internucleosídica del ácido nucleico. El enlace o estructura principal del ácido nucleico puede ser un enlace fosfodiéster de 3' a 5'.

Un ácido nucleico puede comprender una cadena principal modificada y/o enlaces internucleosídicos modificados. Las estructuras principales modificadas pueden incluir las que retienen un átomo de fósforo en la estructura principal y las que no tienen un átomo de fósforo en la estructura principal. Las estructuras principales de ácidos nucleicos modificados adecuadas que contienen un átomo de fósforo pueden incluir, por ejemplo, fosforotioatos, fosforotioatos quirales, fosforoditioatos, fosfotriesteres, aminoalquilfosfotriesteres, fosfonatos de metilo y otros alquilos, como fosfonatos de 3'-alquileno, fosfonatos de 5'-alquileno, fosfonatos quirales, fosfinatos, fosforamidatos, incluyendo 3'-aminofosforamidato y aminoalquilfosforamidatos, fosforodiamidatos, tionofosforamidatos, tionoalquilfosfonatos, tionoalquilfosfotriesteres, selenofosfatos, y boranofosfatos que tienen enlaces normales 3'-5', análogos con enlaces 2'-5' y aquellos que tienen polaridad invertida en donde uno o más enlaces internucleotídicos son enlaces 3' a 3', 5' a 5' o 2' a 2'.

Un ácido nucleico puede comprender estructuras principales de polinucleótidos formadas por enlaces internucleosídicos de alquilo o cicloalquilo de cadena corta, enlaces internucleosídicos de heteroátomos y alquilo o cicloalquilo mixtos, o uno o más enlaces internucleosídicos heteroatómicos o heterocíclicos de cadena corta. Estos pueden incluir los que tienen enlaces morfolinos (formados en parte a partir de la porción de azúcar de un nucleósido); estructuras principales de siloxano; estructuras principales de sulfuro, sulfóxido y sulfona; estructuras principales de formacetilo y tioformacetilo; estructuras principales de metileno formacetilo y tioformacetilo; estructuras principales de riboacetilo; estructuras principales que contienen alqueno; estructuras principales de sulfamato; estructuras principales de metilenimino y metilenhidrazino; estructuras principales de sulfonato y sulfonamida; estructuras principales de amida; y otros que tienen partes componentes mixtas de N, O, S y CH₂.

Un ácido nucleico puede comprender un mimético de ácido nucleico. El término "mimético" incluye, por ejemplo, polinucleótidos en los que sólo el anillo de furanosa o tanto el anillo de furanosa como el enlace internucleotídico se sustituyen por grupos no de furanosa; la sustitución de sólo el anillo de furanosa también puede denominarse sustituto de azúcar. La fracción de base heterocíclica o una fracción de base heterocíclica modificada puede mantenerse para la hibridación con un ácido nucleico objetivo apropiado. Uno de estos ácidos nucleicos puede ser un ácido nucleico peptídico (PNA). En un PNA, la estructura principal de azúcar de un polinucleótido puede sustituirse por una estructura principal que contenga amida, en particular una estructura principal de aminoetilglicina. Los nucleótidos pueden conservarse y unirse directa o indirectamente a los átomos de nitrógeno aza de la porción amida de la estructura principal. La estructura principal de los compuestos de ANP puede comprender dos o más unidades de aminoetilglicina enlazadas, lo que confiere al ANP una estructura principal que contiene amida. Las moléculas de base heterocíclica pueden unirse directa o indirectamente a los átomos de nitrógeno aza de la porción amida de la estructura principal.

Un ácido nucleico puede comprender una estructura principal de morfolino. Por ejemplo, un ácido nucleico puede comprender un anillo de morfolino de 6 miembros en lugar de un anillo de ribosa. En algunas de estas realizaciones, un fosforodiamidato u otro enlace internucleosídico no fosfodiéster puede sustituir a un enlace fosfodiéster.

Un ácido nucleico puede comprender unidades morfolino enlazadas (es decir, ácido nucleico morfolino) que tienen bases heterocíclicas unidas al anillo morfolino. Los grupos de enlace pueden enlazar las unidades monoméricas de morfolino en un ácido nucleico de morfolino. Los compuestos oligoméricos no iónicos basados en morfolino pueden tener menos interacciones no deseadas con las proteínas celulares. Los polinucleótidos basados en morfolino pueden ser imitadores no iónicos de ácidos nucleicos. Una variedad de compuestos dentro de la clase morfolino pueden unirse usando diferentes grupos de enlace. Una clase adicional de polinucleótidos miméticos puede denominarse ácidos nucleicos ciclohexenílicos (CeNA). El anillo de furanosa normalmente presente en una molécula de ácido nucleico puede sustituirse por un anillo de ciclohexenilo. Los monómeros de fosforamidita protegidos con DMT de CeNA pueden prepararse y usarse para la síntesis de compuestos oligoméricos mediante química de fosforamidita. La incorporación de monómeros de CeNA en una cadena de ácido nucleico puede aumentar la estabilidad de un híbrido ^aDⁿ/ARN. Los oligoadenilatos de CeNA pueden formar complejos con complementos de ácidos nucleicos con una estabilidad similar a la de los complejos nativos. Otra modificación puede incluir los ácidos nucleicos bloqueados (LNA) en los que el grupo 2'-hidroxilo está enlazado al átomo de carbono 4' del anillo de azúcar formando de este modo un enlace 2'-C,4'-C-oximetileno formando de este modo una fracción de azúcar bicíclica. El enlace puede comprender, consistir en, o consistir esencialmente en un grupo metileno (-CH₂-), que une el átomo de oxígeno 2' y el átomo de carbono 4' en donde n es 1 o 2. El LNA y los análogos del LNA pueden mostrar estabilidades térmicas dúplex muy altas con el ácido nucleico complementario (Tm=+3 a 10° C), estabilidad frente a la degradación 3'-exonucleolítica y buenas propiedades de solubilidad.

En algunas realizaciones, un ácido nucleico también puede incluir modificaciones o sustituciones de nucleobases (a menudo denominadas simplemente "bases"). Como se usa en la presente, las nucleobases "no modificadas" o "naturales" pueden incluir las bases de purina, (por ejemplo, adenina (A) y guanina (G)), y las bases de pirimidina, (por ejemplo, timina (T), citosina (C) y uracilo (U)). Las nucleobases modificadas pueden incluir otras nucleobases sintéticas y naturales, como 5-metilcitosina (5-me-C), 5-hidroximetilcitosina, xantina, hipoxantina, 2-aminoadenina, 6-metilo y otros derivados alquílicos de adenina y guanina, 2-propilo y otros derivados alquílicos de adenina y guanina, 2-tiouracilo, 2-tiotimina y 2-tiocitosina, 5-halouracilo y citosina, 5-propinil (-C=C-CH3) uracilo y citosina y otros derivados alquinílicos de las bases de pirimidina, 6-azo uracilo, citosina y timina, 5-uracilo (pseudouracilo), 4-tiouracilo, 8-halo, 8-amino, 8-tiol, 8-tioalquilo, 8-hidroxilo y otras adeninas y guaninas 8-sustituidas, 5-halo particularmente 5-bromo, 5-trifluorometil y otros uracilos y citosinas 5-sustituidos, 7-metilguanina y 7-metiladenina, 2-F-adenina, 2-aminoadenina, 8-azaguanina y 8-azaadenina, 7-deazaguanina y 7-deazaadenina y 3-deazaguanina y 3-deazaadenina. Las nucleobases modificadas pueden incluir pirimidinas tricíclicas como fenoxazina citidina (1H-pirimido(5,4-b)(1,4)benzoxazin-2(3H)-ona), fenotiazina citidina (1H-pirimido(5,4-b)(1,4)benzotiazin-2(3H)-ona), abrazaderas G como una fenoxazina citidina sustituida (por ejemplo 9-(2-aminoetoxi)-H-pirimido(5,4-(b) (1,4)benzoxazin-2(3H)-ona), carbazol citidina (2H-pirimido(4,5-b)indol-2-ona), piridoindol citidina (Hpirido(3',':4,5)pirrolo[2,3-d]pirimidin-2-ona).

Muestras

Como se usa en la presente, el término "muestra" se refiere a una composición que comprende objetivos. Las muestras adecuadas para el análisis mediante los métodos, dispositivos y sistemas divulgados incluyen, pero no se limitan a, células, células individuales, tejidos, órganos u organismos. En algunas realizaciones, una muestra comprende muestras en bruto o sin procesar, por ejemplo, una célula completa, una población completa de células o un tejido entero. En algunas realizaciones, una muestra comprende una célula aislada o un extracto celular, o una fracción que contiene ácidos nucleicos de las mismas, por ejemplo ácidos nucleicos aislados, o una composición que comprende ácidos nucleicos enriquecidos o aislados. En algunas realizaciones, una muestra comprende un tejido fijado, una célula o una fracción que contiene ácidos nucleicos de los mismos. En algunas realizaciones, una muestra comprende un tejido congelado, célula o fracción que contiene ácidos nucleicos de los mismos. En algunas realizaciones, una muestra comprende una solución que contiene ácidos nucleicos. En algunas realizaciones, una muestra comprende una solución que comprende ácidos nucleicos. En algunas realizaciones, una muestra comprende ácidos nucleicos en un formato sólido, por ejemplo ácidos nucleicos liofilizados y similares.

Especies de oligonucleótidos únicos

Como se usa en las composiciones, métodos y oligonucleótidos de acuerdo con algunas realizaciones de la presente, una "especie de oligonucleótido único" se refiere a un oligonucleótido, por ejemplo ADN o ARN, que tiene una secuencia que difiere en por lo menos una base de otra especie de oligonucleótido único. Las especies de oligonucleótidos únicos de una composición de acuerdo con algunas realizaciones de la presente pueden compartir ciertas características estructurales o formatos, pero pueden tener secuencias de ácidos nucleicos diferentes entre sí. Las especies de oligonucleótidos únicos pueden ser de cadena sencilla o de cadena doble. Una composición puede comprender una diversidad de 100, 1000, 6500 o 65.000 especies de oligonucleótidos únicos. Opcionalmente, la composición que comprende especies de oligonucleótidos únicos también puede comprender dos o más oligonucleótidos de la misma especie de oligonucleótido único. A modo de ejemplo, una composición puede comprender dos especies de oligonucleótidos únicos: ACTT-X y TCTT-X, en la que "X" es una secuencia que es la misma para ambas especies de oligonucleótidos únicos. Sería posible que la composición comprendiera dos copias de un oligonucleótido que tuviera la secuencia ACTT-X, y una copia de un oligonucleótido que tuviera la secuencia TCTT-X.

Las especies de oligonucleótidos de las composiciones, métodos y oligonucleótidos comprenden una región de código de barras y una región uniforme como se describe en la presente. Las regiones de código de barras pueden diferir entre especies de oligonucleótidos únicos, para proporcionar diversidad en una población de especies de oligonucleótidos únicos, mientras que las regiones uniformes permanecen iguales. La región de código de barras puede comprender un índice molecular como se describe en la presente. El índice molecular puede configurarse para minimizar el sesgo, por ejemplo minimizando el contenido de G de tal manera que ninguna especie de oligonucleótido único en una población de especies de oligonucleótidos únicos tenga un índice molecular con un contenido de G superior al 50%, y/o de tal manera que la secuencia "GG" no aparezca en el índice molecular (por ejemplo, de tal manera que no haya dos G consecutivas). La región del código de barras comprende un índice de muestra. El índice de muestra puede configurarse de tal manera que los oligonucleótidos únicos de un grupo dada puedan tener el mismo índice de muestra, pero diferentes índices moleculares. De este modo, si se analizan múltiples muestras, el índice de muestra puede indicar a qué muestra corresponde cada oligonucleótido. De este modo, después de que las especies de oligonucleótidos únicos se unan al objetivo, las especies de oligonucleótidos únicos pueden agruparse y pueden analizarse las secuencias. En algunas realizaciones, el índice de la muestra es 5' del índice de la molécula. En algunas realizaciones, el índice de la molécula es 5' del índice de la muestra. Opcionalmente, la especie de oligonucleótido único comprende un adaptador. El adaptador puede situarse 5' de la región del código de barras. En algunas realizaciones, el adaptador está configurado para inmovilizar la especie de oligonucleótido único en un sustrato.

Sin estar limitado por ninguna teoría, se contempla que las especies de oligonucleótidos únicos configuradas de acuerdo con algunas realizaciones de la presente pueden proporcionar resultados de análisis y secuenciación precisos con un sesgo reducido, mínimo o nulo, por ejemplo minimizando el contenido de G en la región del código de barras o código de barras molecular, y/o minimizando el contenido de G cerca de la región uniforme. A modo de ejemplo, una reducción del sesgo puede comprobarse mediante una reducción del ruido y/o un aumento de la sensibilidad para detectar el número de moléculas diferentes de un ácido nucleico objetivo en una muestra (ver, por ejemplo, las FIGS. 6-7). En algunas realizaciones, la reducción del sesgo puede determinarse como una disminución del ruido (ver la FIG. 6), por ejemplo, un error estándar más pequeño en el número de moléculas de ácido nucleico objetivo detectadas en la muestra. En algunas realizaciones, la reducción del sesgo puede determinarse como un aumento de la sensibilidad (ver la FIG. 7), por ejemplo, detectando un mayor número de moléculas diferentes de un ácido nucleico objetivo en una muestra (por ejemplo, se "pierden" menos moléculas de ácido nucleico objetivo). Como tal, en algunas realizaciones, las composiciones y los métodos permiten la cuantificación de moléculas de ácido nucleico objetivo en una muestra con bajo ruido, por ejemplo, un error estándar relativo inferior al 30%, por ejemplo, inferior al 30%, 25%, 20%, 15%, 10%, 5%, 4%, 3%, 2%, 1% o 0,01%, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, las composiciones y los métodos permiten la cuantificación de moléculas de ácidos nucleicos objetivo en una muestra con alta sensibilidad, por ejemplo, una sensibilidad (medida como un porcentaje del número real de ácidos nucleicos objetivo diferentes en una muestra que se detectan), por ejemplo, una sensibilidad de por lo menos el 70%, 75%, 80%, 85%, 90%, 85%, 96%, 97%, 98%, 99% o 99,9%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, los métodos o composiciones descritos en la presente reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo, o aumentando la sensibilidad y reduciendo el error estándar con respecto a las composiciones o métodos que comprenden especies de oligonucleótidos únicos en línea con la FIG. 3A.

La FIG. 3A ilustra un diseño de oligonucleótido convencional. Se observa que la secuencia de índice molecular NNNNNNN (en la que cada N es A, G, C, o T, y en la que dos cualquiera de las N pueden ser iguales o diferentes entre sí) puede comprender dos o más G consecutivas, y/o puede tener un contenido de G de más del 50%. Por ejemplo, un subconjunto de la población de especies de oligonucleótidos únicos de acuerdo con la FIG. 3A puede ser rico en G. Sin estar limitado por ninguna teoría, se contempla que por lo menos algunas especies de oligonucleótidos únicos en una población basada en la configuración de la FIG. 3A podrían verse favorecidas, lo que llevaría a un sesgo. Otro ejemplo de índice molecular "de referencia" que puede estar sujeto a sesgo es la secuencia 'BBBBBBV' (en la que B es C, G, o T, y en la que V es A, C, o G). En las FIGS. 3B-3H se ilustran ejemplos de configuraciones para especies de oligonucleótidos únicos de acuerdo con algunas realizaciones de la presente. Como se muestra en las FIGS. 3B-C, la adición de TTT o TTTTT después del índice molecular de acuerdo con algunas realizaciones de la presente puede reducir la riqueza en G a lo largo de la región (la longitud de los espaciadores no G puede ser variable, y puede comprender cualquier nucleótido o nucleótidos no G). En la FIG. 3D, el índice de la muestra y las posiciones de la molécula se intercambian (de tal manera que el índice de la molécula está 5' del índice de la muestra), de tal manera que los posibles MI ricos en G en por lo menos un subconjunto de especies de oligonucleótidos únicos no serían adyacentes a regiones objetivo específicas de genes potencialmente ricas en G. En las FIGS. 3E-F, la adición de TTT o TTTTT a la configuración ilustrada en la FIG. 3D puede minimizar adicionalmente las regiones potencialmente ricas en G. Sin estar limitado por ninguna teoría, se observa que los códigos de barras de la muestra pueden tener frecuentemente contenidos bajos de G (por ejemplo, para ser "no ricos en G"). Se observa además que la longitud de los espaciadores no G puede ser variable y puede ser cualquier nucleótido no G). En las configuraciones de las FIGS. 3G-H, los códigos de barras moleculares comprenden "HHHHHHHH" o "HNHNHNHN" (en los que H es A, C o T, y en los que dos H cualquiera pueden ser iguales o diferentes entre sí, y en los que dos N cualquiera pueden ser iguales o diferentes entre sí).

En algunas realizaciones, cada una de una pluralidad de especies de oligonucleótidos únicos (por ejemplo, cada una de las especies de oligonucleótidos únicos) en una composición o método tiene una longitud de por lo menos 24 nucleótidos, por ejemplo por lo menos 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 55, 60, 65, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, o 140 nucleótidos de longitud, incluyendo los intervalos entre dos cualquiera de los valores enumerados, por ejemplo 24 140, 24-135, 24-130, 24-125, 24-120, 24-115, 24-110, 24-105, 24-100, 24-95, 24-90, 24-85, 24-80, 24-75, 24-70, 24 65, 24-60, 24-55, 24-50, 24-45, 24-40, 25-140, 25-135, 25-130, 25-125, 25-120, 25-115, 25-110, 25-105, 25-100, 25 95, 25-90, 25-85, 25-80, 25-75, 25-70, 25-65, 25-60, 25-55, 25-50, 25-45, 25-40, 27-140, 27-135, 27-130, 27-125, 27 120, 27-115, 27-110, 27-105, 27-100, 27-95, 27-90, 27-85, 27-80, 27-75, 27-70, 27-65, 27-60, 27-55, 27-50, 27-45, 27-40, 30-140, 30-135, 30-130, 30-125, 30-120, 30-115, 30-110, 30-105, 30-100, 30-95, 30-90, 30-85, 30-80, 30-75, 30-70, 30-65, 30-60, 30-55, 30-50, 30-45, 30-40, 35-140, 35-135, 35-130, 35-125, 35-120, 35-115, 35-110, 35-105, 35-100, 35-95, 35-90, 35-85, 35-80, 35-75, 35-70, 35-65, 35-60, 35-55, 35-50, 35-45, 35-40, 40-140, 40-135, 40-130, 40-125, 40-120, 40-115, 40-110, 40-105, 40-100, 40-95, 40-90, 40-85, 40-80, 40-75, 40-70, 40-65, 40-60, 40-55, 40 50, o 40-45 nucleótidos de longitud. Opcionalmente, diferentes especies de oligonucleótidos únicos en una composición o método tienen diferentes longitudes entre sí. Opcionalmente, todas las especies de oligonucleótidos únicos en una composición o método tienen la misma longitud entre sí. Opcionalmente, algunas especies de oligonucleótidos únicos en una composición o método tienen la misma longitud entre sí, mientras que algunas especies de oligonucleótidos únicos tienen longitudes diferentes entre sí.

En algunas realizaciones, la región uniforme comprende, consiste o consiste esencialmente en una secuencia de amplificación de 5' a 3' para un ácido nucleico objetivo, o clase de ácidos nucleicos objetivo (esta secuencia de amplificación también puede denominarse región "específica de objetivo"). Por ejemplo, si los ácidos nucleicos objetivo comprenden ARNm, la región uniforme puede comprender oligo dT. Por ejemplo, si los ácidos nucleicos objetivo comprenden regiones variables de un receptor de células T, la región uniforme puede comprender secuencias que flanquean regiones variables de un ARNm de receptor de células T. En algunas realizaciones, la región uniforme comprende por lo menos 10 nucleótidos que son complementarios al ácido nucleico objetivo, por ejemplo por lo menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, o 30 nucleótidos complementarios al objetivo, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 10-30, 10-29, 10-28, 10 27, 10-26, 10-25, 10-24, 10-23, 10-22, 10-21, 10-20, 11-30, 11-29, 11-28, 11-27, 11-26, 11-25, 11-24, 11-23, 11-22, 11-21, 11-20, 12-30, 12-29, 12-28, 12-27, 12-26, 12-25, 12-24, 12-23, 12-22, 12-21, 12-20, 15-30, 15-29, 15-28, 15 27, 15-26, 15-25, 15-24, 15-23, 15-22, 15-21, 15-20, 20-30, 20-29, 20-28, 20-27, 20-26, 20-25, 20-24, 20-23, 20-22, o 20-21 nucleótidos. En algunas realizaciones, la región uniforme comprende una región específica de objetivo que hibrida con una secuencia que flanquea una secuencia que codifica una región variable de un receptor de células inmunitarias, por ejemplo una región variable de un receptor de células T, un receptor de células B, o inmunoglobulina, por ejemplo un anticuerpo. Cabe señalar que, como los receptores de células B comprenden inmunoglobulina unida a membrana, las regiones objetivo específicas para secuencias codificantes de la región variable de inmunoglobulina son típicamente adecuadas para amplificar receptores de células B, así como inmunoglobulinas secretadas (por ejemplo, anticuerpos). Ambas opciones se indican en la presente para aclarar que se contempla la amplificación de inmunoglobulinas unidas a membrana (receptores de células B) y también de inmunoglobulinas secretadas (anticuerpos). Como se usa en la presente, se entenderá que cuando los cebadores o las regiones uniformes comprendan regiones específicas del objetivo que comprendan "secuencias flanqueantes" (y variaciones de este término raíz, como "secuencias flanqueantes") de regiones variables de receptores de células inmunitarias y/o inmunoglobulinas, se entenderá que las regiones específicas de objetivo comprenden por lo menos una de (i) secuencias que hibridan en sentido descendente (3') de la secuencia que codifica la región variable y, en particular, que hibridan con la cadena de la secuencia codificante, y por lo tanto están configuradas para producir una cadena que comprende la secuencia codificante de la región variable tras la extensión en la dirección 5' a 3'; o (ii) secuencias que hibridan en sentido ascendente (5') de la secuencia que codifica la región variable y, en particular, hibridan con la cadena complementaria a la de la secuencia codificante y, por lo tanto, están configuradas para producir una cadena que comprende el complemento inverso de la secuencia codificante de la región variable tras la extensión en la dirección 5' a 3'. Por tanto, una secuencia flanqueante puede configurarse para la amplificación de las secuencias codificantes de la región variable junto con un cebador adecuado (por ejemplo, una secuencia flanqueante al otro lado de la región variable). Se entenderá que una secuencia flanqueante no necesita necesariamente detenerse o comenzar exactamente donde comienza o se detiene la secuencia codificante y, por lo tanto, es permisible que haya secuencias intermedias entre un sitio de hibridación de una secuencia flanqueante y la propia secuencia codificante de la región variable. Se entenderá que, aunque una secuencia flanqueante generalmente hibrida con una secuencia externa a la secuencia codificante de la región variable para amplificar una amplia variedad de posibles secuencias codificantes de la región variable, en algunas realizaciones, la "secuencia flanqueante" de la región variable comprende además alguna secuencia de la propia región variable, por ejemplo, si interesa un subconjunto de posibles regiones variables. Sin embargo, una "secuencia flanqueante", como se usa en la presente, no requiere que una única secuencia flanquee ambos lados de la región variable. Más bien, se entenderá que cuando se mencionan secuencias flanqueantes junto con composiciones, métodos y oligonucleótidos de algunas realizaciones de la presente, también se contemplan expresamente secuencias 5' y 3' que comprenden pares de cebadores adecuados para amplificar la secuencia codificante de la región variable.

Una especie de oligonucleótido único comprende una región de código de barras como se describe en la presente y también comprende una región uniforme que comprende una región específica de objetivo que comprende una secuencia que flanquea una secuencia codificante de región variable de receptor de células inmunitarias y/o inmunoglobulina. También puede proporcionarse un segundo cebador de oligonucleótidos para el otro lado de la secuencia codificante de la región variable, para amplificar la secuencia de la región variable junto con la región específica del objetivo de la región uniforme. La región uniforme comprende una región específica del objetivo, colocada 3' de la región del código de barras, y que comprende una secuencia que flanquea una región variable de inmunoglobulina (y, por tanto, flanquea una región variable de receptor de células B, así como una región variable de anticuerpo correspondiente), por ejemplo flanqueando la región variable de un locus de cadena pesada de inmunoglobulina, flanqueando la región variable de un locus kappa de inmunoglobulina (cadena ligera), o flanqueando la región variable de un locus lambda de inmunoglobulina (cadena ligera). En algunas realizaciones, la región uniforme comprende una región específica del objetivo, situada 3' de la región del código de barras, y que comprende una secuencia que flanquea por lo menos una de las regiones variables de una cadena alfa del receptor de células T, una región variable de una cadena beta del receptor de células T, una región variable de una cadena gamma del receptor de células T, o una cadena delta del receptor de células T.

En algunas realizaciones, un kit comprende una composición que comprende especies de oligonucleótidos únicos como se describe en la presente, en la que cada una de las especies de oligonucleótidos únicos comprenden una secuencia uniforme que flanquea una secuencia codificante de región variable de receptor de células inmunitarias o inmunoglobulina como se describe en la presente. El kit comprende además un cebador de oligonucleótidos configurado para hibridar con la cadena opuesta y en el otro lado de la secuencia codificante de región variable en comparación con la región uniforme, y está por tanto configurado para amplificar la secuencia de región variable junto con la región específica de objetivo de la región uniforme. En algunas realizaciones, la secuencia amplificada tiene por lo menos 1 kb y comprende la secuencia codificante variable, por ejemplo por lo menos 1 kb, 2kb, 3kb, 4kb, o 5kb, incluyendo intervalos entre dos cualquiera de los valores enumerados.

Cabe señalar que los ácidos nucleicos que codifican regiones variables de algunos receptores de células inmunitarias o inmunoglobulinas pueden tener más de 1 kb de longitud. Por ejemplo, las secuencias de regiones variables de receptores de células T pueden comprender una secuencia codificante CDR3 que termina a más de 1 kb de distancia de donde comienza la secuencia codificante CDR1. Sin estar limitado por la teoría, se observa que algunos enfoques de secuenciación convencionales y de próxima generación, por ejemplo secuenciación por síntesis, están limitados a lecturas cortas que son típicamente considerablemente menores de 1 kb. Por consiguiente, se contempla que los métodos, composiciones y kits de acuerdo con algunas realizaciones de la presente puedan ser útiles para codificar con códigos de barras y analizar ácidos nucleicos que codifican regiones variables de receptores de células inmunes y/o inmunoglobulinas, que de otro modo no serían susceptibles de secuenciación de lectura única de menos de 1 kb. Por consiguiente, en algunas realizaciones, la especie de oligonucleótido único comprende una secuencia que flanquea una secuencia codificante de región variable de receptor de célula inmunitaria o inmunoglobulina, está configurada para amplificar una secuencia de por lo menos 1 kb y que comprende la secuencia codificante de región variable, por ejemplo por lo menos 1 kb, 2 kb, 3 kb, 4 kb o 5 kb, incluyendo intervalos entre dos cualquiera de los valores enumerados.

Regiones con códigos de barras

De acuerdo con las composiciones, métodos y oligonucleótidos de algunas realizaciones de la presente, una región de código de barras comprende una secuencia de ácido nucleico que es útil para identificar un ácido nucleico, por ejemplo un ácido nucleico objetivo de una muestra, o un amplicón o transcrito inverso derivado de un único ácido nucleico objetivo de una muestra. Por ejemplo, dos transcritos de ARNm de una muestra pueden transcribirse inversamente y codificarse con un código de barras de tal manera que los ácidos nucleicos correspondientes al primer ARNm incluyan un primer código de barras, y los ácidos nucleicos correspondientes al segundo ARNm incluyan un segundo código de barras. Tras la secuenciación (u otro análisis), puede obtenerse información sobre los ARNm individuales de la muestra, por ejemplo, el número de copias, incluso después de la amplificación. Sin embargo, si una gran población de ARNm se etiqueta estocásticamente y algunos códigos de barras se representan más favorablemente (por ejemplo, debido a la estabilidad, la eficiencia de amplificación, etc.), puede producirse un sesgo, sesgando la capacidad de cuantificar los ácidos nucleicos de una muestra. Por tanto, de acuerdo con algunas realizaciones de la presente, cada especie de oligonucleótido único en una población puede comprender una región de código de barras única. Cuanto mayor sea la diversidad de códigos de barras, mayor será la diversidad de especies de oligonucleótidos únicos, y mayor será la probabilidad de que una secuencia de código de barras particular se asocie con un único ácido nucleico objetivo de una muestra. En algunas realizaciones, los métodos o composiciones que comprenden especies de oligonucleótidos únicos que comprenden códigos de barras moleculares como se describe en la presente reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo, o aumentando la sensibilidad y reduciendo el error estándar. Como se usa en la presente, un "código de barras de molécula" también puede denominarse "código de barras molecular", "índice molecular (IM)" o identificador molecular único (IMU). En la presente, un "código de barras de muestra" también puede denominarse "índice de muestra (IS)".

Una región de código de barras puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia única, de tal manera que cuando múltiples ácidos nucleicos de la muestra (que pueden ser iguales y/o diferentes entre sí) se asocian uno a uno con códigos de barras moleculares, los diferentes ácidos nucleicos de la muestra pueden diferenciarse entre sí por los códigos de barras moleculares. Como tal, incluso si una muestra comprende dos ácidos nucleicos con la misma secuencia, cada uno de estos dos ácidos nucleicos puede etiquetarse con un código de barras molecular diferente, de tal manera que los ácidos nucleicos de la población puedan cuantificarse, incluso después de la amplificación. El código de barras molecular puede comprender una secuencia de ácido nucleico de por lo menos 5 nucleótidos, por ejemplo por lo menos 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, o 50 nucleótidos, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 5-50, 5-45, 5-40, 5-35, 5-30, 5-25, 5-20, 5-15, 5-14, 5-13, 5-12, 5-11, 5-10, 5-9, 5-8, 5-7, 5-6, 6-50, 6-45, 6-40, 6-35, 6 30, 6-25, 6-20, 6-15, 6-14, 6-13, 6-12, 6-11,6-10, 6-9, 6-8, 6-7, 7-50, 7-45, 7-40, 7-35, 7-30, 7-25, 7-20, 7-15, 7-14, 7 13, 7-12, 7-11, 7-10, 7-9, 7-8, 8-50, 8-45, 8-40, 8-35, 8-30, 8-25, 8-20, 8-15, 8-14, 8-13, 8-12, 8-11, 8-10, 8-9, 9-50, 9 45, 9-40, 9-35, 9-30, 9-25, 9-20, 9-15, 9-14, 9-13, 9-12, 9-11, 9-10, 10-50, 10-45, 10-40, 10-35, 10-30, 10-25, 10-20, 10-15, 10-14, 10-13, 10-12, o 10-11 nucleótidos. En algunas realizaciones, la secuencia de ácido nucleico del código de barras molecular comprende una secuencia única, por ejemplo, de tal manera que cada especie de oligonucleótido único en una composición comprende un código de barras molecular diferente. En algunas realizaciones, dos o más especies de oligonucleótidos únicos pueden comprender el mismo código de barras molecular, pero todavía diferir entre sí. Por ejemplo, si las especies de oligonucleótidos únicos incluyen códigos de barras de muestra, cada especie de oligonucleótido único con un código de barras de muestra particular puede comprender un código de barras molecular diferente. La composición reivindicada que comprende especies de oligonucleótidos únicos comprende una diversidad de códigos de barras moleculares de por lo menos 1000 códigos de barras moleculares diferentes, y por tanto por lo menos 1000 especies de oligonucleótidos únicos. En algunas realizaciones, una composición que comprende especies de oligonucleótidos únicos comprende una diversidad de códigos de barras moleculares de por lo menos 6.500 códigos de barras moleculares diferentes, y por lo tanto por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, una composición que comprende especies de oligonucleótidos únicos comprende una diversidad de códigos de barras moleculares de por lo menos 65.000 códigos de barras moleculares diferentes, y por lo tanto por lo menos 65.000 especies de oligonucleótidos únicos.

Sin estar limitado por ninguna teoría, se contempla que un código de barras molecular que comprende un bajo contenido de G (por ejemplo, 50% G o menos, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G) puede minimizar el sesgo para una composición o grupo de especies de oligonucleótidos únicos que se usan para codificar con códigos de barras una población de ácidos nucleicos (por ejemplo, minimizar el sesgo que amplificaría preferiblemente códigos de barras que comprenden un contenido G más alto). Se observa que los enfoques convencionales de codificación con códigos de barras muestran típicamente un sesgo a favor de un contenido G más alto. Por ejemplo, las FIGS. 4A, 4B, y 4C ilustran muestras de uso de nucleótidos en códigos de barras moleculares convencionales de composiciones que comprenden numerosos códigos de barras moleculares únicos para ES32, TRAC (FIG. 4A), ES32 TRBC (FIG. 4B), y ES32 OligodT (FIG. 4C). Es decir, en todo caso, los códigos de barras moleculares convencionales y las regiones de código de barras, diseñadas sin respetar ciertas orientaciones proporcionadas en la presente, pueden comprender un contenido de G más alto que el que se esperaría por probabilidad aleatoria. En algunas realizaciones, los métodos o composiciones que comprenden especies de oligonucleótidos únicos que comprenden códigos de barras moleculares como se describe en la presente reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo, o aumentando la sensibilidad y reduciendo el error estándar.

En algunas realizaciones, todos los códigos de barras moleculares de una composición o composición usada en los métodos descritos en la presente comprenden especies de oligonucleótidos únicos que tienen colectivamente un contenido de G menor del 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-10% de G, 5-7,5% de G, 7,5-10% de G, 10-12,5% de G. Por "todos los códigos de barras moleculares de una composición de especies de oligonucleótidos únicos tienen colectivamente un contenido de G. de..", se entiende que si se calculara el contenido total de G entre todos los códigos de barras moleculares en toda la composición (por ejemplo, una población de por lo menos 1000, 2000, 5000, 6500, 10.000, 20.000, 30.000, 40.000, 50.000, 60.000, o 65.000 especies de oligonucleótidos únicos), este contenido total de G de la suma total de los códigos de barras caería por debajo de los valores enumerados o dentro de los intervalos enumerados. Aunque todavía sería posible que una especie de oligonucleótido único individual tuviera un código de barras molecular con un contenido de G por encima del valor indicado o fuera del intervalo indicado, el contenido de nucleótidos colectivo de las especies de oligonucleótidos únicos de la composición estaría por debajo del valor indicado o dentro del intervalo indicado. En algunas realizaciones, todos los códigos de barras moleculares en una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores indicados. En algunas realizaciones, todos los códigos de barras moleculares en una composición que comprende por lo menos 6500 especies de oligonucleótidos únicos tienen colectivamente un contenido G de menos del 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, todos los códigos de barras moleculares en una composición que comprende por lo menos 65.000 especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, para una composición que comprende especies de oligonucleótidos únicos (o tal composición usada en un método), la composición consiste en o consiste esencialmente en especies de oligonucleótidos únicos que comprenden cada uno un contenido de G de código de barras molecular del 50% de G o menos, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12.5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2,5-30% de G, 2,5-25% de G, 2.5-20% de G, 2,5-15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7,5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7.5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7,5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12,5-50% de G, 12,5-45% de G, 12,5-40% de G, 12.5-35% de G, 12,5-30% de G, 12,5-25% de G, 12,5-20% de G, 12,5-15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G, o 20-25% de G. Por "la composición consiste en, o consiste esencialmente en, especies de oligonucleótidos únicos que tienen cada una un contenido de código de barras molecular G de menos de...", se entiende que cada una o esencialmente cada una de las especies de oligonucleótidos únicos en una composición, población o grupo tienen un contenido de G de código de barras molecular menor al valor indicado, o fuera del intervalo indicado. Es decir, para una composición, población o grupo "que consiste esencialmente en" especies de oligonucleótidos únicos que tienen cada uno el contenido de G indicado, sería posible que una parte analíticamente insignificante de los oligonucleótidos únicos en la composición tuviera códigos de barras moleculares con un contenido de G por encima del valor indicado o fuera del intervalo enumerado. Por ejemplo, la parte analíticamente insignificante de los oligonucleótidos únicos puede tener, o puede tener no más del 5%, 4%, 3%, 2%, 1%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, o menos del oligonucleótido único en una composición. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 1000 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 50%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 6500 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 50%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 65.000 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 50%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 1000 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 25%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición de por lo menos 6500 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 25%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición, población o grupo de por lo menos 65.000 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 25%. Opcionalmente, ninguno de los códigos de barras moleculares de las especies de oligonucleótidos únicos de la composición tienen colectivamente un contenido de G superior al 50% G, por ejemplo, todos los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen un contenido de G de menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, la composición tal como se describe en la presente (o dicha composición como se usa en un método) consiste o consiste esencialmente en especies de oligonucleótidos únicos que comprenden cada uno una región de código de barras G con un contenido de menos del 50% como se describe en la presente. En algunas realizaciones, para una composición que comprende especies de oligonucleótidos únicos, la composición consiste o consiste esencialmente en especies de oligonucleótidos únicos que comprenden cada uno un contenido de G de región de código de barras del 50% de G o menos, por ejemplo, menos de 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12.5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2.5-30% de G, 2,5-25% de G, 2,5-20% de G, 2,5-15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7.5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7,5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7.5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12,5-50% de G, 12,5-45% de G, 12,5-40% de G, 12,5-35% de G, 12,5-30% de G, 12,5-25% de G, 12,5-20% de G, 12.5-15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G, o 20-25% de G. Por "la composición consiste o consiste esencialmente en especies de oligonucleótidos únicos que tienen cada una un contenido de regiones G de código de barras de menos de.... ", se entiende que cada una o esencialmente cada una de las especies de oligonucleótidos únicos en una composición, población o grupo tienen un contenido de G de región de código de barras inferior al valor indicado, o fuera del intervalo indicado. Es decir, para una composición, población o grupo "que consiste esencialmente en" especies de oligonucleótidos únicos que tienen cada uno el contenido G indicado, sería posible que una parte analíticamente insignificante de los oligonucleótidos únicos en la composición tuviera regiones de código de barras con un contenido de G por encima del valor indicado o fuera del intervalo mencionado. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 1000 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 50%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 6500 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 50%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 65.000 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 50%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 1000 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 25%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición de por lo menos 6500 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 50%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición, población o grupo de por lo menos 65.000 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 25%, incluyendo intervalos entre dos cualquiera de los valores enumerados. Opcionalmente, ninguna de las regiones de código de barras de las especies de oligonucleótidos únicos de la composición tienen colectivamente un contenido de G de más del 50% de G, por ejemplo, todas las regiones de código de barras de las especies de oligonucleótidos únicos tienen un contenido de G de menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, la composición (o dicha composición como se usa en un método) consiste o consiste esencialmente en especies de oligonucleótidos únicos que tienen cada uno un código de barras molecular que comprende la secuencia de por lo menos tres repeticiones del doblete "HN" (en el que cada "H" es cualquiera de A, C, o T, y en el que "N" es cualquiera de A, G, C, o T), por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos cualquiera de los valores enumerados. Ejemplos de repeticiones múltiples del doblete "HN" incluyen HN, HNHN, HNHNHN y HNHNHNHN. Cabe señalar que, aunque la fórmula "HN" describe restricciones en el contenido de base, no todos los H ni todos los N tienen que ser iguales o diferentes. Por ejemplo, si los códigos de barras moleculares de especies de oligonucleótidos únicos en una composición comprendían HNHNHN, un código de barras molecular puede comprender la secuencia ACTGCA, mientras que otro código de barras molecular puede comprender la secuencia TAACTA, mientras que otro código de barras molecular podría comprender la secuencia AGACAc . Cabe señalar que cualquier número de repeticiones del doblete "HN" tendría un contenido de G de no más del 50%. En algunas realizaciones, por lo menos el 95% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 99% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 99,9% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 95% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 6500 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 99% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 6500 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 99,9% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 6500 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 95% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 65.000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 99% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 65.000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 99,9% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 65.000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, la composición consiste o consiste esencialmente en por lo menos 1000, 6500, o 65.000 especies de oligonucleótidos únicos que tienen cada uno un código de barras molecular que comprende la secuencia HNHNHN. En algunas realizaciones, la composición consiste o consiste esencialmente en por lo menos 1000, 6500 o 65.000 especies de oligonucleótidos únicos que tienen cada uno un código de barras molecular que comprende la secuencia HNHNHN. En algunas realizaciones, por lo menos el 95%, 99% o 99,9% de las regiones de código de barras de la composición descrita en la presente comprenden por lo menos tres repeticiones del doblete "HN" descrito en la presente. Sin estar limitado por ninguna teoría, se observa que tener un número relativamente grande de secuencias de nucleótidos disponibles para códigos de barras moleculares puede ser útil cuando se codifica con códigos de barras una población de ácidos nucleicos objetivo de una muestra, por ejemplo para aumentar la diversidad de códigos de barras dentro de una longitud de secuencia dada junto con la probabilidad de que cada ácido nucleico objetivo se marque de manera única, a la vez que se minimiza el tamaño de las especies de oligonucleótidos. Se observa que limitar el contenido de G de los códigos de barras moleculares y/o regiones de códigos de barras puede limitar la diversidad de estos códigos de barras y regiones de códigos de barras al reducir el número de nucleótidos disponibles a partir de los cuales pueden construirse códigos de barras (y el número de secuencias diferentes disponibles por longitud de ácido nucleico). Como tal, tener algunas G en los códigos de barras moleculares o regiones de códigos de barras de acuerdo con varias realizaciones de la presente puede ser útil para aumentar la diversidad, mientras que limitar el contenido de G puede ser útil para minimizar el sesgo. Se indica, y se ha observado (ver el Ejemplo 2 y las FIGS. 6-7) que las secuencias que comprenden dobletes "HN" repetidos pueden producir un sesgo bajo, a la vez que proporcionan un compromiso entre la reducción del sesgo y el mantenimiento de una cantidad relativamente grande de secuencias de nucleótidos disponibles, de tal manera que puede obtenerse una diversidad relativamente alta en una secuencia relativamente corta, a la vez que se minimiza el sesgo. En algunas realizaciones, los métodos o composiciones que comprenden especies de oligonucleótidos únicos que comprenden códigos de barras moleculares que comprenden dobletes "HN" repetidos como se describe en la presente reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo, o aumentando la sensibilidad y reduciendo el error estándar.

En algunas realizaciones, la composición (o tal composición como se usa en un método) comprende, consiste en, o consiste esencialmente en especies de oligonucleótidos únicos que comprenden cada uno un código de barras molecular que comprende por lo menos seis "H" consecutivas (en el que cada "H" es cualquiera de A, C, o T), por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. Cabe señalar que, aunque la fórmula "H" describe restricciones en el contenido de base, no todas las H tienen que ser iguales (o diferentes). Por ejemplo, si los códigos de barras moleculares de especies de oligonucleótidos únicos en una población comprendieran cada una la secuencia HHHH, un código de barras molecular de una especie de oligonucleótido único podría comprender ACTA, un código de barras molecular de otra especie de oligonucleótido único podría comprender Tt AC, y un código de barras molecular de otra especie de oligonucleótido único podría comprender ACAT. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 1000 especies de oligonucleótidos únicos, de los cuales por lo menos el 95% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 1000 especies de oligonucleótidos únicos, de las cuales por lo menos el 99% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 1000 especies de oligonucleótidos únicos, de las cuales por lo menos el 99,9% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 6500 especies de oligonucleótidos únicos, de las cuales por lo menos 95% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 6500 especies de oligonucleótidos únicos, de las cuales por lo menos el 99% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 6500 especies de oligonucleótidos únicos, de las cuales por lo menos el 99,9% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 65.000 especies de oligonucleótidos únicos, de las cuales por lo menos el 95% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 65.000 especies de oligonucleótidos únicos, de las cuales por lo menos el 99% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 65.000 especies de oligonucleótidos únicos, de las cuales por lo menos el 99,9% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de las especies de oligonucleótidos únicos comprenden una secuencia que suma por lo menos 6 H y N alternadas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H y N alternadas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T.

En algunas realizaciones, por lo menos el 95% (por ejemplo, el 95%, 96%, 97%, 98%, 99% o más) de las especies de oligonucleótidos únicos de la composición como se describe en la presente (o tal composición como se usa en un método) comprenden regiones de código de barras que comprenden por lo menos 6 H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados como se describe en la presente. En algunas realizaciones, por lo menos el 99% de las especies de oligonucleótidos únicos de la composición como se describe en la presente comprenden regiones de código de barras que comprenden por lo menos 6 H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados como se describe en la presente. En algunas realizaciones, por lo menos el 99,9% de las especies de oligonucleótidos únicos de la composición como se describe en la presente comprenden regiones de código de barras que comprenden por lo menos 6 H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados como se describe en la presente.

En algunas realizaciones, el código de barras de la muestra de cada especie de oligonucleótido único tiene un contenido de G del 50% o menos, por ejemplo 50% o menos, 40% o menos, 25% o menos, 20% o menos, 12,5% o menos, 10% o menos, o 5% o menos, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, la región del código de barras de cada especie de oligonucleótido único tiene un contenido de G del 50% o menos, por ejemplo 50% o menos, 40% o menos, 25% o menos, 20% o menos, 12,5% o menos, 10% o menos, o 5% o menos, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%, por ejemplo de menos del 12,5%, de menos del 10%, de menos del 7,5%, de menos del 5%, de menos del 2,5%, o de menos del 1%, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, las regiones de código de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%, por ejemplo de menos del 12,5%, de menos del 10%, de menos del 7,5%, de menos del 5%, de menos del 2,5%, o de menos del 1%, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G. En algunas realizaciones, para por lo menos el 99% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G. En algunas realizaciones, para todas o sustancialmente todas las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G.

Cada región de código de barras comprende un código de barras de muestra. De acuerdo con las composiciones, métodos y oligonucleótidos de algunas realizaciones de la presente, cada especie de oligonucleótido único en una grupo puede comprender el mismo código de barras de muestra, pero puede haber dos o más grupos que están asociados cada uno con diferentes códigos de barras de muestra. Como tal, todas o esencialmente todas las especies de oligonucleótidos únicos en el grupo N° 1 pueden comprender el código de barras de muestra N° 1, y todas o esencialmente todas las especies de oligonucleótidos únicos en el grupo N° 2 pueden comprender el código de barras de muestra N° 2. Los ácidos nucleicos de una primera muestra pueden comprender el mismo código de barras de muestra. Los ácidos nucleicos de una primera muestra pueden asociarse con las especies de oligonucleótidos únicos en el grupo N° 1, y los ácidos nucleicos de una segunda muestra pueden asociarse con las especies de oligonucleótidos únicos en el grupo N° 2, por ejemplo mediante hibridación y amplificación. Como tal, todos o esencialmente todos los ácidos nucleicos amplificados correspondientes a la primera muestra comprenderán el código de barras de muestra N° 1 (pero pueden comprender diferentes códigos de barras moleculares), y todos los ácidos nucleicos amplificados correspondientes a la segunda muestra comprenderán el código de barras de muestra N° 2. En algunas realizaciones, hay por lo menos 24, 48, 96 o 192 grupos.

El código de barras de la muestra puede comprender una secuencia de ácido nucleico de por lo menos 3 nucleótidos, por ejemplo de por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 4849, 50 nucleótidos, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 3-50, 3-45, 3-40, 3-35, 3-30, 3-25, 3-20, 3-15, 3-14, 3-13, 3-12, 3-11, 3-10, 3-9, 3-8, 3-7, 3-6, 3-5, 3-4, 4-50, 4-45, 4-40, 4-35, 4-30, 4-25, 4-20, 4-15, 4-14, 4-13, 4 12, 4-11, 4-10, 4-9, 4-8, 4-7, 4-6, 4-5, 5-50, 5-45, 5-40, 5-35, 5-30, 5-25, 5-20, 5-15, 5-14, 5-13, 5-12, 5-11, 5-10, 5-9, 5-8, 5-7, 5-6, 6-50, 6-45, 6-40, 6-35, 6-30, 6-25, 6-20, 6-15, 6-14, 6-13, 6-12, 6-11, 6-10, 6-9, 6-8, 6-7, 7-50, 7-45, 7 40, 7-35, 7-30, 7-25, 7-20, 7-15, 7-14, 7-13, 7-12, 7-11, 7-10, 7-9, 7-8, 8-50, 8-45, 8-40, 8-35, 8-30, 8-25, 8-20, 8-15, 8-14, 8-13, 8-12, 8-11, 8-10, 8-9, 9-50, 9-45, 9-40, 9-35, 9-30, 9-25, 9-20, 9-15, 9-14, 9-13, 9-12, 9-11, 9-10, 10-50, 10-45, 10-40, 10-35, 10-30, 10-25, 10-20, 10-15, 10-14, 10-13, 10-12, o 10-11 nucleótidos. En algunas realizaciones, la secuencia de ácido nucleico del código de barras de la muestra comprende una secuencia única, por ejemplo, de tal manera que cada especie de oligonucleótido único en una población comprende un código de barras molecular diferente.

Sin estar limitado por ninguna teoría, se contempla que un código de barras de muestra que comprenda un bajo contenido de G (por ejemplo, menos del 50% de G, por ejemplo, menos del 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G o 2,5% de G) puede colocarse 3' de un código de barras de muestra que comprende un contenido de G relativamente más alto y 5' de una región uniforme (por ejemplo, una secuencia específica de objetivo o secuencia de oligo dT), para minimizar el sesgo separando el código de barras de muestra relativamente rico en G de la región uniforme. En algunas realizaciones, la región del código de barras comprende un código de barras de muestra con un contenido de G del 50% o menos, por ejemplo, menos del 50% G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2.5% de G, o 0% de G, incluidos los intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2,5-30% de G, 2.5-25% de G, 2,5-20% de G, 2,5-15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7.5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7,5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7,5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12,5-50% de G, 12.5-45% de G, 12,5-40% de G, 12,5-35% de G, 12,5-30% de G, 12,5-25% de G, 12.5- 20% de G, 12,5-15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G, o 20-25% de G.

En algunas realizaciones, para una composición que comprende especies de oligonucleótidos únicos (o tal composición como se usa en un método), por lo menos el 95% de los códigos de barras de muestra de los oligonucleótidos únicos de la composición tienen cada uno menos de 50% de contenido de G, por ejemplo, menos de 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12.5% de G, 10% de G, 7.5% de G, 5% de G, o 2.5% de G, o 0% de G, incluyendo intervalos entro dos cualquiera de los valores enumerados, por ejemplo, 2.5- 50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2,5-30% de G, 2,5-25% de G, 2,5-20% de G, 2,5-15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7,5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7,5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7,5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12,5-50% de G, 12,5-45% de G, 12,5-40% de G, 12,5-35% de G, 12,5-30% de G, 12,5-25% de G, 12,5-20% de G, 12,5-15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G o 20-25% de G.

En algunas realizaciones, para una composición que comprende especies de oligonucleótidos únicos (o tal composición como se usa en un método), por lo menos el 99% de los códigos de barras de muestra de los oligonucleótidos únicos de la composición tienen cada uno un contenido del 50% G o menos, por ejemplo, menos de 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12.5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2.5-30% de G, 2,5-25% de G, 2,5-20% de G, 2.5- 15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7.5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7,5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7.5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12.5- 50% de G, 12,5-45% de G, 12,5-40% de G, 12,5-35% de G, 12,5-30% de G, 12,5-25% de G, 12.5-20% de G, 12.5- 15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G, o 20-25% de G. Es decir, dentro de la población de oligonucleótidos únicos, menos del 1% de los códigos de barras de la muestra tienen un contenido de G de más del 50%. En algunas realizaciones, las especies de oligonucleótidos únicos de la composición consisten o consisten esencialmente en especies de oligonucleótidos únicos que tienen cada uno códigos de barras de muestra con un contenido de G de menos del 50%, como se describe en la presente.

En algunas realizaciones, una región de código de barras se sitúa 5' de la región uniforme sin ninguna secuencia intermedia entre la región de código de barras y la región uniforme. En algunas realizaciones, la región del código de barras está situada 5' de un espaciador, que está situado 5' de la región uniforme, de tal manera que hay un espaciador entre la región del código de barras y la región uniforme. Opcionalmente, el espaciador tiene un bajo contenido en G (por ejemplo, 50% de G o menos, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G). El espaciador puede tener una longitud de por lo menos 1 nucleótido, por ejemplo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, o 50 nucleótidos, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 1-50, 1-45, 1-35, 1-30, 1-25, 1-20, 1-15, 1-10, 1-9, 1-8, 1-7, 1-6, 1-5, 1-4, 1-3, 1-2, 2-50, 2 45, 2-35, 2-30, 2-25, 2-20, 2-15, 2-10, 2-9, 2-8, 2-7, 2-6, 2-5, 2-4, 2-3, 3-50, 3-45, 3-35, 3-30, 3-25, 3-20, 3-15, 3-10, 3 9, 3-8, 3-7, 3-6, 3-5, 3-4, 4-50, 4-45, 4-35, 4-30, 4-25, 4-20, 4-15, 4-10, 4-9, 4-8, 4-7, 4-6, 4-5, 5-50, 5-45, 5-35, 5-30, 5-25, 5-20, 5-15, 5-10, 5-9, 5-8, 5-7, 5-6, 6-50, 6-45, 6-35, 6-30, 6-25, 6-20, 6-15, 6-10, 6-9, 6-8, 6-7, 7-50, 7-45, 7-35, 7-30, 7-25, 7-20, 7-15, 7-10, 7-9, 7-8, 8-50, 8-45, 8-35, 8-30, 8-25, 8-20, 8-15, 8-10, 8-9, 9-50, 9-45, 9-35, 9-30, 9-25, 9-20, 9-15, 9-10, 10-50, 10-45, 10-35, 10-30, 10-25, 10-20, o 10-15 nucleótidos. En algunas realizaciones, el espaciador puede comprender por lo menos dos nucleótidos consecutivos no G (denotados como "H", en los que "H" es A, C o T), por ejemplo por lo menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 H consecutivos, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2-20, 2-15, 2-10, 2-9, 2-8, 2-7, 2 6, 2-5, 2-4, 2-3, 3-20, 3-15, 3-10, 3-9, 3-8, 3-7, 3-6, 3-5, 3-4, 4-20, 4-15, 4-10, 4-9, 4-8, 4-7, 4-6, 4-5, 5-20, 5-15, 5-10, 5-9, 5-8, 5-7, 5-6, 6-20, 6-15, 6-10, 6-9, 6-8, o 6-7. En algunas realizaciones, los nucleótidos de los espaciadores son Ts. Por ejemplo, el espaciador puede comprender una secuencia poli-T, como TT, TTT, TTTT, TTTTT, TTTTTT, TTTTTTTT o TTTTTTTTTT. Se observa que los espaciadores no proporcionan necesariamente diversidad, y como tal, en una composición que comprende especies de oligonucleótidos únicos como se describe en la presente, algunas o todas las especies de oligonucleótidos únicos pueden tener las mismas secuencias espaciadoras. Opcionalmente, todas las especies de oligonucleótidos únicos de la composición comprenden la misma secuencia espaciadora.

Grupos y agolpamiento

Las composiciones que comprenden especies de oligonucleótidos únicos como se describe de acuerdo con las composiciones y métodos de algunas realizaciones de la presente pueden disponerse en grupos espacialmente aislados, por ejemplo para que puedan analizarse múltiples muestras, con una muestra por grupo. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados, cada grupo comprendiendo una pluralidad de oligonucleótidos únicos de las especies de oligonucleótidos únicos, de tal manera que los oligonucleótidos únicos del mismo grupo comprenden la misma secuencia de código de barras de muestra, y de tal manera que diferentes oligonucleótidos únicos del mismo grupo comprenden secuencias de código de barras molecular diferentes. Como se usa en la presente, "aislamiento espacial" (y variaciones de este término raíz) significa que los ácidos nucleicos objetivo de una muestra pueden hibridar con las especies de oligonucleótidos únicos del grupo sin reaccionar sustancialmente de manera cruzada con otros grupos, y sin que las especies de oligonucleótidos únicos del grupo hibriden sustancialmente con ácidos nucleicos objetivo de otras muestras. Como tal, el código de barras de la muestra puede identificar de qué grupo procede una especie de oligonucleótido único determinada. Además, tras codificar con códigos de barras las secuencias de ácidos nucleicos objetivo con especies de oligonucleótidos únicos, el código de barras de la muestra puede identificar de qué grupo procede una secuencia de ácido nucleico objetivo codificada (o transcripción inversa o amplicón de la misma).

En algunas realizaciones, un sustrato organiza los grupos de tal manera que estén espacialmente aislados unos de otros. Por ejemplo, una placa de múltiples pocillos puede organizar grupos espacialmente aislados, de tal manera que cada grupo se encuentre en un pocillo separado. Por ejemplo, cada grupo puede inmovilizarse en una perla diferente. Opcionalmente, cada pocillo de una placa de múltiples pocillos puede contener una única perla en la que se inmoviliza el grupo de especies de oligonucleótidos únicos, de tal manera que en cada pocillo de la placa de múltiples pocillos se coloca un grupo diferente de especies de oligonucleótidos únicos.

En algunas realizaciones, las especies de oligonucleótidos únicos están dispuestas en por lo menos 2 grupos, por ejemplo, por lo menos 2, 3, 4, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 15, 16, 17, 18, 19, 20, 21 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 60, 70, 72, 96, 99, 100, 110, 120, 144, 168, o 192, grupos, incluyendo intervalos entre dos cualquiera de los valores enumerados. Opcionalmente, puede haber por lo menos 100 oligonucleótidos únicos por grupo.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos 2 grupos, y hay por lo menos 100 oligonucleótidos únicos por grupo, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000, 6000, 6500, 10.000 o 65.000 especies de oligonucleótidos únicos por grupo.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos 24 grupos, y hay por lo menos 100 oligonucleótidos únicos por grupo, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000, 6000, 6500, 10.000 o 65.000 especies de oligonucleótidos únicos por grupo.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos 48 grupos, y hay por lo menos 100 oligonucleótidos únicos por grupo, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000, 6000, 6500, 10.000 o 65.000 especies de oligonucleótidos únicos por grupo.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos 96 grupos, y hay por lo menos 100 oligonucleótidos únicos por grupo, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000, 6000, 6500, 10.000 o 65.000 especies de oligonucleótidos únicos por grupo.

Sustratos

Las especies de oligonucleótidos únicos de acuerdo con las composiciones y métodos de algunas realizaciones de la presente pueden inmovilizarse en sustratos, por ejemplo, perlas, pocillos de placas de múltiples pocillos, o matrices. Por ejemplo, las especies de oligonucleótidos únicos que tienen el mismo código de barras de muestra, pero diferentes códigos de barras moleculares pueden inmovilizarse en un sustrato, como en una única perla, o en un único pocillo de una placa de múltiples pocillos. Como tal, cuando las especies de oligonucleótidos únicos inmovilizados de un sustrato particular se ponen en contacto con una muestra particular, como una célula individual, las especies de oligonucleótidos únicos inmovilizados, inmovilizadas en ese sustrato se asociarán con ácidos nucleicos objetivo de la misma muestra. Si las especies de oligonucleótidos únicos inmovilizadas en el mismo sustrato tienen el mismo código de barras de muestra, mientras que las de otros sustratos tienen códigos de barras de muestra diferentes, la muestra asociada con cada ácido nucleico objetivo puede identificarse fácilmente (por ejemplo, todas las especies de oligonucleótidos únicos del sustrato N° 1 tienen el código de barras de muestra N° 1, todas las especies de oligonucleótidos únicos del sustrato N° 2 tienen el código de barras de muestra N° 2).

En algunas realizaciones, tales configuraciones en las que especies de oligonucleótidos únicos se inmovilizan en un sustrato pueden ser útiles para facilitar la eficiencia y el rendimiento. Por ejemplo, pueden añadirse células individuales a los pocillos de una placa de múltiples pocillos, de tal manera que no haya más de una célula individual en cada pocillo. Si las especies de oligonucleótidos únicos inmovilizadas en un pocillo dado (por ejemplo, en el pocillo o en una perla) comprenden un código de barras de muestra único, los ácidos nucleicos objetivo codificados con códigos de barras y los transcritos inversos y amplicones de los mismos correspondientes a la célula individual pueden identificarse y cuantificarse, incluso si se agrupan transcritos inversos con código de barras o amplicones de múltiples muestras.

Un sustrato puede comprender un tipo de soporte sólido. Un sustrato puede referirse a una superficie sólida o semisólida continua sobre la que pueden realizarse los métodos de la divulgación. Un sustrato puede referirse a una matriz, un cartucho, un chip, un dispositivo y un portaobjetos, por ejemplo. Como tal, "soporte sólido" y "sustrato" pueden usarse indistintamente.

Un sustrato o soporte sólido de acuerdo con algunas realizaciones de la presente puede abarcar cualquier tipo de esfera, bola, cojinete, cilindro sólidos, porosos o huecos u otra configuración similar compuesta de plástico, cerámica, metal o material polimérico (por ejemplo, hidrogel) sobre la que puede inmovilizarse un ácido nucleico (por ejemplo, de covalente o no covalentemente). Un sustrato o soporte sólido puede comprender una partícula discreta que puede ser esférica (por ejemplo, microesferas) o tener una forma no esférica o irregular, como cúbica, cuboide, piramidal, cilindrica, cónica, oblonga o en forma de disco, y similares. Una pluralidad de soportes sólidos espaciados en una matriz puede no comprender un sustrato. Un soporte sólido puede usarse indistintamente con el término "perla".

En algunas realizaciones, se proporciona una pluralidad de sustratos, y la diversidad de los códigos de barras de las muestras puede representarse en la pluralidad de sustratos, de tal manera que los sustratos únicos pueden comprender códigos de barras de muestras únicos.

Métodos de codificación con códigos de barras

De acuerdo con algunas realizaciones de la presente, se describen métodos de codificar con códigos de barras específicamente ácidos nucleicos a partir de dos o más muestras. Cada muestra puede comprender ácidos nucleicos. El método puede comprender el contacto de cada muestra con un grupo que comprende una pluralidad de especies de oligonucleótidos únicos, como se describe en la presente. Cada muestra puede ponerse en contacto en aislamiento espacial de las otras muestras. Las especies de polinucleótidos únicos de cada grupo pueden comprender el mismo código de barras de muestra y comprender diferentes códigos de barras moleculares. El método puede incluir la hibridación de regiones objetivo específicas de por lo menos algunos oligonucleótidos de las especies de oligonucleótidos únicos con por lo menos algunos de los ácidos nucleicos de la muestra. El método puede incluir extender los oligonucleótidos hibridados para producir cadenas que comprenden un oligonucleótido de la especie de oligonucleótido único y una secuencia complementaria a la región objetivo. Por tanto, para cada muestra, las cadenas producidas pueden comprender el mismo código de barras de la muestra y diferentes códigos de barras moleculares. Para muestras diferentes, los códigos de barras de la muestra pueden ser diferentes. En algunas realizaciones, las especies de oligonucleótidos únicos puestas en contacto con la muestra consisten o consisten esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos del 50%. En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. Opcionalmente, cada grupo comprende por lo menos 100 especies de oligonucleótidos únicos, por ejemplo por lo menos 100, 500, 100, 500, 1000, 2000, 6500, o 65.000 especies de oligonucleótidos únicos. Tales métodos, de acuerdo con algunas realizaciones de la presente, pueden codificar con códigos de barras los ácidos nucleicos de dos o más muestras diferentes, como una muestra de una única célula, para permitir el análisis y la cuantificación de los ácidos nucleicos de una única célula.

Opcionalmente, cada muestra se pone en contacto con un único grupo de especies de oligonucleótidos únicos en aislamiento espacial de los demás grupos y muestras. En algunas realizaciones, los grupos están aislados espacialmente por estar en espacios contenidos únicos, por ejemplo, diferentes pocillos de una placa de múltiples pocillos, diferentes tubos de ensayo, diferentes canales de microfluidos, o similares. En algunas realizaciones, los grupos están aislados espacialmente por estar en diferentes regiones de una superficie, por ejemplo puntos de reacción en una matriz.

Los oligonucleótidos pueden ponerse en contacto con los ácidos nucleicos objetivo de la muestra en condiciones de hibridación estándar (por ejemplo, en tampones estándar y a una temperatura inferior a la Tm de una parte de la región uniforme que es complementaria al ácido nucleico objetivo). Opcionalmente, por ejemplo si los ácidos nucleicos objetivo comprenden ^aRⁿ, los ácidos nucleicos objetivo de la muestra se transcriben inversamente después de la hibridación a la especie de oligonucleótido único, para generar ADN (por ejemplo ADNc). Opcionalmente, los productos de la reacción de hibridación o de transcripción inversa se amplifican para generar una biblioteca de ADN. La amplificación puede realizarse mediante PCR en condiciones estándar, o mediante otros métodos adecuados, por ejemplo amplificación isotérmica, amplificación en círculo rodante, y similares. Opcionalmente, la amplificación puede comprender la amplificación de transcritos inversos o ácidos nucleicos hibridados con una polimerasa con actividad 5' a 3'. Opcionalmente, los productos de la amplificación pueden analizarse adicionalmente, por ejemplo por secuencia. Opcionalmente, los transcritos inversos o amplicones de diferentes grupos pueden agruparse para la secuenciación, ya que los diferentes códigos de barras de las muestras indicarán el grupo correspondiente (y la muestra) de cada ácido nucleico individual codificado con código de barras. Cabe señalar que puede haber un sesgo a favor del código de barras molecular rico en G o especies de oligonucleótidos únicos, y los métodos de acuerdo con algunas realizaciones de la presente pueden minimizar o eliminar dicho sesgo. A modo de ejemplo, cuando se cuantifican ácidos nucleicos de la muestra a nivel de ácido nucleico único, puede ser útil minimizar o eliminar dicho sesgo que podría favorecer la representación de algunos ácidos nucleicos y sesgar los resultados cuantitativos a favor de ciertos tipos de códigos de barras en lugar de ácidos nucleicos objetivo representativos de la muestra. En algunas realizaciones, los métodos que comprenden especies de oligonucleótidos únicos, como se describen en la presente, reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo o aumentando la sensibilidad y reduciendo el error estándar.

Opcionalmente, el método puede comprender además determinar las secuencias de ácidos nucleicos de las cadenas que comprenden los oligonucleótidos de las especies de oligonucleótidos únicos y la secuencia complementaria al objetivo. Por ejemplo, pueden secuenciarse transcritos inversos, amplicones y/o bibliotecas de ADNc generadas a partir de la hibridación y extensión de las sondas de oligonucleótidos únicos. Puede emplearse cualquier método de secuenciación adecuado conocido en la técnica, preferiblemente enfoques de alto rendimiento. Por ejemplo, también puede usarse la secuenciación de matrices cíclica usando plataformas como Roche 454, Illumina Solexa, ABI-SOLiD, ION Torrent, Complete Genomics, Pacific Bioscience, Helicos, o la plataforma Polonator. La secuenciación puede incluir la secuenciación MiSeq. La secuenciación puede incluir la secuenciación HiSeq. Si procede, las especies de oligonucleótidos únicos pueden incluir adaptadores para facilitar la secuenciación de alto rendimiento, por ejemplo sitios de cebado universales. Opcionalmente, los ácidos nucleicos codificados con códigos de barras correspondientes a dos o más muestras diferentes (por ejemplo, de dos o más grupos diferentes) pueden agruparse o combinarse para la secuenciación. Opcionalmente, todos los grupos se combinan o agrupan para la secuenciación. Sin estar limitado por ninguna teoría, se observa que los códigos de barras de la muestra pueden identificar la muestra (o grupo) correspondiente de los ácidos nucleicos codificados con códigos de barras combinados, tal combinación o agrupación de los ácidos nucleicos puede facilitar el rendimiento y/o la utilización de recursos para la secuenciación, y la codificación con códigos de barras precisa de acuerdo con algunas realizaciones de la presente puede minimizar o eliminar el sesgo, incluso cuando se analiza un gran número de ácidos nucleicos diferentes.

La región del código de barras de cada grupo comprende un código de barras de muestra que comprende por lo menos 3 nucleótidos como se describe en la presente, por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, o 50 nucleótidos, incluyendo intervalos entre dos cualquiera de los valores enumerados. Opcionalmente, el código de barras de la muestra se sitúa 3' del código de barras molecular. Opcionalmente, el código de barras molecular se sitúa 3' del código de barras de la muestra. Opcionalmente, las especies de oligonucleótidos únicos comprenden el mismo código de barras de la muestra, que puede ser un código de barras de la muestra diferente de las especies de oligonucleótidos únicos de otros grupos. Opcionalmente, el código de barras de la muestra tiene un bajo contenido de G como se describe en la presente, por ejemplo, menos del 50% de G, por ejemplo, menos del 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G o 2,5% de G. Opcionalmente, por lo menos el 95%, 99% o 99,9% de los códigos de barras de la muestra tienen un bajo contenido de G como se describe en la presente. Opcionalmente, cada oligonucleótido único comprende un espaciador 3' del código de barras molecular y 5' de la región uniforme como se describe en la presente.

Las especies de oligonucleótidos únicos puestas en contacto con la muestra consisten esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos del 50% como se describe en la presente, por ejemplo, menos del 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G. En algunas realizaciones, todos los códigos de barras moleculares de las especies de oligonucleótidos únicos en contacto con la muestra comprenden códigos de barras moleculares que tienen un contenido de G de menos del 50% como se describe en la presente, por ejemplo, menos del 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de contenido de G, o 0% de contenido de G.

En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del12,5% G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, cada especie de oligonucleótido único comprende además una región uniforme 3' de la región del código de barras. La región uniforme comprende por lo menos 10 nucleótidos complementarios a una secuencia de ácido nucleico objetivo (por ejemplo, por lo menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, o 30 nucleótidos complementarios al objetivo, incluyendo intervalos entre dos cualquiera de los valores enumerados), y está configurada para la amplificación de 5' a 3' de la secuencia de ácido nucleico objetivo. Opcionalmente, la región uniforme comprende una secuencia oligo dT.

En algunas realizaciones, las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato como se describe en la presente, de tal manera que las especies de oligonucleótidos únicos inmovilizadas en un sustrato dado comprenden el mismo código de barras de la muestra, y diferentes especies de oligonucleótidos únicos inmovilizadas en el sustrato comprenden diferentes códigos de barras moleculares. A modo de ejemplo, los sustratos pueden incluir pocillos en placas de múltiples pocillos (por ejemplo, placas de 24, 48 y 96 pocillos), puntos en una matriz, perlas y similares. En algunas realizaciones, en cada sustrato se inmovilizan por lo menos 100 oligonucleótidos únicos. Opcionalmente, todas las especies de oligonucleótidos únicos inmovilizadas en un sustrato dado (y por tanto en el mismo conjunto) comprenden el mismo código de barras de muestra. En algunas realizaciones, cada código de barras de muestra tiene un contenido de G del 50% o menos, por ejemplo 50% o menos, 40% o menos, 25% o menos, 20% o menos, 12,5% o menos, 10% o menos, o 5% o menos.

En algunas realizaciones, los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%, por ejemplo menos del 12,5%, menos del 10%, menos del 7,5%, menos del 5%, menos del 2,5% o menos del 1%.

En algunas realizaciones, las regiones de código de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%, por ejemplo de no más del 12,5%, de no más del 10%, de no más del 7,5%, de no más del 5%, de no más del 2,5%, o de no más del 1%.

En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G. Por ejemplo, para por lo menos el 95%, 96%, 97%, 98%, 99%, 99,5%, 99,9%, o 99,99%, de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular puede ser no adyacente a otra G.

En algunas realizaciones, cada grupo consiste, o consiste esencialmente, en especies de oligonucleótidos únicos para las que cualquier G del código de barras molecular no es adyacente a otra G.

En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden una secuencia que suma por lo menos 6 H y N alternas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H y N alternas, incluyendo intervalos entre dos cualquiera de los valores enumerados. A modo de ejemplo, 6 H y N alternas pueden representarse como HNHNHN. Cabe señalar que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N.

En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HNHNHNHN, en la que cada "H" es una cualquiera de A, C, o T, y en la que cada "N" es una cualquiera de A, G, C, o T. Por ejemplo, por lo menos el 95%, 96%, 97,%, 98%, 99%, 99,5%, 99,9% o 99,99% de los códigos de barras moleculares de la especie de oligonucleótido único pueden comprender la secuencia HNHNHNHN. Se observa que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HNHNHNHN.

En algunas realizaciones, por lo menos el 99% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HHHHHHHH, en la que cada "H" es cualquiera de A, C o T. Por ejemplo, por lo menos el 95%, 96%, 97,%, 98%, 99%, 99,5%, 99,9% o 99,99% de los códigos de barras moleculares de la especie de oligonucleótido único pueden comprender la secuencia HHHHHHHH. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HHHHHHHH.

En algunas realizaciones, cada oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo. Opcionalmente, el espaciador puede comprender la secuencia HNH, en la que cada "H" es cualquiera de A, C, o T, y en la que cada "N" es cualquiera de A, G, C, o T. Opcionalmente, el espaciador puede comprender la secuencia HHH. Opcionalmente, el espaciador puede comprender la secuencia HNHNHNHN. Opcionalmente, el espaciador puede comprender la secuencia HHHHHHHH. Se observa que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N. En algunas realizaciones, cada oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HNHNHNHN, en la que cada "H" es cualquiera de A, C, o T, y en la que cada "N" es cualquiera de A, G, C, o T. En algunas realizaciones, el oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HHHHHHHH, en la que cada "H" es cualquiera de A, C o T.

En algunas realizaciones, por lo menos un grupo comprende por lo menos dos oligonucleótidos de la misma especie de oligonucleótido único. En algunas realizaciones, ningún grupo comprende dos oligonucleótidos de la misma especie de oligonucleótido único.

En algunas realizaciones, la región específica del objetivo puede comprender una secuencia para la amplificación de 5' a 3' de un ácido nucleico objetivo. En algunas realizaciones, la región específica del objetivo comprende una secuencia oligo dT. En algunas realizaciones, la región específica del objetivo comprende una secuencia que flanquea una secuencia que codifica una región variable de un receptor de células inmunitarias o inmunoglobulina.

En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras molecular es 3' del código de barras de la muestra. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras de la muestra es 3' del código de barras molecular.

En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de por lo menos 24 nucleótidos. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de 24-140 nucleótidos.

En algunas realizaciones, cada grupo comprende por lo menos 1000 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 65.000 especies de oligonucleótidos únicos.

En algunas realizaciones, por lo menos 48 muestras únicas se ponen en contacto cada una con un grupo diferente de especies de oligonucleótidos únicos. Por ejemplo, por lo menos 48, 72, 96, 120, 144, 168 o 192 muestras pueden ponerse en contacto con un grupo diferente. Por ejemplo, cada muestra puede ponerse en contacto con un grupo diferente de especies de oligonucleótidos únicos en un pocillo de una placa de múltiples pocillos.

En algunas realizaciones, por lo menos el 99% de las muestras no comprenden más de una célula cada una. Por ejemplo, por lo menos el 99%, 99,5%, 99,9% o 99,99% de las muestras pueden comprender no más de una célula. A modo de ejemplo, una solución que comprende múltiples células puede diluirse a una concentración adecuada de tal manera que haya una probabilidad adecuadamente alta de que cada muestra no comprenda más de una célula.

En algunas realizaciones, las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares sean los mismos para las especies de oligonucleótidos únicos inmovilizadas en cada sustrato. Como tal, cada grupo puede ser identificado por un código de barras de muestra particular. Cabe señalar que diferentes sustratos (y como tales, diferentes grupos) pueden asociarse con diferentes códigos de barras de la muestra. En algunas realizaciones, el sustrato comprende una región espacialmente aislada de una superficie, de tal manera que los sustratos de los diferentes grupos comprendan las diferentes regiones espacialmente aisladas de la superficie. En algunas realizaciones, el sustrato comprende un pocillo de una placa de múltiples pocillos. En algunas realizaciones, el sustrato comprende una perla.

En algunas realizaciones, la especie de oligonucleótido único comprende además un adaptador configurado para inmovilizar el oligonucleótido único en el sustrato, en donde dicha región de código de barras se encuentra 3' del adaptador. Opcionalmente, cada adaptador puede comprender un sitio de cebado universal, por ejemplo para su uso en secuenciación.

Métodos de elaboración de composiciones que comprenden especies de oligonucleótidos únicos

De acuerdo con algunas realizaciones de la presente, se describen métodos para elaborar una composición que comprende oligonucleótidos únicos. El método puede comprender proporcionar una pluralidad de diferentes códigos de barras de muestra como se describe en la presente. El método puede comprender proporcionar una pluralidad de códigos de barras moleculares diferentes como se describe en la presente. El método puede comprender sintetizar una pluralidad de especies de oligonucleótidos únicos como se describe en la presente, en donde cada especie de oligonucleótido único comprende una región de código de barras que comprende un código de barras de muestra y un código de barras molecular como se describe en la presente. El método puede comprender disponer la pluralidad de especies de oligonucleótidos únicos en grupos espacialmente aislados. Cada grupo puede comprender múltiples especies de oligonucleótidos únicos, de tal manera que las especies de oligonucleótidos únicos del mismo grupo comprendan la misma secuencia de código de barras de muestra, y de tal manera que diferentes especies de oligonucleótidos únicos del mismo grupo comprendan diferentes secuencias de código de barras molecular. Opcionalmente, las especies de oligonucleótidos únicos se disponen en los grupos espacialmente aislados concurrentemente con la síntesis. Opcionalmente, las especies de oligonucleótidos únicos se disponen en los grupos espacialmente aislados después de la síntesis. Opcionalmente, la composición consiste esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos del 50%. Opcionalmente, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. Opcionalmente, la composición consiste esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos de 50 y los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, cada grupo aislado espacialmente comprende por lo menos 100 especies de oligonucleótidos únicos, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 5000, 6500 o 65.000 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo aislado espacialmente comprende por lo menos 1000 especies de oligonucleótidos únicos.

Los oligonucleótidos únicos pueden sintetizarse usando cualquiera de los métodos adecuados. En algunas realizaciones, las secuencias de códigos de barras de la muestra y las secuencias de códigos de barras moleculares se generan in silico, y se sintetizan especies de oligonucleótidos únicos que comprenden las secuencias de códigos de barras de la muestra y las secuencias de códigos de barras molecular juntas, por ejemplo usando síntesis química de oligonucleótidos. En algunas realizaciones, una pluralidad de oligonucleótidos que comprenden la misma secuencia de código de barras de muestra se agrupan en aislamiento espacial, y se unen con una pluralidad de oligonucleótidos que comprenden códigos de barras moleculares, por ejemplo mediante hibridación y extensión, o mediante ligadura. Tal enfoque puede realizarse en múltiples entornos espacialmente aislados en paralelo, o secuencialmente, para conseguir múltiples especies de oligonucleótidos únicos.

Opcionalmente, cada especie de oligonucleótido único comprende además una región uniforme 3' de la región del código de barras, como se describe en la presente. Opcionalmente, la región uniforme comprende una región específica del objetivo. En algunas realizaciones, la región específica de objetivo comprende por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo (por ejemplo, por lo menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, o 30 nucleótidos complementarios al objetivo, incluyendo intervalos entre dos cualquiera de los valores enumerados), y está configurada para la amplificación de 5' a 3' de la secuencia de ácidos nucleicos objetivo. Opcionalmente, la región uniforme comprende una secuencia oligo dT.

En algunas realizaciones, la pluralidad de códigos de barras moleculares (y como tal, la pluralidad de especies de oligonucleótidos únicos) consiste esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de no más del 50% como se describe en la presente, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G. En algunas realizaciones, todos los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen códigos de barras moleculares que tienen un contenido de G de no más del 50% como se describe en la presente. En algunas realizaciones, todos los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen códigos de barras moleculares que tienen un contenido de G de no más del 50% como se describe en la presente, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G de contenido. En algunas realizaciones, cada código de barras molecular de cada especie de oligonucleótido único tiene un contenido de G de no más del 50%, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G.

En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos en la pluralidad de especies de oligonucleótidos únicos tienen colectivamente un contenido G de menos del 12,5% G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.

En algunas realizaciones, cada código de barras de muestra tiene un contenido de G del 50% o menos, como se describe en la presente, por ejemplo, menos del 50%, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G de contenido, o 0% de G de contenido.

En algunas realizaciones, los códigos de barras de muestra de todas las especies de oligonucleótidos únicos en la pluralidad de especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más de 50% de G, por ejemplo, menos del 50%, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, los códigos de barras de muestra de todas las especies de oligonucleótidos únicos de la pluralidad de especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%.

En algunas realizaciones, para por lo menos el 95% (por ejemplo, por lo menos el 95%, 96%, 97%, 98%, 99%, 99,5%, 99,9% o 99,99%) de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G. En algunas realizaciones, la pluralidad de especies de oligonucleótidos únicos consiste esencialmente en especies de oligonucleótidos únicos para las que cualquier G en el código de barras molecular no es adyacente a otra G.

En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HNHNHNHN, en la que cada "H" es cualquiera de A, C, o T, y en la que cada "N" es cualquiera de A, G, C, o T. Por ejemplo, por lo menos el 95%, 96%, 97%, 98%, 99%, 99,5%, 99,9% o 99,99% de los códigos de barras moleculares de la especie de oligonucleótido único pueden comprender la secuencia HNHNHNHN. Se observa que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HNHNHNHN.

En algunas realizaciones, por lo menos el 99% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden códigos de barras moleculares que comprenden la secuencia HHHHHHHH, en la que cada "H" es cualquiera de A, C o T. Por ejemplo, por lo menos el 95%, 96%, 97%, 98%, 99%, 99,5%, 99,9% o 99,99% de los códigos de barras moleculares de la especie de oligonucleótido único pueden comprender la secuencia HHHHHHHH. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HHHHHHHH.

En algunas realizaciones, cada especie de oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo. Opcionalmente, el espaciador puede comprender la secuencia HNH, en la que cada "H" es cualquiera de A, C, o T, y en la que cada "N" es cualquiera de A, G, C, o T. Opcionalmente, el espaciador puede comprender la secuencia HHH. Opcionalmente, el espaciador puede comprender la secuencia HNHNHNHN. Opcionalmente, el espaciador puede comprender la secuencia HHHHHHHH. Cabe señalar que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N. En algunas realizaciones, cada especie de oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprende la secuencia HNHNHNHN, en la que cada "H" es cualquiera de A, C o T, y en la que cada "N" es cualquiera de A, G, C o T. En algunas realizaciones, el oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, el espaciador comprendiendo la secuencia HHHHHHHH, en la que cada "H" es cualquiera de A, C o T.

En algunas realizaciones, cada grupo comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 65.000 especies de oligonucleótidos únicos.

En algunas realizaciones, el método comprende además inmovilizar las especies de oligonucleótidos únicos de cada grupo espacialmente diferenciado en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares sean los mismos para las especies de oligonucleótidos únicos inmovilizadas en cada sustrato. Como tal, cada grupo puede ser identificado por un código de barras de muestra particular. Cabe señalar que diferentes sustratos (y como tales, diferentes grupos) pueden asociarse con diferentes códigos de barras de la muestra. En algunas realizaciones, el sustrato comprende una región discreta de una superficie, de tal manera que los sustratos de los diferentes grupos comprenden las diferentes regiones discretas de la superficie. En algunas realizaciones, el sustrato comprende un pocillo de una placa de múltiples pocillos. En algunas realizaciones, el sustrato comprende una perla. En algunas realizaciones, las especies de oligonucleótidos únicos se inmovilizan en el sustrato mediante un enlace covalente. En algunas realizaciones, las especies de oligonucleótidos únicos se inmovilizan en el sustrato mediante una fuerza magnética o electromagnética. En algunas realizaciones, las especies de oligonucleótidos únicos se incrustan en el sustrato, para inmovilizarlos en el sustrato.

En algunas realizaciones, se hacen por lo menos 48 grupos espacialmente distintos, por ejemplo por lo menos 48, 72, 96, 120, 144, 168 o 192 grupos espacialmente distintos.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados simultáneamente con dicha síntesis. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados después de dicha síntesis.

Oligonucleótidos

Fuera del alcance de la invención, se describe un oligonucleótido que comprende una región de código de barras 3' de la región adaptadora. La región de código de barras puede comprender un código de barras molecular como se describe en la presente, en la que el código de barras molecular tiene un contenido de G de no más del 50%. El código de barras molecular puede comprender por lo menos 7 nucleótidos.

En algunas realizaciones, el oligonucleótido comprende además un código de barras de muestra como se describe en la presente. El código de barras de la muestra puede comprender por lo menos 3 nucleótidos.

En algunas realizaciones, el oligonucleótido comprende además una región uniforme 3' de la región del código de barras. En algunas realizaciones, la región uniforme comprende una región específica de objetivo que comprende por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo como se describe en la presente. En algunas realizaciones, la región uniforme comprende una secuencia oligo dT. En algunas realizaciones, el oligonucleótido comprende además una región adaptadora 5' de la región del código de barras. En algunas realizaciones, el oligonucleótido comprende además un espaciador 3' de la región del código de barras y 5' de la región uniforme como se describe en la presente.

Realizaciones alternativas

Se proporcionan diseños para un código de barras preciso y sin sesgo de transcritos de ácidos nucleicos. Estos diseños de cebadores se componen de secuencias de ácidos nucleicos (ADN, ARN o LNA) que pueden dirigirse a transcritos específicos de ácido nucleico (ADN/ARN) a través de un enfoque gen-específico, o dirigirse a un gran conjunto de transcritos de ácidos nucleicos (por ejemplo, a través de la cola poli-A de los ARN mensajeros u otras secuencias consenso) (FIGS. 1A-C). Junto con las secuencias objetivo, estos cebadores incluyen dos categorías de códigos de barras de ácido nucleico: 1) códigos de barras moleculares, también llamados "códigos de barras moleculares", Índice Molecular (MI) o Identificador Molecular Único (UMI) y 2) códigos de barras de muestra, también llamados Índice de Muestra (SI) (FIGS. 1A-C). Los códigos de barras MI y SI se usan para marcar de manera única para la identificación de su transcripción objetivo original a través del MI, y su origen de muestra (SI) después de la preparación de la biblioteca para la secuenciación de próxima generación u otros métodos de lectura de secuencias y lectura de códigos de barras. Algunas realizaciones detallan diferentes disposiciones de MI y SI dentro del cebador que garantizan el marcado sin sesgos y aleatorio de los códigos de barras a los transcritos objetivo para la realización de perfiles precisa de la expresión génica (ver, por ejemplo, las FIGS. 3A-3H) (ver Fu et al. 2011 PNAS 108: 9026 9032).

En algunas realizaciones, los diseños de cebadores únicos que pueden reducir el "sesgo de código de barras", que es un fenómeno que se observa en los diseños del estado de la técnica, por lo que con códigos de barras con alto contenido de nucleótidos G se usa más a menudo en comparación con otras composiciones de códigos de barras (FIG. 4). En ciertos casos en los que se usan cebadores convencionales para dirigir y marcar transcritos de ARNm usando una secuencia específica de gen, se observan preferiblemente IM con un alto % de contenido de G y múltiples G (FIG. 4). Además, sin estar limitado por ninguna teoría, en los diseños convencionales, los SI asociados con genes no objetivo observan pequeñas cantidades de errores de PCR debido a que estos cebadores reaccionan de manera cruzada durante una PCR multiplex de muestra (FIGS. 4- 5). Estos eventos de reacción cruzada se producen a menudo con cebadores con un alto % de contenido de G y múltiples G, posiblemente debido a una estructura secundaria única llamada "G-Quaduplexes" en oligonucleótidos ricos en G. Debido a que estos cebadores MI/SI ricos en G pueden formar complejos inter e intramoleculares entre sí, los pasos convencionales de limpieza del ADN para eliminar los cebadores (por ejemplo, perlas Ampure XP) pueden no ser suficientes. Para minimizar que se produzcan estos eventos, esta invención conlleva proporcionar varios diseños que reducen el contenido de G de los cebadores para minimizar el "sesgo de código de barras" y el cruce de cebadores (FIGS. 3A-3H).

Las FIGS. 3A-3H muestran el diseño del código de barras del estado de la técnica (FIG. 3A) y los diseños novedosos para minimizar el sesgo como se describe (FIGS. 3B-H). En la FIG. 3A , el diseño convencional permite la composición MI de 'BBBBBBV' o 'NNNNNNNN' (B es C, G, o T; V es A, C, o G; N es A, T, G, o C). Un subconjunto del código de barras de MI del diseño anterior sería rico en G. En el panel 3B-C, adición de TTT o TTTTT después del MI para reducir la riqueza en G a lo largo de la región (la longitud de los espaciadores no G puede ser variable, y puede ser cualquier nucleótido no G). En la FIG. 3D, se intercambian las posiciones de SI y MI, de tal manera que las MI ricas en G no sean adyacentes a regiones objetivo potencialmente ricas en G. En las FIGA. 3E-F, se añade TTT o TTTTT al diseño de la FIG. 3D para reducir aún más las regiones ricas en G (observar que las SI no son ricas en G, y la longitud de los espaciadores no G puede ser variable y puede ser cualquier nucleótido no G). En los diseños de las FIGS. 3G- H, los MI están diseñados para no ser ricos en G mediante el uso de 'HHHHHHHH' o 'HNHNHNHN,' donde H es A, C o T.

Los inconvenientes ricos en G de los diseños convencionales se observan en el método que usa orientación específica de genes. Algunas realizaciones incluyen el uso de los nuevos diseños de cebadores en paneles de objetivos específicos de genes, como receptores de células T (TCR), donde los cebadores se usan para dirigirse a secuencias específicas de TCR. Los diseños de acuerdo con algunas realizaciones de la presente pueden aliviar el cruce de códigos de barras SI, reduciendo de este modo el "ruido" de un ensayo de codificación con códigos de barras molecular de TCR.

Ejemplo 1: Análisis preciso de los ácidos nucleicos objetivo de la muestra usando especies de oligonucleótidos únicos

Se diseñaron 96 formatos de especies de oligonucleótidos únicos, cuyas secuencias se resumen en las FIGS.

5A-5E (SEQ ID NO: 1-96). Los formatos de especies de oligonucleótidos únicos A01-A12 (SEQ ID NO: 1-12) se proporcionaron como controles, en los que el código de barras molecular ("2° be") era NNNNNNNNN. Como tales, los códigos de barras moleculares de estas especies de oligonucleótidos únicos de control no tenían ninguna restricción o límite en el contenido de G. Los formatos de especies de oligonucleótidos únicos B01-B12 (SEQ ID NO: 13-24) comprendían un espaciador de la secuencia TTT 3' del código de barras molecular ("2° be") y 5' de la región uniforme ("secuencia de reconocimiento 5 a 3' "). Los formatos de especies de oligonucleótidos únicos C01-C12 (SEQ ID NO: 25-36) comprendían un espaciador de la secuencia TTTTT 3' del código de barras molecular ("2° be") y 5' de la región uniforme ("secuencia de reconocimiento 5 a 3' "). Los formatos de especies de oligonucleótidos únicos D01-D12 (SEQ ID NO: 37-48) comprendían un código de barras molecular ("1° be") 5' del código de barras de la muestra ("2° bc"). Los formatos de especies de oligonucleótidos únicos E01-E12 (SEQ ID NO: 49-60) comprendían una molécula de código de barras ("1° be") 5' del código de barras de la muestra ("2° be") y un espaciador de la secuencia TTT 3' de la región del código de barras y 4' de la región uniforme. Los formatos de especies de oligonucleótidos únicos F01-F12 (SEQ ID NO: 61-72) comprendían un código de barras molecular ("1° be") 5' del código de barras de muestra ("2° be") y un espaciador de la secuencia TTTTT 3' de la región del código de barras y 4' de la región uniforme. Los formatos de especies de oligonucleótidos únicos G01-G12 (SEQ ID NO: 73-84) comprendían códigos de barras moleculares ("2° be") cada uno de los cuales comprendiendo la secuencia HHHHHHHH (en la que cada "H" es una A, C o T, y en la que dos nucleótidos "H" cualquiera pueden ser iguales o diferentes). Los formatos de especies de oligonucleótidos únicos H01-H12 (SEQ ID NO: 85-96) comprendían códigos de barras moleculares ("2° be") cada uno de los cuales comprendiendo la secuencia HNHNHNHN (en la que cada "H" es una A, C o T, y en la que dos nucleótidos "H" cualquiera pueden ser iguales o diferentes, y en la que cada "N" puede ser A, G, C o T, y en la que dos nucleótidos "N" cualquiera pueden ser iguales o diferentes).

La amplificación y el análisis de las secuencias de ácidos nucleicos del receptor de células T objetivo se realizaron de la siguiente manera: se descongeló la placa de codificación de TCR Precise™ (BD Cellular Research Inc.) a temperatura ambiente y se hizo girar brevemente para recoger los 5μl de reactivos en cada pocillo. La placa se colocó en hielo en un estante de 96 pocillos y se retiró el precinto con mucho cuidado, evitando alterar los reactivos de los pocillos. Las células se clasificaron o se añadieron directamente en la placa de codificación de 96 pocillos (1 célula por pocillo). La placa se selló y se agitó en vórtice brevemente (5-10 s) para mezclar los reactivos y, a continuación, se centrifugó brevemente (~1000 rpm x 10 s). Las placas de muestras clasificadas pueden almacenarse opcionalmente a -80° C hasta que estén listas para iniciar el protocolo Precise™. Para la transcripción inversa, la placa se incubó a 65° C durante 3 minutos, se enfrió a 4° C y se colocó en hielo durante 5 minutos. La mezcla maestra de reacción fue la siguiente:

T l 1

Se pipetearon 5 ul de RT MM en cada pocillo. Se selló cada placa y se ejecutó un programa de transcriptasa inversa: 42° C, 30 min; 80C, 5 min; pausa de 4C.

La purificación del ADNc se realizó usando el siguiente protocolo: Hacer girar la placa (1000 rpm x 10 s). Combinar todas las reacciones en un único tubo de 2 ml. Añadir 8ul de Precise DBP Mix en el tubo de ADNc combinado. Agitar con vórtice suavemente para que el tampón entre en la solución. Añadir un volumen equivalente de microesferas AMPure XP al tubo que contiene el producto de la reacción de RT combinada (volumen 1X del producto de la PCR agrupada). Pipetear arriba y abajo para mezclar la muestra y las perlas. Incubar la mezcla de perlas a temperatura ambiente durante 5 minutos. Abrir el tapón para asegurarse de que no se alteran las perlas. Colocar el tubo sobre un imán y esperar hasta que el líquido y las perlas se separen. El líquido debe ser totalmente transparente antes de retirarlo. Esto puede tardar hasta 5 min. Mantener el tubo sobre el imán, retirar cuidadosamente sólo el líquido y desecharlo. Mantener el tubo en el soporte magnético, enjuagar suavemente las perlas una vez con 2 ml de EtOH al 70%/H₂O al 30%. Preparar una solución de EtOH fresca cada día para evitar la evaporación. Se debe tener cuidado de no perturbar ni volver a suspender las perlas durante el paso de enjuague. Eliminar inmediatamente toda la solución de EtOH residual con una pipeta. Mientras el tubo está sobre el imán, dar golpecitos para recoger la mayor cantidad posible de EtOH en el fondo del tubo. Para eluir el producto de las perlas, retirar el tubo del imán. Transferir 68 μl de tampón de elución al tubo que contiene las perlas. Humedecer las perlas con el tampón de elución inclinando el tubo. Agitar en vórtice bien para mezclar y esperar 1 minuto. Volver a colocar el tubo en el imán. Esperar hasta que la solución se aclare, normalmente <5 min. Recuperar la solución purificada del producto de la PCR pipeteando con cuidado la solución para separarla de las perlas. Transferir el producto líquido transparente (68 μl) a un nuevo tubo de 1,5 ml.

La amplificación por PCR N1 (amplificación objetivo) se realizó usando el siguiente protocolo: Preparar la mezcla de PCR (200ul) en la zona de preamplificación de acuerdo con la Tabla 2:

Dividir esta mezcla de reacción de 200ul en 4 tubos de PCR. Ejecutar 20 ciclos de las siguientes condiciones de PCR: 3 minutos de apareamiento a 60C, 1 minuto de extensión a 68C (aproximadamente 2 horas). Combinar todos los productos de PCR en un tubo de muestra. Añadir 160ul de perlas Ampure (0.8X), mezclar bien con una pipeta e incubar durante 5 minutos a TA. Colocar el tubo sobre un imán y esperar hasta que el líquido y las perlas se separen. El líquido debe ser totalmente transparente antes de retirarlo. Esto puede tardar hasta 5 min. Retirar sólo el líquido y descartarlo. Enjuagar suavemente el tubo una vez mientras está en el soporte magnético con 1 ml de EtOH al 70%/H₂O al 30%. No volver a suspender las perlas durante el paso de enjuague. Eliminar inmediatamente todo el EtOH residual con una pipeta. Mientras el tubo está sobre el imán, dar golpecitos para recoger la mayor cantidad posible de EtOH en el fondo del tubo. Eluir el producto de la PCR en 50ul de tampón de elución.

La amplificación PCR N1 (PCR de adaptador e indexación) se realizó siguiendo el siguiente protocolo: Preparar la mezcla PCR (50ul) de acuerdo con la Tabla 3:

T l

Ejecutar 25 ciclos de las siguientes condiciones de PCR: 3 minutos de apareamiento a 60C, 1 minuto de tiempo de extensión a 68C. Purificar a 0.8X Ampure dos veces, eluir en 30 ul de tampón de elución.

La FIG. 6 muestra la corrección de errores para la media de resultados de secuencias (por TCRa CDR3 individual). En la FIG. 6 , el eje Y representa el número de códigos de barras moleculares diferentes detectados para TCRa.

Los resultados se muestran para reacciones con 50 μg de ARN objetivo (denotado como "50" en la FIG. 6 , por ejemplo, A50, B50, C50, D50, E50, F50, G50) y controles negativos que recibieron 0 μg de ARN objetivo (denotado como "0" en la FIG. 6 , por ejemplo, A0, B0, C0, ^d0, E0, F0, G0). Como tal, 0 μg sirve como control negativo y detector del ruido del ensayo que se filtra de la muestra de 50 μg. Para las reacciones que recibieron ARN objetivo, los diseños de oligonucleótidos únicos de acuerdo con algunas realizaciones de la presente B01-B12 ("B50"), C01-C12 ("C50"), D01-D12 ("D50"), E01-E12 ("E50"), F01-F12 ("F50"), G01-G12 ("G50") y H01-H12 ("H50") tuvieron tasas de error más bajas que los formatos convencionales A01-A12 ("A50"). En particular, para el TRAC en este experimento, el formato "H" tuvo la mayor sensibilidad con bajo ruido y funcionó mejor que los cebadores originales con código de barras (A).

Por tanto, las composiciones que comprenden especies de oligonucleótidos únicos que comprenden regiones de código de barras, y códigos de barras moleculares que tienen un contenido de G relativamente bajo, y/o oligonucleótidos únicos que comprenden un espaciador 3' del código de barras molecular y 5' de la región uniforme, como se describe en la presente, produjeron una amplificación con una tasa de error más baja, y por tanto una mayor precisión que las composiciones que comprenden especies generales de polinucleótidos que no comprendían tales características.

Aunque en la presente se divulgan varios aspectos y realizaciones, otros aspectos y realizaciones resultarán evidentes para los expertos en la técnica. Los varios aspectos y realizaciones divulgados en la presente tienen propósitos ilustrativos y no se pretende que sean limitativos; el verdadero alcance se indica en las reivindicaciones siguientes.

Un experto en la técnica apreciará que, para este y otros procesos y métodos divulgados en la presente, las funciones realizadas en los procesos y métodos pueden implementarse en orden diferente. Además, los pasos y operaciones descritos solo se proporcionan a modo de ejemplo, y algunos de los pasos y operaciones pueden ser opcionales, combinarse en menos pasos y operaciones, o ampliarse en pasos y operaciones adicionales sin desvirtuar la esencia de las realizaciones divulgadas.

Con respecto al uso de sustancialmente cualquier término en plural y/o singular en la presente, los expertos en la técnica pueden traducir del plural al singular y/o del singular al plural según sea apropiado para e contexto y/o aplicación. En la presente pueden exponerse expresamente las varias permutaciones del singular/plural en aras de la claridad.

Los expertos en la técnica entenderán que, en general, los términos usados en la presente, y especialmente en las reivindicaciones adjuntas (por ejemplo, los cuerpos de las reivindicaciones adjuntas) se entienden como términos "abiertos" (por ejemplo, el término "que incluye" debe interpretarse como "que incluye pero sin limitarse a", el término "que tiene" debe interpretarse como "que tiene por lo menos", el término "incluye" debe interpretarse como "incluye pero sin limitarse a", etc.). Los expertos en la técnica entenderán además que si se pretende un número específico de una reivindicación introducida, tal intención se enunciará explícitamente en la reivindicación, y en ausencia de tal enunciado no existe tal intención. Por ejemplo, como ayuda para la comprensión, las siguientes reivindicaciones adjuntas pueden contener el uso de las frases introductorias "por lo menos uno" y "uno o más" para introducir las enumeraciones de las reivindicaciones. Sin embargo, el uso de tales frases no debe interpretarse en el sentido de que la introducción de un enunciado de reivindicación mediante los artículos indefinidos "un" o "uno" limita cualquier reivindicación particular que contenga dicho enunciado de reivindicación introducido a realizaciones que contengan solo uno de dichos enunciados, incluso cuando la misma reivindicación incluya las frases introductorias "uno o más" o "por lo menos uno" y artículos indefinidos como "un" o "uno" (por ejemplo, "un" y/o "uno" deben interpretarse en el sentido de "por lo menos uno" o "uno o más"); lo mismo ocurre con el uso de artículos definidos usados para introducir las reivindicaciones. Además, incluso si se recita explícitamente un número específico de un enunciado de reivindicación introducida, los expertos en la técnica reconocerán que dicho enunciado debe interpretarse en el sentido de que significa por lo menos el número enunciado (por ejemplo, la simple enumeración de "dos enunciados", sin otros modificadores, significa por lo menos dos enunciados, o dos o más enunciados). Además, en aquellos casos en los que se usa una convención análoga a "por lo menos uno de A, B y C, etc.", en general dicha construcción se entiende en el sentido en el que un experto en la técnica entendería la convención (por ejemplo, "un sistema que tenga por lo menos uno de A, B y C" incluiría, entre otros, sistemas que tengan A solo, B solo, C solo, A y B juntos, A y C juntos, B y C juntos, y/o A, B y C juntos, etc.). En aquellos casos en los que se usa una convención análoga a "por lo menos uno de A, B o C, etc.", en general dicha construcción se entiende en el sentido en el que un experto en la técnica entendería la convención (por ejemplo, "un sistema que tiene por lo menos uno de A, B o C" incluiría, pero no se limitaría a, sistemas que tienen A solo, B solo, C solo, A y B juntos, A y C juntos, B y C juntos, y/o A, B y C juntos, etc.). Los expertos en la técnica entenderán que prácticamente cualquier palabra y/o frase disyuntiva que presente dos o más términos alternativos, ya sea en la descripción, las reivindicaciones o los dibujos, debe entenderse que contempla las posibilidades de incluir uno de los términos, cualquiera de los términos, o ambos términos. Por ejemplo, se entenderá que la frase "A o B" incluye las posibilidades de "A" o "B" o "A y B".

Además, cuando las características o aspectos de la divulgación se describen en términos de grupos de Markush, los expertos en la técnica reconocerán que la divulgación también se describe en términos de cualquier miembro individual o subgrupo de miembros del grupo de Markush.

Como comprenderá un experto en la técnica, para todos y cada uno de los propósitos, como por ejemplo para proporcionar una descripción escrita, todos los intervalos divulgados en la presente abarcan también todos y cada uno de los posibles subintervalos y combinaciones de subintervalos de los mismos. Cualquier intervalo enumerado puede reconocerse fácilmente como suficientemente descriptivo y permite descomponer el mismo intervalo en mitades, tercios, cuartos, quintos, décimos, etc., por lo menos iguales. A modo de ejemplo no limitativo, cada intervalo descrito en la presente puede dividirse fácilmente en un tercio inferior, un tercio medio y un tercio superior, etc. Como también comprenderá un experto en la técnica, todos los términos como "hasta", "por lo menos" y similares incluyen el número mencionado y se refieren a intervalos que pueden dividirse posteriormente en subintervalos, como se ha analizado anteriormente. Por último, como comprenderá un experto en la técnica, un intervalo incluye a cada miembro individual. Así, por ejemplo, un grupo que tiene 1-3 células se refiere a grupos que tienen 1, 2 o 3 células. De manera similar, un grupo que tiene 1-5 células se refiere a grupos que tienen 1, 2, 3, 4, o 5 células, y demás.

Claims

REIVINDICACIONES

1. Una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos, cada especie de oligonucleótido único comprendiendo una región de código de barras y una región uniforme, la región de código de barras comprendiendo un código de barras molecular que comprende por lo menos 7 nucleótidos,

en donde la región uniforme está 3' de la región del código de barras, la región uniforme comprendiendo una región específica de objetivo 3' de la región del código de barras, la región específica de objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo,

en donde las especies de oligonucleótidos únicos comprenden diferentes secuencias de ácidos nucleicos en sus regiones de código de barras, y

en donde:

(a) la composición consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%; y/o

(b) los códigos de barras moleculares de todas las especies de oligonucleótidos únicos en la composición tienen colectivamente un contenido de G de no más del 12,5%,

en donde la región del código de barras comprende además un código de barras de la muestra que comprende por lo menos 3 nucleótidos.

2. La composición de la reivindicación 1, en donde la composición consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%.

3. La composición de la reivindicación 1 o 2, en donde los códigos de barras moleculares de todas las especies de oligonucleótidos únicos de la composición tienen colectivamente un contenido de G de no más del 12,5%.

4. La composición de cualquiera de las reivindicaciones 1-3, en donde los códigos de barras moleculares de todas las especies de oligonucleótidos únicos en la composición tienen colectivamente un contenido de G del 2,5%-12,5%, por ejemplo 2,5%-10%.

5. La composición de cualquiera de las reivindicaciones 1-4, en donde las especies de oligonucleótidos únicos están dispuestas en por lo menos dos grupos espacialmente aislados, cada grupo comprendiendo por lo menos 100 oligonucleótidos únicos de las especies de oligonucleótidos únicos,

en donde los oligonucleótidos únicos del mismo grupo comprenden la misma secuencia de código de barras de muestra, y

en donde diferentes oligonucleótidos únicos del mismo grupo comprenden secuencias de código de barras moleculares diferentes.

6. La composición cualquiera de las reivindicaciones 1-5, en donde para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G.

7. La composición de cualquiera de las reivindicaciones 1-6, en donde la región específica objetivo comprende una secuencia oligo dT.

8. La composición de cualquiera de las reivindicaciones 1-7, en donde la composición comprende por lo menos 6.500 especies de oligonucleótidos únicos.

9. La composición de cualquiera de las reivindicaciones 5-8, en donde las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato, de tal manera que los códigos de barras de muestra pero no los códigos de barras moleculares son los mismos para las especies de oligonucleótidos inmovilizadas en cada sustrato.

10. La composición de cualquiera de las reivindicaciones 1-9, en donde la región específica del objetivo comprende una secuencia que flanquea un receptor de células inmunitarias o una secuencia codificante de región variable de inmunoglobulina.

11. Un método de codificar con códigos de barras específico de una pluralidad de ácidos nucleicos de dos o más muestras, cada muestra comprendiendo ácidos nucleicos, que comprende:

poner en contacto cada muestra con un grupo que comprende por lo menos 100 especies de oligonucleótidos únicos, en donde cada muestra se pone en contacto en aislamiento espacial de las otras muestras,

cada especie de oligonucleótido único comprendiendo una región de código de barras que comprende:

un código de barras molecular que comprenda por lo menos 7 nucleótidos;

un código de barras la muestra que comprende por lo menos 3 nucleótidos; y

una región uniforme 3' de la región del código de barras, la región uniforme comprendiendo una región específica de objetivo 3' de la región del código de barras, la región específica de objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo,

en donde las especies de polinucleótidos únicas de cada grupo comprenden el mismo código de barras de muestra y comprenden diferentes códigos de barras moleculares, y

en donde:

(a) las especies de oligonucleótidos únicos en contacto con la muestra consisten esencialmente en especies de oligonucleótidos únicos en donde cada molécula de código de barras tiene un contenido de G de menos del 50%; y/o

(b) los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%;

hibridar las regiones específicas del objetivo de por lo menos algunos oligonucleótidos de la especie de oligonucleótido único con por lo menos algunos de los ácidos nucleicos de la muestra; y

extender los oligonucleótidos hibridados, produciendo de este modo cadenas que comprenden un oligonucleótido de la especie de oligonucleótido único y una secuencia complementaria al objetivo, en donde para cada muestra, las cadenas comprenden el mismo código de barras de la muestra y diferentes códigos de barras moleculares, y en donde para diferentes muestras, los códigos de barras moleculares son diferentes.

12. El método de la reivindicación 11, en donde los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%.

13. El método de cualquiera de las reivindicaciones 11-12, en donde las por lo menos 100 especies de oligonucleótidos únicos de cada grupo se inmovilizan sobre un sustrato, de tal manera que las especies de oligonucleótidos únicos inmovilizadas sobre un sustrato dado comprenden el mismo código de barras de muestra, y diferentes especies de oligonucleótidos únicos inmovilizadas sobre el sustrato comprenden diferentes códigos de barras moleculares.

14. Un método para elaborar una composición que comprende oligonucleótidos únicos, el método comprendiendo:

proporcionar una pluralidad de códigos de barras de muestra diferentes que comprenden por lo menos 3 nucleótidos cada uno,

proporcionar una pluralidad de códigos de barras moleculares diferentes que comprenden por lo menos 7 nucleótidos cada una;

sintetizar una pluralidad de especies de oligonucleótidos únicos, cada especie de oligonucleótido único comprendiendo una región de código de barras que comprende:

un código de barras de muestra y un código de barras molecular; y

una región uniforme 3' de la región del código de barras, la región uniforme comprendiendo una región específica del objetivo 3' de la región del código de barras, la región específica del objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo; y

disponer las especies de oligonucleótidos únicos en grupos espacialmente aislados, en donde cada grupo comprende múltiples especies de oligonucleótidos únicos, de tal manera que las especies de oligonucleótidos únicos del mismo grupo comprenden la misma secuencia de código de barras de muestra, y en donde diferentes especies de oligonucleótidos únicos del mismo grupo comprenden diferentes secuencias de código de barras molecular,

en donde cada grupo comprende por lo menos 1000 especies de oligonucleótidos únicos,

en donde para cada grupo:

(a) las especies de oligonucleótidos únicos consisten esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos del 50%; y/o

(b) los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%.

15. Un kit que comprende:

una composición de cualquiera de las reivindicaciones 1-9, en donde la región específica del objetivo comprende una secuencia que flanquea un receptor de células inmunitarias o una secuencia codificante de región variable de inmunoglobulina; y

un cebador configurado para hibridar en un lado opuesto de la región variable como la región específica del objetivo, y para hibridar con una cadena complementaria con una cadena hibridada por la región específica del objetivo, y por lo tanto está configurado para amplificar la región variable junto con la región específica del objetivo.