ES2956757T3

ES2956757T3 - Accurate molecular barcode coding

Info

Publication number: ES2956757T3
Application number: ES17735675T
Authority: ES
Inventors: Eleen Shum; Glenn Fu
Original assignee: Becton Dickinson and Co
Current assignee: Becton Dickinson and Co
Priority date: 2016-05-02
Filing date: 2017-04-28
Publication date: 2023-12-27
Anticipated expiration: 2037-04-28
Also published as: AU2023202747B2; EP4269616A2; JP7607614B2; EP4269616A3; AU2023202747A1; AU2017261189B2; EP3452614A1; CA3019589A1; WO2017192387A1; JP7129343B2; JP2022153390A; AU2017261189A1; CN109072288A; US10822643B2; US20170314067A1; USRE50636E1; JP2019520046A; EP3452614B1

Abstract

De acuerdo con algunas realizaciones en el presente documento, se describen composiciones y métodos para códigos de barras precisos de ácidos nucleicos. Las composiciones y métodos implican una pluralidad de especies de oligonucleótidos únicas que comprenden códigos de barras de moléculas únicas. Los códigos de barras moleculares tienen un contenido de G (guanina) relativamente bajo, por ejemplo, cada uno de los códigos de barras contiene menos del 50% de guanina o el conjunto total de códigos de barras contiene en promedio menos del 12,5% de guanina. El conjunto de códigos de barras está destinado a mostrar un sesgo reducido en la amplificación y el análisis. (Traducción automática con Google Translate, sin valor legal)According to some embodiments herein, compositions and methods for accurate barcoding of nucleic acids are described. The compositions and methods involve a plurality of unique oligonucleotide species comprising unique molecular barcodes. Molecular barcodes have a relatively low G (guanine) content, for example, each of the barcodes contains less than 50% guanine or the total set of barcodes contains on average less than 12.5% of guanine. The barcode array is intended to show reduced bias in amplification and analysis. (Automatic translation with Google Translate, without legal value)

Description

DESCRIPCIÓNDESCRIPTION

Codificación con códigos de barras moleculares precisaAccurate molecular barcode coding

CAMPOFIELD

Las realizaciones de la presente se refieren de manera general a composiciones y métodos para la codificación con código de barras precisa de moléculas, por ejemplo moléculas de ácidos nucleicos.Embodiments herein generally relate to compositions and methods for precise barcoding of molecules, for example nucleic acid molecules.

La WO02059355 describe una familia de secuencias de nucleótidos de hibridación cruzada mínima y métodos de uso. En particular, se describe una familia específica de 1168 24mers. La WO2015031691 describe métodos, composiciones y kits para el análisis multiplex de ácidos nucleicos de células individuales. Los métodos, composiciones y sistemas pueden usarse para la secuenciación masiva paralela de células individuales. La US2010159533 describe métodos y kits para la preparación selectiva de ADNc relativamente libre de secuencias que se encuentran en el ARNr y los ARN subcelulares. Los métodos y kits utilizan aproximadamente 200 secuencias de hexámeros que se dirigen al ARN mensajero. BUSCHMANN T et al. (BMC BIOINFORMATICS, 2014, vol. 15(1):264) describe la mejora de la detección de lecturas con código de barras en datos de secuenciación de ADN de alto rendimiento mediante el control de la tasa de falsos descubrimientos. La WO2016138500 describe métodos y composiciones para marcar un ácido nucleico en una muestra con un código de barras estocástico usando un oligonucleótido extensible con un sitio de cebado universal y una región específica del objetivo. Algunas realizaciones se refieren a métodos y composiciones para caracterizar una muestra identificando la cadena alfa o la cadena beta del TCR de una célula T. La WO2015134787 describe métodos para la corrección del sesgo de amplificación y la cuantificación de células inmunitarias adaptativas en una muestra usando plantillas sintéticas que incluyen secuencias de oligonucleótidos aleatorias.WO02059355 describes a family of minimally cross-hybridizing nucleotide sequences and methods of their use. In particular, a specific family of 1168 24mers is described. WO2015031691 describes methods, compositions and kits for multiplex analysis of nucleic acids from single cells. The methods, compositions and systems can be used for massively parallel sequencing of single cells. US2010159533 describes methods and kits for the selective preparation of cDNA relatively free of sequences found in rRNA and subcellular RNAs. The methods and kits use approximately 200 hexamer sequences that target messenger RNA. BUSCHMANN T et al. (BMC BIOINFORMATICS, 2014, vol. 15(1):264) describes improving the detection of barcoded reads in high-throughput DNA sequencing data by controlling the false discovery rate. WO2016138500 describes methods and compositions for labeling a nucleic acid in a sample with a stochastic barcode using an extendable oligonucleotide with a universal priming site and a target-specific region. Some embodiments relate to methods and compositions for characterizing a sample by identifying the alpha chain or beta chain of the TCR of a T cell. WO2015134787 describes methods for amplification bias correction and quantification of adaptive immune cells in a sample using templates. synthetics that include random oligonucleotide sequences.

SUMARIOSUMMARY

La invención se expone en el conjunto de reivindicaciones adjunto.The invention is set forth in the attached set of claims.

La invención proporciona una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos, cada especie de oligonucleótido único comprendiendo una región de código de barras y una región uniforme, la región de código de barras comprendiendo un código de barras molecular que comprende por lo menos 7 nucleótidos, en donde la región uniforme es 3' de la región de código de barras, la región uniforme comprendiendo una región específica de objetivo 3' de la región del código de barras, la región específica de objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo, en la que las especies de oligonucleótidos únicos comprenden diferentes secuencias de ácidos nucleicos en sus regiones de códigos de barras, y en la que: (a) la composición consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras de molécula tiene un contenido de G de menos del 50%; y/o (b) los códigos de barras de molécula de todas las especies de oligonucleótidos únicos en la composición tienen colectivamente un contenido de G de no más del 12,5%, en donde la región del código de barras comprende además un código de barras de muestra que comprende por lo menos 3 nucleótidos. En algunas realizaciones, la composición consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%. En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos de la composición tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos dos grupos espacialmente aislados, cada grupo comprendiendo por lo menos 100 oligonucleótidos únicos de las especies de oligonucleótidos únicos, en donde los oligonucleótidos únicos del mismo grupo comprenden la misma secuencia de código de barras de muestra, y en donde diferentes oligonucleótidos únicos del mismo grupo comprenden secuencias de códigos de barras de molécula diferentes. En algunas realizaciones, el código de barras de muestra de cada especie de oligonucleótido único tiene un contenido de G del 50% o menos. En algunas realizaciones, la región del código de barras de cada especie de oligonucleótido único tiene un contenido de G del 50% o menos. En algunas realizaciones, los códigos de barras de las moléculas de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G menor del 12,5%. En algunas realizaciones, las regiones de códigos de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, la composición consiste esencialmente en especies de oligonucleótidos únicos para los que cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, por lo menos el 95% de los códigos de barras de molécula de las especies de oligonucleótidos únicos comprenden una secuencia que suma por lo menos 6 H y N alternadas, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de las especies de oligonucleótidos únicos comprenden la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C, o T, y en donde cada "N" es una cualquiera de A, G, C, o T. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C, o T. En algunas realizaciones, cada una de las especies de oligonucleótidos únicos comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada una de las especies de oligonucleótidos únicos comprende un espaciador 3' de la región del código de barras y 5' de la región específica de la objetivo, dicho espaciador comprendiendo la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. En algunas realizaciones, la región específica del objetivo comprende una secuencia oligo dT. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras molecular es 3' del código de barras de la muestra. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras de la muestra es 3' del código de barras molecular. En algunas realizaciones, cada especie de oligonucleótido tiene una longitud de por lo menos 24 nucleótidos. En algunas realizaciones, cada especie de oligonucleótido tiene una longitud de 24-140 nucleótidos. En algunas realizaciones, la composición comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, la composición comprende por lo menos 65.000 especies de oligonucleótidos únicos. En algunas realizaciones, la composición comprende por lo menos dos oligonucleótidos de la misma especie de oligonucleótido único. En algunas realizaciones, no hay dos oligonucleótidos de la composición que sean de la misma especie de oligonucleótido único. En algunas realizaciones, la composición comprende por lo menos 48 grupos. En algunas realizaciones, las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares son los mismos para las especies de oligonucleótidos inmovilizadas en cada sustrato. En algunas realizaciones, el sustrato comprende una región discreta de una superficie, de tal manera que la superficie puede comprender dos o más sustratos. En algunas realizaciones, el sustrato comprende una perla. En algunas realizaciones, cada una de las especies de oligonucleótidos únicos comprende además un adaptador configurado para inmovilizar el oligonucleótido único en el sustrato, en donde dicha región de código de barras se encuentra a 3' del adaptador. En algunas realizaciones, la región uniforme comprende una región específica del objetivo que comprende una secuencia que flanquea una secuencia codificante de región variable de receptor de células inmunitarias o inmunoglobulina. En algunas realizaciones, la secuencia codificante de la región variable del receptor de células inmunitarias es una secuencia codificante de la región variable del receptor de células T, una secuencia codificante de la región variable del receptor de células B o una combinación de las mismas. En algunas realizaciones, la invención proporciona un kit que comprende la composición de la invención, en donde la región específica del objetivo comprende una secuencia que flanquea una secuencia codificante de región variable del receptor de células inmunitarias o inmunoglobulina, y un cebador configurado para hibridar en un lado opuesto de la región variable como la región específica del objetivo y para hibridar a una cadena complementaria a una cadena hibridada por la región específica del objetivo, de tal manera que el cebador está configurado para amplificar la región variable junto con la región específica del objetivo. En algunas realizaciones, el cebador y la región específica del objetivo están configurados para amplificar un ácido nucleico de por lo menos 1 kb y que comprende la región variable. En algunas realizaciones, el cebador del kit forma parte de la composición que comprende la especie de oligonucleótido único. En algunas realizaciones, el cebador del kit forma parte de otra composición que está separada de la composición que comprende la especie de oligonucleótido único.The invention provides a composition comprising at least 1000 unique oligonucleotide species, each unique oligonucleotide species comprising a barcode region and a uniform region, the barcode region comprising a molecular barcode comprising at least 7 nucleotides, wherein the uniform region is 3' of the barcode region, the uniform region comprising a target-specific region 3' of the barcode region, the target-specific region comprising at least 10 complementary nucleotides to a target nucleic acid, wherein the single oligonucleotide species comprise different nucleic acid sequences in their barcode regions, and wherein: (a) the composition consists essentially of single oligonucleotide species wherein each barcode Molecule bars have a G content of less than 50%; and/or (b) the molecule barcodes of all unique oligonucleotide species in the composition collectively have a G content of no more than 12.5%, wherein the barcode region further comprises a G code. Sample bars comprising at least 3 nucleotides. In some embodiments, the composition consists essentially of single oligonucleotide species where each molecular barcode has a G content of less than 50%. In some embodiments, the molecular barcodes of all unique oligonucleotide species of the composition collectively have a G content of no more than 12.5%. In some embodiments, the unique oligonucleotide species are arranged in at least two spatially isolated groups, each group comprising at least 100 unique oligonucleotides of the unique oligonucleotide species, wherein the unique oligonucleotides of the same group comprise the same code sequence. sample barcodes, and where different unique oligonucleotides from the same group comprise different molecule barcode sequences. In some embodiments, the sample barcode of each single oligonucleotide species has a G content of 50% or less. In some embodiments, the barcode region of each single oligonucleotide species has a G content of 50% or less. In some embodiments, the barcodes of the single oligonucleotide species molecules collectively have a G content of less than 12.5%. In some embodiments, the barcode regions of the single oligonucleotide species collectively have a G content of no more than 12.5%. In some embodiments, for at least 95% of the unique oligonucleotide species, any G in the molecular barcode is not adjacent to another G. In some embodiments, the composition consists essentially of unique oligonucleotide species for which any G in the molecular barcode is not adjacent to another G. In some embodiments, at least 95% of the molecule barcodes of the unique oligonucleotide species comprise a sequence that sums to at least 6 alternating H and N , where each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments, at least 95% of the codes of Molecular bars of the single oligonucleotide species comprise the sequence HNHNHNHN, where each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments, each molecular barcode of the unique oligonucleotide species comprises the sequence HNHNHNHN, where each "H" is any one of A, C, or T, and where each "N" is any one of A, G, C, or T. In some embodiments, each molecular barcode of the unique oligonucleotide species comprises the sequence HHHHHHHH, where each "H" is a any of A, C, or T. In some embodiments, each of the single oligonucleotide species comprises a spacer 3' of the barcode region and 5' of the target-specific region, said spacer comprising the sequence HNHNHNHN, wherein each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments, each of the single oligonucleotide species comprises a spacer 3' of the barcode region and 5' of the target-specific region, said spacer comprising the sequence HHHHHHHH, where each "H" is any one of A, C or T. In some embodiments, the specific region The target comprises an oligo dT sequence. In some embodiments, for each unique oligonucleotide species, the molecular barcode is 3' to the sample barcode. In some embodiments, for each unique oligonucleotide species, the sample barcode is 3' to the molecular barcode. In some embodiments, each oligonucleotide species has a length of at least 24 nucleotides. In some embodiments, each oligonucleotide species is 24-140 nucleotides in length. In some embodiments, the composition comprises at least 6,500 unique oligonucleotide species. In some embodiments, the composition comprises at least 65,000 unique oligonucleotide species. In some embodiments, the composition comprises at least two oligonucleotides of the same single oligonucleotide species. In some embodiments, no two oligonucleotides of the composition are of the same single oligonucleotide species. In some embodiments, the composition comprises at least 48 groups. In some embodiments, the unique oligonucleotide species of each group are immobilized on a substrate, such that the sample barcodes but not the molecular barcodes are the same for the oligonucleotide species immobilized on each substrate. In some embodiments, the substrate comprises a discrete region of a surface, such that the surface may comprise two or more substrates. In some embodiments, the substrate comprises a bead. In some embodiments, each of the single oligonucleotide species further comprises an adapter configured to immobilize the single oligonucleotide to the substrate, wherein said barcode region is located 3' of the adapter. In some embodiments, the uniform region comprises a target-specific region comprising a sequence flanking an immune cell receptor or immunoglobulin variable region coding sequence. In some embodiments, the immune cell receptor variable region coding sequence is a T cell receptor variable region coding sequence, a B cell receptor variable region coding sequence, or a combination thereof. In some embodiments, the invention provides a kit comprising the composition of the invention, wherein the target-specific region comprises a sequence flanking an immune cell receptor or immunoglobulin variable region coding sequence, and a primer configured to hybridize in an opposite side of the variable region as the target-specific region and to hybridize to a strand complementary to a strand hybridized by the target-specific region, such that the primer is configured to amplify the variable region together with the target-specific region. aim. In some embodiments, the primer and target-specific region are configured to amplify a nucleic acid of at least 1 kb and comprising the variable region. In some embodiments, the kit primer forms part of the composition comprising the single oligonucleotide species. In some embodiments, the kit primer is part of another composition that is separate from the composition comprising the single oligonucleotide species.

La invención también proporciona un método de codificar específicamente con códigos de barras una pluralidad de ácidos nucleicos de dos o más muestras, cada muestra comprendiendo ácidos nucleicos, que comprende poner en contacto cada muestra con un grupo que comprende por lo menos 100 especies de oligonucleótidos únicos, en el que cada muestra se pone en contacto en aislamiento espacial de las otras muestras, cada especie de oligonucleótido único comprendiendo una región de código de barras que comprende: un código de barras molecular que comprende por lo menos 7 nucleótidos; un código de barras de muestra que comprende por lo menos 3 nucleótidos; y una región uniforme 3' de la región del código de barras, la región uniforme comprendiendo una región específica de objetivo 3' de la región del código de barras, la región específica de objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo; en donde las especies de polinucleótidos únicos de cada grupo comprenden el mismo código de barras de muestra, y comprenden diferentes códigos de barras moleculares, y en donde: (a) las especies de oligonucleótidos únicos puestas en contacto con la muestra consisten esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%; y/o (b) los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12.5%; hibridar regiones específicas del objetivo de por lo menos algunos oligonucleótidos de las especies de oligonucleótidos únicos con por lo menos algunos de los ácidos nucleicos de la muestra; y extender los oligonucleótidos hibridados, produciendo de este modo cadenas que comprenden un oligonucleótido de las especies de oligonucleótidos únicos y una secuencia complementaria al objetivo, en donde para cada muestra, las cadenas comprenden el mismo código de barras de muestra y diferentes códigos de barras moleculares, y en donde para diferentes muestras, los códigos de barras moleculares son diferentes. En algunas realizaciones, las especies de oligonucleótidos únicos puestas en contacto con la muestra consisten esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%. En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, el método comprende además determinar las secuencias de ácidos nucleicos de las cadenas que comprenden los oligonucleótidos de las especies de oligonucleótidos únicos y la secuencia complementaria al objetivo. En algunas realizaciones, las por lo menos 100 especies de oligonucleótidos únicos de cada grupo se inmovilizan sobre un sustrato, de tal manera que las especies de oligonucleótidos únicos inmovilizadas sobre un sustrato dado comprenden el mismo código de barras de muestra, y diferentes especies de oligonucleótidos únicos inmovilizadas sobre el sustrato comprenden diferentes códigos de barras moleculares. En algunas realizaciones, cada código de barras de muestra tiene un contenido de G del 50% o menos. En algunas realizaciones, los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%. En algunas realizaciones, las regiones de código de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, cada grupo consiste esencialmente en especies de oligonucleótidos únicos para las que cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de las especies de oligonucleótidos únicos comprenden una secuencia que suma por lo menos 6 H y N alternadas, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de las especies de oligonucleótidos únicos comprende la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de los oligonucleótidos únicos comprende la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. En algunas realizaciones, cada oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HNHNHNHN, en donde cada "H" es uno cualquiera de A, C, o T, y en donde cada "N" es uno cualquiera de A, G, C, o T. En algunas realizaciones, cada oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HHHHHHHH, en donde cada "H" es uno cualquiera de A, C, o T. En algunas realizaciones, por lo menos un grupo comprende por lo menos dos oligonucleótidos de la misma especie de oligonucleótido único. En algunas realizaciones, ningún grupo comprende dos oligonucleótidos de la misma especie de oligonucleótido único. En algunas realizaciones, la región específica del objetivo comprende una secuencia oligo dT. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras molecular es 3' del código de barras de la muestra. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras de la muestra es 3' del código de barras molecular. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de por lo menos 24 nucleótidos. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de 24-140 nucleótidos. En algunas realizaciones, cada grupo comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 65.000 especies de oligonucleótidos únicos. En algunas realizaciones, por lo menos 48 muestras únicas se ponen en contacto con un único grupo. En algunas realizaciones, por lo menos el 99% de las muestras comprenden no más de una célula cada una. En algunas realizaciones, las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares son los mismos para las especies de oligonucleótidos únicos inmovilizadas en cada sustrato de la pluralidad. En algunas realizaciones, el sustrato comprende una región espacialmente aislada de una superficie, de tal manera que los sustratos de diferentes grupos comprenden las diferentes regiones espacialmente aisladas de la superficie. En algunas realizaciones, el sustrato comprende una perla. En algunas realizaciones, cada una de las especies de oligonucleótidos únicos comprende además un adaptador configurado para inmovilizar el oligonucleótido único en el sustrato, en donde dicha región de código de barras se encuentra 3' del adaptador. En algunas realizaciones, la región uniforme comprende una región específica de objetivo que comprende una secuencia que flanquea una secuencia que codifica la región variable de un receptor de células inmunitarias o inmunoglobulina. En algunas realizaciones, la región variable es de un receptor de células T o un receptor de células B, o una combinación de los mismos. En algunas realizaciones, el método comprende además poner en contacto las cadenas extendidas que comprenden un oligonucleótido de la especie de oligonucleótido único y una secuencia complementaria al objetivo con cebador configurado para hibridar en un lado opuesto de la región variable como la región específica del objetivo, y para hibridar con una cadena complementaria a una cadena hibridada por la región específica del objetivo. Como tal, el método puede comprender amplificar secuencias que codifican regiones variables de un receptor de células T, receptor de células B o inmunoglobulina. En algunas realizaciones, el método amplifica una secuencia de por lo menos 1 kb, que comprende la secuencia codificante de la región variable.The invention also provides a method of specifically barcoding a plurality of nucleic acids from two or more samples, each sample comprising nucleic acids, comprising contacting each sample with a pool comprising at least 100 species of unique oligonucleotides. , wherein each sample is contacted in spatial isolation from the other samples, each unique oligonucleotide species comprising a barcode region comprising: a molecular barcode comprising at least 7 nucleotides; a sample barcode comprising at least 3 nucleotides; and a uniform region 3' of the barcode region, the uniform region comprising a target-specific region 3' of the barcode region, the target-specific region comprising at least 10 nucleotides complementary to a target nucleic acid ; wherein the unique polynucleotide species of each group comprise the same sample barcode, and comprise different molecular barcodes, and wherein: (a) the unique oligonucleotide species contacted with the sample essentially consist of species of single oligonucleotides wherein each molecular barcode has a G content of less than 50%; and/or (b) the molecular barcodes of all single oligonucleotide species collectively have a G content of no more than 12.5%; hybridizing target-specific regions of at least some oligonucleotides of the single oligonucleotide species to at least some of the sample nucleic acids; and extending the hybridized oligonucleotides, thereby producing chains comprising an oligonucleotide of the unique oligonucleotide species and a sequence complementary to the target, wherein for each sample, the chains comprise the same sample barcode and different molecular barcodes , and where for different samples, the molecular barcodes are different. In some embodiments, the single oligonucleotide species contacted with the sample essentially consist of single oligonucleotide species where each molecular barcode has a G content of less than 50%. In some embodiments, the molecular barcodes of all single oligonucleotide species collectively have a G content of no more than 12.5%. In some embodiments, the method further comprises determining the nucleic acid sequences of the chains comprising the oligonucleotides of the single oligonucleotide species and the sequence complementary to the target. In some embodiments, the at least 100 unique oligonucleotide species of each group are immobilized on a substrate, such that the unique oligonucleotide species immobilized on a given substrate comprise the same barcode. sample, and different species of single oligonucleotides immobilized on the substrate comprise different molecular barcodes. In some embodiments, each sample barcode has a G content of 50% or less. In some embodiments, the molecular barcodes of the single oligonucleotide species collectively have a G content of less than 12.5%. In some embodiments, the barcode regions of the single oligonucleotide species collectively have a G content of no more than 12.5%. In some embodiments, for at least 95% of the unique oligonucleotide species, any G in the molecular barcode is not adjacent to another G. In some embodiments, each group consists essentially of unique oligonucleotide species for which any G in the molecular barcode is not adjacent to another G. In some embodiments, at least 95% of the molecular barcodes of the unique oligonucleotide species comprise a sequence that sums to at least 6 alternating H and N, wherein each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments, at least 95% of the barcodes Molecular elements of the single oligonucleotide species comprise the sequence HNHNHNHN, where each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments , each molecular barcode of the unique oligonucleotide species comprises the sequence HNHNHNHN, where each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments, each molecular barcode of the unique oligonucleotides comprises the sequence HHHHHHHH, where each "H" is any one of A, C or T. In some embodiments, each unique oligonucleotide comprises a 3' spacer of the barcode region and 5' of the target-specific region, said spacer comprising the sequence HNHNHNHN, where each "H" is any one of A, C, or T, and where each "N" is any one of A, G, C, or T. In some embodiments, each unique oligonucleotide comprises a spacer 3' of the barcode region and 5' of the target-specific region, said spacer comprising the sequence HHHHHHHH, wherein each "H " is any one of A, C, or T. In some embodiments, at least one group comprises at least two oligonucleotides of the same single oligonucleotide species. In some embodiments, no group comprises two oligonucleotides of the same single oligonucleotide species. In some embodiments, the target-specific region comprises an oligo dT sequence. In some embodiments, for each unique oligonucleotide species, the molecular barcode is 3' to the sample barcode. In some embodiments, for each unique oligonucleotide species, the sample barcode is 3' to the molecular barcode. In some embodiments, each unique oligonucleotide species has a length of at least 24 nucleotides. In some embodiments, each unique oligonucleotide species has a length of 24-140 nucleotides. In some embodiments, each pool comprises at least 6,500 unique oligonucleotide species. In some embodiments, each pool comprises at least 65,000 unique oligonucleotide species. In some embodiments, at least 48 unique samples are contacted with a single group. In some embodiments, at least 99% of the samples comprise no more than one cell each. In some embodiments, the unique oligonucleotide species of each group are immobilized on a substrate, such that the sample barcodes but not the molecular barcodes are the same for the unique oligonucleotide species immobilized on each substrate. the plurality. In some embodiments, the substrate comprises a spatially isolated region of a surface, such that substrates of different groups comprise different spatially isolated regions of the surface. In some embodiments, the substrate comprises a bead. In some embodiments, each of the single oligonucleotide species further comprises an adapter configured to immobilize the single oligonucleotide to the substrate, wherein said barcode region is located 3' of the adapter. In some embodiments, the uniform region comprises a target-specific region comprising a sequence flanking a sequence encoding the variable region of an immune cell receptor or immunoglobulin. In some embodiments, the variable region is from a T cell receptor or a B cell receptor, or a combination thereof. In some embodiments, the method further comprises contacting extended chains comprising an oligonucleotide of the single oligonucleotide species and a sequence complementary to the target with primer configured to hybridize on an opposite side of the variable region as the target-specific region, and to hybridize with a strand complementary to a strand hybridized by the specific region of the target. As such, the method may comprise amplifying sequences that encode variable regions of a T cell receptor, B cell receptor or immunoglobulin. In some embodiments, the method amplifies a sequence of at least 1 kb, comprising the variable region coding sequence.

La invención también proporciona un método de elaboración de una composición que comprende oligonucleótidos únicos que comprende: proporcionar una pluralidad de códigos de barras de muestra diferentes que comprenden por lo menos 3 nucleótidos cada uno, proporcionar una pluralidad de códigos de barras moleculares diferentes que comprenden por lo menos 7 nucleótidos cada uno; sintetizar una pluralidad de especies de oligonucleótidos únicos, cada especie de oligonucleótido único comprendiendo una región de código de barras que comprende un código de barras de muestra y un código de barras molecular; y una región uniforme 3' de la región del código de barras, la región uniforme comprendiendo una región específica de objetivo 3' de la región del código de barras, la región específica de objetivo comprendiendo por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo; y disponer las especies de oligonucleótidos únicos en grupos espacialmente aislados, en las que cada grupo comprende múltiples especies de oligonucleótidos únicos, de tal manera que las especies de oligonucleótidos únicos del mismo grupo comprenden la misma secuencia de código de barras de muestra, y en donde diferentes especies de oligonucleótidos únicos del mismo grupo comprenden diferentes secuencias de código de barras molecular, y en las que cada grupo comprende por lo menos 1000 especies de oligonucleótidos únicos, en las que para cada grupo (a) la pluralidad de especies de oligonucleótidos únicos consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido de G de menos del 50%; y/o b) los códigos de barras moleculares de todas las especies de oligonucleótidos únicos de la pluralidad tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, la pluralidad de especies de oligonucleótidos únicos consiste esencialmente en especies de oligonucleótidos únicos en donde cada código de barras molecular tiene un contenido G de menos del 50%. En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos de la pluralidad tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, cada código de barras molecular tiene un contenido de G del 50% o menos. En algunas realizaciones, cada código de barras de muestra tiene un contenido de G del 50% o menos. En algunas realizaciones, los códigos de barras de muestra de las especies de oligonucleótidos únicos tienen colectivamente un contenido G de no más del 12,5%. En algunas realizaciones, los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%. En algunas realizaciones, las regiones de código de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, la pluralidad de las especies de oligonucleótidos únicos consiste esencialmente en especies de oligonucleótidos únicos para los que cualquier G en el código de barras molecular no es adyacente a otro G. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de las especies de oligonucleótidos únicos comprenden una secuencia que totaliza por lo menos 6 H y N alternadas, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de los oligonucleótidos únicos comprenden la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de los oligonucleótidos únicos comprende la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de los oligonucleótidos únicos comprende la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. En algunas realizaciones, cada especie de oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C, o T, y en donde cada "N" es una cualquiera de A, G, C, o T. En algunas realizaciones, cada especie de oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. En algunas realizaciones, la región específica del objetivo comprende una secuencia oligo dT. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras molecular es 3' del código de barras de la muestra. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras de la muestra es 3' del código de barras molecular. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de por lo menos 24 nucleótidos. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de 24-140 nucleótidos. En algunas realizaciones, cada grupo comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 65.000 especies de oligonucleótidos únicos. En algunas realizaciones, se hacen por lo menos 48 grupos. En algunas realizaciones, el método comprende además inmovilizar las especies de oligonucleótidos únicos de cada grupo en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares sean los mismos para las especies de oligonucleótidos inmovilizadas en cada sustrato de la pluralidad. En algunas realizaciones, los sustratos comprenden regiones discretas de una superficie. En algunas realizaciones, los sustratos comprenden perlas. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados simultáneamente con dicha síntesis. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados después de dicha síntesis. En algunas realizaciones, la región uniforme comprende una región específica de objetivo que comprende una secuencia que flanquea una secuencia codificante de región variable de un receptor de células inmunitarias o inmunoglobulina. En algunas realizaciones, la secuencia codificante de región variable del receptor de células inmunitarias es una secuencia codificante de región variable del receptor de células T, una secuencia codificante de región variable del receptor de células B o una combinación de las mismas. En algunas realizaciones, el kit comprende además un cebador configurado para hibridar en un lado opuesto de la secuencia codificante de región variable como la región específica del objetivo, y para hibridar con una cadena complementaria a una cadena hibridada por la región específica del objetivo, y está por tanto configurado, junto con la región específica del objetivo, para amplificar la secuencia codificante de región variable.The invention also provides a method of making a composition comprising single oligonucleotides comprising: providing a plurality of different sample barcodes comprising at least 3 nucleotides each, providing a plurality of different molecular barcodes comprising at least 7 nucleotides each; synthesizing a plurality of unique oligonucleotide species, each unique oligonucleotide species comprising a barcode region comprising a sample barcode and a molecular barcode; and a uniform region 3' of the barcode region, the uniform region comprising a target-specific region 3' of the barcode region, the target-specific region comprising at least 10 nucleotides complementary to a target nucleic acid ; and arranging the unique oligonucleotide species in spatially isolated groups, wherein each group comprises multiple unique oligonucleotide species, such that the unique oligonucleotide species of the same group comprise the same sample barcode sequence, and wherein different species of unique oligonucleotides of the same group comprise different molecular barcode sequences, and wherein each group comprises at least 1000 species of unique oligonucleotides, in which that for each group (a) the plurality of single oligonucleotide species consists essentially of single oligonucleotide species wherein each molecular barcode has a G content of less than 50%; and/or b) the molecular barcodes of all unique oligonucleotide species of the plurality collectively have a G content of no more than 12.5%. In some embodiments, the plurality of single oligonucleotide species essentially consists of single oligonucleotide species wherein each molecular barcode has a G content of less than 50%. In some embodiments, the molecular barcodes of all of the plurality of unique oligonucleotide species collectively have a G content of no more than 12.5%. In some embodiments, each molecular barcode has a G content of 50% or less. In some embodiments, each sample barcode has a G content of 50% or less. In some embodiments, the sample barcodes of the single oligonucleotide species collectively have a G content of no more than 12.5%. In some embodiments, the molecular barcodes of the single oligonucleotide species collectively have a G content of less than 12.5%. In some embodiments, the barcode regions of the single oligonucleotide species collectively have a G content of no more than 12.5%. In some embodiments, for at least 95% of the single oligonucleotide species, any G in the molecular barcode is not adjacent to another G. In some embodiments, the plurality of single oligonucleotide species consists essentially of species of unique oligonucleotides for which any G in the molecular barcode is not adjacent to another G. In some embodiments, at least 95% of the molecular barcodes of the unique oligonucleotide species comprise a sequence totaling at least 6 alternating H and N, where each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments, at least 95 % of the molecular barcodes of the unique oligonucleotides comprise the sequence HNHNHNHN, where each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T In some embodiments, each molecular barcode of the unique oligonucleotides comprises the sequence HNHNHNHN, where each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments, each molecular barcode of the unique oligonucleotides comprises the sequence HHHHHHHH, where each "H" is any one of A, C or T. In some embodiments, each unique oligonucleotide species comprises a spacer 3' of the barcode region and 5' of the target-specific region, said spacer comprising the sequence HNHNHNHN, where each "H" is any one of A, C, or T, and where each "N" is any one of A, G, C, or T. In some embodiments, each single oligonucleotide species comprises a spacer 3' of the barcode region and 5' of the target-specific region, said spacer comprising the sequence HHHHHHHH , where each "H" is any one of A, C or T. In some embodiments, the target-specific region comprises an oligo dT sequence. In some embodiments, for each unique oligonucleotide species, the molecular barcode is 3' to the sample barcode. In some embodiments, for each unique oligonucleotide species, the sample barcode is 3' to the molecular barcode. In some embodiments, each unique oligonucleotide species has a length of at least 24 nucleotides. In some embodiments, each unique oligonucleotide species has a length of 24-140 nucleotides. In some embodiments, each pool comprises at least 6,500 unique oligonucleotide species. In some embodiments, each pool comprises at least 65,000 unique oligonucleotide species. In some embodiments, at least 48 groups are made. In some embodiments, the method further comprises immobilizing the unique oligonucleotide species of each group on a substrate, such that the sample barcodes but not the molecular barcodes are the same for the oligonucleotide species immobilized on each substrate of plurality. In some embodiments, the substrates comprise discrete regions of a surface. In some embodiments, the substrates comprise beads. In some embodiments, the single oligonucleotide species are arranged in spatially isolated groups simultaneously with said synthesis. In some embodiments, the single oligonucleotide species are arranged in spatially isolated groups after said synthesis. In some embodiments, the uniform region comprises a target-specific region comprising a sequence flanking a variable region coding sequence of an immune cell receptor or immunoglobulin. In some embodiments, the immune cell receptor variable region coding sequence is a T cell receptor variable region coding sequence, a B cell receptor variable region coding sequence, or a combination thereof. In some embodiments, the kit further comprises a primer configured to hybridize to an opposite side of the variable region coding sequence as the target-specific region, and to hybridize to a strand complementary to a strand hybridized by the target-specific region, and It is therefore configured, together with the target-specific region, to amplify the variable region coding sequence.

BREVE DESCRIPCIÓN DE LOS DIBUJOSBRIEF DESCRIPTION OF THE DRAWINGS

La FIG. 1A es un diagrama esquemático que ilustra una especie de oligonucleótido que comprende una región de código de barras 5' de una región uniforme, de acuerdo con algunas realizaciones de la presente.FIG. 1A is a schematic diagram illustrating an oligonucleotide species comprising a barcode region 5' of a uniform region, according to some embodiments herein.

La FIG. 1B es un diagrama esquemático que ilustra una especie de oligonucleótido que comprende una región de código de barras 5' de una secuencia de oligo dT, de acuerdo con algunas realizaciones de la presente.FIG. 1B is a schematic diagram illustrating an oligonucleotide species comprising a 5' barcode region of an oligo dT sequence, according to some embodiments herein.

La FIG. 1C es un diagrama esquemático que ilustra una especie de oligonucleótido que comprende una región de código de barras 5' de una región específica de un gen, de acuerdo con algunas realizaciones de la presente. La FIG. 2A es un diagrama esquemático que ilustra una región de código de barras que comprende un código de barras molecular 5' de un código de barras de muestra, y que puede comprender una región de código de barras de una especie de oligonucleótido único de acuerdo con algunas realizaciones de la presente.FIG. 1C is a schematic diagram illustrating an oligonucleotide species comprising a barcode region 5' of a specific region of a gene, according to some embodiments herein. FIG. 2A is a schematic diagram illustrating a barcode region comprising a molecular barcode 5' of a sample barcode, and which may comprise a barcode region of a single oligonucleotide species according to some embodiments herein.

La FIG. 2B es un diagrama esquemático que ilustra una región de código de barras que comprende un código de barras de muestra 5' de un código de barras molecular, y que puede comprender una región de código de barras de una especie de oligonucleótido único de acuerdo con algunas realizaciones de la presente.FIG. 2B is a schematic diagram illustrating a barcode region comprising a 5' sample barcode of a molecular barcode, and which may comprise a barcode region of a single oligonucleotide species according to some realizations hereof.

Las FIGS. 3A-3H son diagramas que ilustran una variedad de configuraciones de especies de oligonucleótidos de acuerdo con algunas realizaciones de la presente. La FIG. 3A ilustra un oligonucleótido de referencia. La FIG. 3B ilustra un oligonucleótido con un espaciador de base 3' de la región del código de barras. La FIG. 3C ilustra un oligonucleótido con un espaciador de 5 bases 3' de la región del código de barras. La FIG. 3D ilustra un oligonucleótido en el que las posiciones del código de barras molecular (indicado como "NNNNNNNNN") y el código de barras de la muestra dentro de la región del código de barras están intercambiadas en comparación con la FIG.FIGS. 3A-3H are diagrams illustrating a variety of oligonucleotide species configurations according to some embodiments herein. FIG. 3A illustrates a reference oligonucleotide. FIG. 3B illustrates an oligonucleotide with a base spacer 3' of the barcode region. FIG. 3C illustrates an oligonucleotide with a 5-base spacer 3' of the barcode region. FIG. 3D illustrates an oligonucleotide in which the positions of the molecular barcode (denoted as "NNNNNNNNNN") and the sample barcode within the barcode region are swapped compared to FIG.

3A, de tal manera que el código de barras molecular está 5' del código de barras de la muestra. La FIG. 3E ilustra un oligonucleótido en el que las posiciones del código de barras molecular (indicado como "NNNNNNNNN") y el código de barras de la muestra dentro de la región del código de barras están intercambiadas en comparación con la FIG. 3A, de tal manera que el código de barras molecular está 5' del código de barras de la muestra, e incluye un espaciador de 3 bases. La FIG. 3F ilustra un oligonucleótido en el que las posiciones del código de barras molecular (indicado como "NNNNNNNNN") y del código de barras de la muestra dentro de la región del código de barras están intercambiadas, de tal manera que el código de barras molecular está 5' del código de barras de la muestra, e incluye un espaciador de 5 bases. La FIG. 3G ilustra un oligonucleótido en el que el código de barras molecular comprende la secuencia HHHHHHHH (en la que cada H es una A, C o T, y en la que cada H puede ser igual o diferente de cualquier otra H). La FIG. 3H ilustra un oligonucleótido en el que el código de barras molecular comprende la secuencia HNHNHNHN (en la que cada H es una A, C o T, y en la que cada H puede ser igual o diferente de cualquier otra H).3A, such that the molecular barcode is 5' from the sample barcode. FIG. 3E illustrates an oligonucleotide in which the positions of the molecular barcode (denoted as "NNNNNNNNNN") and the sample barcode within the barcode region are swapped compared to FIG. 3A, such that the molecular barcode is 5' from the sample barcode, and includes a 3-base spacer. FIG. 3F illustrates an oligonucleotide in which the positions of the molecular barcode (denoted as "NNNNNNNNNN") and the sample barcode within the barcode region are swapped, such that the molecular barcode is 5' of the sample barcode, and includes a 5-base spacer. FIG. 3G illustrates an oligonucleotide in which the molecular barcode comprises the sequence HHHHHHHH (in which each H is an A, C or T, and in which each H can be the same or different from any other H). FIG. 3H illustrates an oligonucleotide in which the molecular barcode comprises the sequence HNHNHNHN (in which each H is an A, C or T, and in which each H can be the same or different from any other H).

La FIG. 4A es un diagrama que ilustra el uso de nucleótidos en un muestreo de especies de oligonucleótidos convencionales únicos.FIG. 4A is a diagram illustrating the use of nucleotides in a sampling of single conventional oligonucleotide species.

La FIG. 4B es un diagrama que ilustra el uso de nucleótidos en un muestreo de especies de oligonucleótidos convencionales únicos.FIG. 4B is a diagram illustrating the use of nucleotides in a sampling of single conventional oligonucleotide species.

La FIG. 4C es un diagrama que ilustra el uso de nucleótidos en un muestreo de especies de oligonucleótidos convencionales únicos.FIG. 4C is a diagram illustrating the use of nucleotides in a sampling of single conventional oligonucleotide species.

La FIG. 5A es un diagrama que ilustra secuencias de ácidos nucleicos de especies de oligonucleótidos que se construyeron de acuerdo con algunas realizaciones de la presente. Las SEQ ID NO: indicadas en las columnas más a la derecha de las FIGS 5A-5D se refieren a la secuencia de polinucleótidos que incluye el "ancla", "1° be", "2° be", "Espaciador" (si lo hay), y "Secuencia de Reconocimiento 5 a 3' " como se muestra. Cada "ancla" de las FIGS. 5A-5D tiene la secuencia de polinucleótidos de la SEQ ID NO: 97.FIG. 5A is a diagram illustrating nucleic acid sequences of oligonucleotide species that were constructed according to some embodiments herein. The SEQ ID NO: indicated in the rightmost columns of FIGS 5A-5D refer to the polynucleotide sequence that includes the "anchor", "1° be", "2° be", "Spacer" (if there is), and "Recognition Sequence 5 to 3' " as shown. Each "anchor" of FIGS. 5A-5D has the polynucleotide sequence of SEQ ID NO: 97.

La FIG. 5B es un diagrama que ilustra secuencias de ácidos nucleicos de especies de oligonucleótidos que se construyeron de acuerdo con algunas realizaciones de la presente.FIG. 5B is a diagram illustrating nucleic acid sequences of oligonucleotide species that were constructed according to some embodiments herein.

La FIG. 5C es un diagrama que ilustra secuencias de ácidos nucleicos de especies de oligonucleótidos que se construyeron de acuerdo con algunas realizaciones de la presente.FIG. 5C is a diagram illustrating nucleic acid sequences of oligonucleotide species that were constructed according to some embodiments herein.

La FIG. 5D es un diagrama que ilustra secuencias de ácidos nucleicos de especies de oligonucleótidos que se construyeron de acuerdo con algunas realizaciones de la presente.FIG. 5D is a diagram illustrating nucleic acid sequences of oligonucleotide species that were constructed according to some embodiments herein.

La FIG. 6 es un gráfico de corrección de errores por individuo para un análisis que usa especies de oligonucleótidos únicos de acuerdo con algunas de las realizaciones de la presente.FIG. 6 is a per-individual error correction graph for an analysis using single oligonucleotide species according to some of the embodiments herein.

La FIG. 7 es un gráfico de corrección de errores por cruce de MI individual y de filtro para un análisis que usa especies de oligonucleótidos únicos de acuerdo con algunas realizaciones de la presente.FIG. 7 is a filter and individual MI crossover error correction graph for an analysis using single oligonucleotide species according to some embodiments herein.

La FIG. 8 es un diagrama que ilustra esquemáticamente, sin estar limitado por ninguna teoría, los posibles errores de amplificación que pueden resultar de oligonucleótidos con altos contenidos de G.FIG. 8 is a diagram that schematically illustrates, without being limited by any theory, the possible amplification errors that can result from oligonucleotides with high G contents.

DESCRIPCIÓN DETALLADADETAILED DESCRIPTION

De acuerdo con algunas realizaciones de la presente, se describen métodos y composiciones para codificar con códigos de barras y el análisis de ácidos nucleicos precisos. En algunas realizaciones, los ácidos nucleicos individuales de una muestra pueden asociarse con un código de barras único (por ejemplo, un "código de barras molecular"), de tal manera que tras la amplificación y el análisis de la secuencia, los ácidos nucleicos individuales de una muestra pueden cuantificarse. Sin estar limitado por ninguna teoría, se contempla que el sesgo que favorece o desfavorece la representación, amplificación o propiedades de ciertos tipos de secuencias de código de barras puede interferir con la cuantificación y análisis de los ácidos nucleicos individuales de una muestra (las posibles fuentes de sesgo en algunos eventos de amplificación se ilustran esquemáticamente en la FIG. 8). De acuerdo con algunas realizaciones de la presente, se describen configuraciones y características de especies de oligonucleótidos únicos que comprenden códigos de barras, en las que las especies de oligonucleótidos únicos están configuradas para minimizar el sesgo relacionado con los códigos de barras y producir un análisis preciso de los ácidos nucleicos. Sin estar limitado por ninguna teoría, se contempla que las regiones de código de barras que comprenden características como un contenido de guanosina (G) de menos del 50%, y/o sin dos "G" consecutivas en la región de código de barras pueden minimizar el sesgo que de otro modo podría confundir la cuantificación y/o el análisis de los ácidos nucleicos de una muestra. Opcionalmente, las moléculas individuales de ácidos nucleicos de una muestra dada también pueden asociarse a un "código de barras de la muestra", de tal manera que los ácidos nucleicos asociados al código de barras puedan agruparse posteriormente para un análisis eficiente por lotes de ácidos nucleicos de dos o más muestras, por ejemplo mediante secuenciación de próxima generación.According to some embodiments herein, methods and compositions for barcoding and analysis of precise nucleic acids are described. In some embodiments, individual nucleic acids in a sample may be associated with a unique barcode (e.g., a "molecular barcode"), such that upon amplification and sequence analysis, the individual nucleic acids of a sample can be quantified. Without being limited by theory, it is contemplated that bias favoring or disfavoring the representation, amplification or properties of certain types of barcode sequences may interfere with the quantification and analysis of individual nucleic acids in a sample (possible sources of bias in some amplification events are illustrated schematically in FIG. 8). According to some embodiments herein, configurations and characteristics of single oligonucleotide species comprising barcodes are described, wherein the single oligonucleotide species are configured to minimize barcode-related bias and produce accurate analysis. of nucleic acids. Without being limited by any theory, it is contemplated that barcode regions comprising features such as a guanosine (G) content of less than 50%, and/or without two consecutive "G"s in the barcode region may minimize bias that could otherwise confound the quantification and/or analysis of nucleic acids from a sample. Optionally, individual nucleic acid molecules from a given sample may also be associated with a “sample barcode,” such that nucleic acids associated with the barcode can subsequently be grouped together for efficient batch analysis of nucleic acids. of two or more samples, for example through next generation sequencing.

Adyuvantes nucleicosNucleic adjuvants

Se describen varios ácidos nucleicos de acuerdo con algunas realizaciones de la presente. Por ejemplo, las especies de oligonucleótidos, las muestras y/o los objetivos pueden comprender ácidos nucleicos.Various nucleic acids are described in accordance with some embodiments herein. For example, the oligonucleotide species, samples and/or targets may comprise nucleic acids.

Como se usa en la presente, un "ácido nucleico" se refiere a una secuencia de polinucleótidos, o fragmento de la misma. Un ácido nucleico puede comprender nucleótidos. Un ácido nucleico puede ser exógeno o endógeno a una célula. Un ácido nucleico puede existir en un entorno libre de células. Un ácido nucleico puede comprender, consistir o consistir esencialmente en un gen o fragmento del mismo. Un ácido nucleico puede comprender, consistir o consistir esencialmente en ADN. Un ácido nucleico puede comprender, consistir o consistir esencialmente en ARN. Un ácido nucleico puede comprender uno o más análogos (por ejemplo, una estructura principal, azúcar o nucleobase alterada). Algunos ejemplos no limitativos de análogos incluyen: 5-bromouracilo, ácido nucleico peptídico, ácido xeno nucleico, morfolinos, ácidos nucleicos bloqueados, ácidos nucleicos glicólicos, ácidos nucleicos de treosa, dideoxinucleótidos, cordicepina, 7-deaza-GTP, floróforos (por ejemplo rodamina o fluresceína enlazada al azúcar), nucleótidos que contienen tiol, nucleótidos enlazados a biotina, análogos de bases fluorescentes, islas CpG, metil-7-guanosina, nucleótidos metilados, inosina, tiouridina, pseudourdina, dihidrouridina, queuosina y wiosina. "Ácido nucleico", "polinucleótido", "polinucleótido objetivo" y "ácido nucleico objetivo" pueden usarse indistintamente.As used herein, a "nucleic acid" refers to a polynucleotide sequence, or fragment thereof. A nucleic acid may comprise nucleotides. A nucleic acid can be exogenous or endogenous to a cell. A nucleic acid can exist in a cell-free environment. A nucleic acid may comprise, consist of, or consist essentially of a gene or fragment thereof. A nucleic acid may comprise, consist of, or consist essentially of DNA. A nucleic acid may comprise, consist of, or consist essentially of RNA. A nucleic acid may comprise one or more analogues (for example, an altered backbone, sugar or nucleobase). Some non-limiting examples of analogs include: 5-bromouracil, peptide nucleic acid, xeno nucleic acid, morpholinos, locked nucleic acids, glycolic nucleic acids, threose nucleic acids, dideoxynucleotides, cordycepin, 7-deaza-GTP, florophores (e.g. rhodamine or sugar-linked flurescein), thiol-containing nucleotides, biotin-linked nucleotides, fluorescent base analogues, CpG islands, methyl-7-guanosine, methylated nucleotides, inosine, thiouridine, pseudourdine, dihydrouridine, queuosine and wiosin. "Nucleic acid", "polynucleotide", "target polynucleotide" and "target nucleic acid" can be used interchangeably.

Como se usa en la presente, "en sentido ascendente" (y variaciones de este término raíz) se refiere a una posición que es relativamente 5' en un ácido nucleico (por ejemplo, 5' en comparación con la posición de referencia). Como se usa en la presente, "en sentido descendente" (y variaciones de este término raíz) se refiere a una posición que es relativamente 3' en un ácido nucleico (por ejemplo, 3' en comparación con la posición de referencia). Por ejemplo, como se muestra en la FIG. 2A, el "código de barras de la muestra" está 3' del "código de barras molecular" y se entiende que está en sentido descendente del "código de barras" de la molécula. Por ejemplo, como se muestra en la FIG. 2B, el "código de barras de la muestra" está 5' del "código de barras molecular" y se entiende que está en sentido ascendente del "código de barras" de la molécula.As used herein, "upstream" (and variations of this root term) refers to a position that is relatively 5' in a nucleic acid (e.g., 5' compared to the reference position). As used herein, "downstream" (and variations of this root term) refers to a position that is relatively 3' in a nucleic acid (e.g., 3' compared to the reference position). For example, as shown in FIG. 2A, the "sample barcode" is 3' from the "molecular barcode" and is understood to be downstream of the molecule "barcode." For example, as shown in FIG. 2B, the "sample barcode" is 5' from the "molecular barcode" and is understood to be upstream of the molecule "barcode".

Un ácido nucleico puede comprender una o más modificaciones (por ejemplo, una modificación de base, una modificación de la estructura principal), para proporcionar al ácido nucleico una característica nueva o mejorada (por ejemplo, estabilidad mejorada). Un ácido nucleico puede comprender una etiqueta de afinidad de ácido nucleico. Un nucleósido puede comprender, consistir o consistir esencialmente en una combinación de base-azúcar. La porción de base del nucleósido puede ser una base heterocíclica. Las dos clases más comunes de tales bases heterocíclicas son las purinas y las pirimidinas. Los nucleótidos pueden comprender, consistir o consistir esencialmente en nucleósidos que además incluyen un grupo fosfato enlazado covalentemente a la porción de azúcar del nucleósido. Para aquellos nucleósidos que incluyen un azúcar de pentofuranosilo, el grupo fosfato puede estar enlazado a la fracción hidroxilo 2', 3' o 5' del azúcar. Al formar ácidos nucleicos, los grupos fosfato pueden enlazar covalentemente nucleósidos adyacentes entre sí para formar un compuesto polimérico lineal. A su vez, los extremos respectivos de este compuesto polimérico lineal pueden unirse adicionalmente para formar un compuesto circular; sin embargo, los compuestos lineales son generalmente adecuados. Además, los compuestos lineales pueden tener complementariedad interna de bases nucleotídicas y, por lo tanto, pueden plegarse de manera que produzcan un compuesto total o parcialmente bicatenario. Dentro de los ácidos nucleicos, los grupos fosfato pueden denominarse comúnmente como formando la estructura principal internucleosídica del ácido nucleico. El enlace o estructura principal del ácido nucleico puede ser un enlace fosfodiéster de 3' a 5'.A nucleic acid may comprise one or more modifications (eg, a base modification, a backbone modification), to provide the nucleic acid with a new or improved characteristic (eg, improved stability). A nucleic acid may comprise a nucleic acid affinity tag. A nucleoside may comprise, consist of, or consist essentially of a base-sugar combination. The base portion of the nucleoside may be a heterocyclic base. The two most common classes of such heterocyclic bases are purines and pyrimidines. Nucleotides may comprise, consist of, or consist essentially of nucleosides that further include a phosphate group covalently linked to the sugar portion of the nucleoside. For those nucleosides that include a pentofuranosyl sugar, the phosphate group may be linked to the 2', 3' or 5' hydroxyl moiety of the sugar. When forming nucleic acids, phosphate groups can covalently link adjacent nucleosides to each other to form a linear polymeric compound. In turn, the respective ends of this linear polymeric compound can be further joined to form a circular compound; however, linear compounds are generally suitable. Furthermore, linear compounds can have internal complementarity of nucleotide bases and can therefore fold in a way that produces a fully or partially double-stranded compound. Within nucleic acids, phosphate groups can be commonly referred to as forming the internucleoside backbone of the nucleic acid. The linkage or backbone of the nucleic acid may be a 3' to 5' phosphodiester bond.

Un ácido nucleico puede comprender una cadena principal modificada y/o enlaces internucleosídicos modificados. Las estructuras principales modificadas pueden incluir las que retienen un átomo de fósforo en la estructura principal y las que no tienen un átomo de fósforo en la estructura principal. Las estructuras principales de ácidos nucleicos modificados adecuadas que contienen un átomo de fósforo pueden incluir, por ejemplo, fosforotioatos, fosforotioatos quirales, fosforoditioatos, fosfotriesteres, aminoalquilfosfotriesteres, fosfonatos de metilo y otros alquilos, como fosfonatos de 3'-alquileno, fosfonatos de 5'-alquileno, fosfonatos quirales, fosfinatos, fosforamidatos, incluyendo 3'-aminofosforamidato y aminoalquilfosforamidatos, fosforodiamidatos, tionofosforamidatos, tionoalquilfosfonatos, tionoalquilfosfotriesteres, selenofosfatos, y boranofosfatos que tienen enlaces normales 3'-5', análogos con enlaces 2'-5' y aquellos que tienen polaridad invertida en donde uno o más enlaces internucleotídicos son enlaces 3' a 3', 5' a 5' o 2' a 2'.A nucleic acid may comprise a modified backbone and/or modified internucleoside linkages. Modified backbones may include those that retain a phosphorus atom in the backbone and those that do not have a phosphorus atom in the backbone. Suitable modified nucleic acid backbones containing a phosphorus atom may include, for example, phosphorothioates, chiral phosphorothioates, phosphorodithioates, phosphotriesters, aminoalkylphosphotriesters, methyl phosphonates and other alkyls, such as 3'-alkylene phosphonates, 5'-phosphonates. -alkylene, chiral phosphonates, phosphinates, phosphoramidates, including 3'-aminophosphoramidate and aminoalkylphosphoramidates, phosphorodiamidates, thionophosphoramidates, thionoalkylphosphonates, thionoalkylphosphotriesters, selenophosphates, and boranephosphates having normal 3'-5' bonds, analogs with 2'-5' bonds and those that have inverted polarity where one or more internucleotide bonds are 3' to 3', 5' to 5' or 2' to 2' bonds.

Un ácido nucleico puede comprender estructuras principales de polinucleótidos formadas por enlaces internucleosídicos de alquilo o cicloalquilo de cadena corta, enlaces internucleosídicos de heteroátomos y alquilo o cicloalquilo mixtos, o uno o más enlaces internucleosídicos heteroatómicos o heterocíclicos de cadena corta. Estos pueden incluir los que tienen enlaces morfolinos (formados en parte a partir de la porción de azúcar de un nucleósido); estructuras principales de siloxano; estructuras principales de sulfuro, sulfóxido y sulfona; estructuras principales de formacetilo y tioformacetilo; estructuras principales de metileno formacetilo y tioformacetilo; estructuras principales de riboacetilo; estructuras principales que contienen alqueno; estructuras principales de sulfamato; estructuras principales de metilenimino y metilenhidrazino; estructuras principales de sulfonato y sulfonamida; estructuras principales de amida; y otros que tienen partes componentes mixtas de N, O, S y CH₂.A nucleic acid may comprise polynucleotide backbones formed by short-chain alkyl or cycloalkyl internucleoside bonds, heteroatom and mixed alkyl or cycloalkyl internucleoside bonds, or one or more short-chain heteroatomic or heterocyclic internucleoside bonds. These may include those with morpholino bonds (formed in part from the sugar portion of a nucleoside); siloxane backbones; main sulfide, sulfoxide and sulfone structures; formacetyl and thioformacetyl backbones; methylene formacetyl and thioformacetyl backbones; riboacetyl backbones; alkene-containing backbones; sulfamate backbones; methyleneimino and methylenehydrazino backbones; sulfonate and sulfonamide backbones; main structures of amide; and others that have mixed component parts of N, O, S and CH ₂ .

Un ácido nucleico puede comprender un mimético de ácido nucleico. El término "mimético" incluye, por ejemplo, polinucleótidos en los que sólo el anillo de furanosa o tanto el anillo de furanosa como el enlace internucleotídico se sustituyen por grupos no de furanosa; la sustitución de sólo el anillo de furanosa también puede denominarse sustituto de azúcar. La fracción de base heterocíclica o una fracción de base heterocíclica modificada puede mantenerse para la hibridación con un ácido nucleico objetivo apropiado. Uno de estos ácidos nucleicos puede ser un ácido nucleico peptídico (PNA). En un PNA, la estructura principal de azúcar de un polinucleótido puede sustituirse por una estructura principal que contenga amida, en particular una estructura principal de aminoetilglicina. Los nucleótidos pueden conservarse y unirse directa o indirectamente a los átomos de nitrógeno aza de la porción amida de la estructura principal. La estructura principal de los compuestos de ANP puede comprender dos o más unidades de aminoetilglicina enlazadas, lo que confiere al ANP una estructura principal que contiene amida. Las moléculas de base heterocíclica pueden unirse directa o indirectamente a los átomos de nitrógeno aza de la porción amida de la estructura principal.A nucleic acid may comprise a nucleic acid mimetic. The term "mimetic" includes, for example, polynucleotides in which only the furanose ring or both the furanose ring and the internucleotide bond are replaced by non-furanose groups; Substitution of only the furanose ring can also be called a sugar substitute. The heterocyclic base moiety or a modified heterocyclic base moiety may be maintained for hybridization with an appropriate target nucleic acid. One of these nucleic acids may be a peptide nucleic acid (PNA). In a PNA, the sugar backbone of a polynucleotide may be replaced by an amide-containing backbone, in particular an aminoethylglycine backbone. The nucleotides can be conserved and attached directly or indirectly to the aza nitrogen atoms of the amide portion of the backbone. The backbone of ANP compounds may comprise two or more linked aminoethylglycine units, giving ANP an amide-containing backbone. Heterocyclic base molecules can bind directly or indirectly to the aza nitrogen atoms of the amide portion of the backbone.

Un ácido nucleico puede comprender una estructura principal de morfolino. Por ejemplo, un ácido nucleico puede comprender un anillo de morfolino de 6 miembros en lugar de un anillo de ribosa. En algunas de estas realizaciones, un fosforodiamidato u otro enlace internucleosídico no fosfodiéster puede sustituir a un enlace fosfodiéster.A nucleic acid may comprise a morpholino backbone. For example, a nucleic acid may comprise a 6-membered morpholino ring instead of a ribose ring. In some of these embodiments, a phosphorodiamidate or other non-phosphodiester internucleoside bond may substitute for a phosphodiester bond.

Un ácido nucleico puede comprender unidades morfolino enlazadas (es decir, ácido nucleico morfolino) que tienen bases heterocíclicas unidas al anillo morfolino. Los grupos de enlace pueden enlazar las unidades monoméricas de morfolino en un ácido nucleico de morfolino. Los compuestos oligoméricos no iónicos basados en morfolino pueden tener menos interacciones no deseadas con las proteínas celulares. Los polinucleótidos basados en morfolino pueden ser imitadores no iónicos de ácidos nucleicos. Una variedad de compuestos dentro de la clase morfolino pueden unirse usando diferentes grupos de enlace. Una clase adicional de polinucleótidos miméticos puede denominarse ácidos nucleicos ciclohexenílicos (CeNA). El anillo de furanosa normalmente presente en una molécula de ácido nucleico puede sustituirse por un anillo de ciclohexenilo. Los monómeros de fosforamidita protegidos con DMT de CeNA pueden prepararse y usarse para la síntesis de compuestos oligoméricos mediante química de fosforamidita. La incorporación de monómeros de CeNA en una cadena de ácido nucleico puede aumentar la estabilidad de un híbrido ^aDⁿ/ARN. Los oligoadenilatos de CeNA pueden formar complejos con complementos de ácidos nucleicos con una estabilidad similar a la de los complejos nativos. Otra modificación puede incluir los ácidos nucleicos bloqueados (LNA) en los que el grupo 2'-hidroxilo está enlazado al átomo de carbono 4' del anillo de azúcar formando de este modo un enlace 2'-C,4'-C-oximetileno formando de este modo una fracción de azúcar bicíclica. El enlace puede comprender, consistir en, o consistir esencialmente en un grupo metileno (-CH₂-), que une el átomo de oxígeno 2' y el átomo de carbono 4' en donde n es 1 o 2. El LNA y los análogos del LNA pueden mostrar estabilidades térmicas dúplex muy altas con el ácido nucleico complementario (Tm=+3 a 10° C), estabilidad frente a la degradación 3'-exonucleolítica y buenas propiedades de solubilidad.A nucleic acid may comprise linked morpholino units (i.e., morpholino nucleic acid) having heterocyclic bases attached to the morpholino ring. The linking groups can link the monomeric morpholino units into a morpholino nucleic acid. Morpholino-based nonionic oligomeric compounds may have fewer unwanted interactions with cellular proteins. Morpholino-based polynucleotides can be nonionic nucleic acid mimics. A variety of compounds within the morpholino class can be linked using different linking groups. An additional class of mimetic polynucleotides can be called cyclohexenyl nucleic acids (CeNA). The furanose ring normally present in a nucleic acid molecule can be replaced by a cyclohexenyl ring. DMT-protected phosphoramidite monomers of CeNA can be prepared and used for the synthesis of oligomeric compounds by phosphoramidite chemistry. Incorporation of CeNA monomers into a nucleic acid strand can increase the stability ^of a D ⁿ /RNA hybrid. CeNA oligoadenylates can form complexes with nucleic acid complements with stability similar to that of native complexes. Another modification may include locked nucleic acids (LNA) in which the 2'-hydroxyl group is bonded to the 4' carbon atom of the sugar ring thereby forming a 2'-C,4'-C-oxymethylene bond forming thus a bicyclic sugar fraction. The bond may comprise, consist of, or consist essentially of a methylene group (-CH ₂ -), linking the 2' oxygen atom and the 4' carbon atom where n is 1 or 2. LNA and analogs of LNA can show very high duplex thermal stabilities with the complementary nucleic acid (Tm=+3 at 10° C), stability against 3'-exonucleolytic degradation and good solubility properties.

En algunas realizaciones, un ácido nucleico también puede incluir modificaciones o sustituciones de nucleobases (a menudo denominadas simplemente "bases"). Como se usa en la presente, las nucleobases "no modificadas" o "naturales" pueden incluir las bases de purina, (por ejemplo, adenina (A) y guanina (G)), y las bases de pirimidina, (por ejemplo, timina (T), citosina (C) y uracilo (U)). Las nucleobases modificadas pueden incluir otras nucleobases sintéticas y naturales, como 5-metilcitosina (5-me-C), 5-hidroximetilcitosina, xantina, hipoxantina, 2-aminoadenina, 6-metilo y otros derivados alquílicos de adenina y guanina, 2-propilo y otros derivados alquílicos de adenina y guanina, 2-tiouracilo, 2-tiotimina y 2-tiocitosina, 5-halouracilo y citosina, 5-propinil (-C=C-CH3) uracilo y citosina y otros derivados alquinílicos de las bases de pirimidina, 6-azo uracilo, citosina y timina, 5-uracilo (pseudouracilo), 4-tiouracilo, 8-halo, 8-amino, 8-tiol, 8-tioalquilo, 8-hidroxilo y otras adeninas y guaninas 8-sustituidas, 5-halo particularmente 5-bromo, 5-trifluorometil y otros uracilos y citosinas 5-sustituidos, 7-metilguanina y 7-metiladenina, 2-F-adenina, 2-aminoadenina, 8-azaguanina y 8-azaadenina, 7-deazaguanina y 7-deazaadenina y 3-deazaguanina y 3-deazaadenina. Las nucleobases modificadas pueden incluir pirimidinas tricíclicas como fenoxazina citidina (1H-pirimido(5,4-b)(1,4)benzoxazin-2(3H)-ona), fenotiazina citidina (1H-pirimido(5,4-b)(1,4)benzotiazin-2(3H)-ona), abrazaderas G como una fenoxazina citidina sustituida (por ejemplo 9-(2-aminoetoxi)-H-pirimido(5,4-(b) (1,4)benzoxazin-2(3H)-ona), carbazol citidina (2H-pirimido(4,5-b)indol-2-ona), piridoindol citidina (Hpirido(3',':4,5)pirrolo[2,3-d]pirimidin-2-ona).In some embodiments, a nucleic acid may also include nucleobase modifications or substitutions (often referred to simply as "bases"). As used herein, "unmodified" or "natural" nucleobases may include purine bases (e.g., adenine (A) and guanine (G)), and pyrimidine bases (e.g., thymine (T), cytosine (C) and uracil (U)). Modified nucleobases may include other synthetic and natural nucleobases, such as 5-methylcytosine (5-me-C), 5-hydroxymethylcytosine, xanthine, hypoxanthine, 2-aminoadenine, 6-methyl and other alkyl derivatives of adenine and guanine, 2-propyl and other alkyl derivatives of adenine and guanine, 2-thiouracil, 2-thiothymine and 2-thiocytosine, 5-halouracil and cytosine, 5-propynyl (-C=C-CH3) uracil and cytosine and other alkynyl derivatives of pyrimidine bases , 6-azo uracil, cytosine and thymine, 5-uracil (pseudouracil), 4-thiouracil, 8-halo, 8-amino, 8-thiol, 8-thioalkyl, 8-hydroxyl and other 8-substituted adenines and guanines, 5 -halo particularly 5-bromo, 5-trifluoromethyl and other 5-substituted uracils and cytosines, 7-methylguanine and 7-methyladenine, 2-F-adenine, 2-aminoadenine, 8-azaguanine and 8-azaadenine, 7-deazaguanine and 7 -deazaadenine and 3-deazaguanine and 3-deazaadenine. Modified nucleobases may include tricyclic pyrimidines such as phenoxazine cytidine (1H-pyrimido(5,4-b)(1,4)benzoxazin-2(3H)-one), phenothiazine cytidine (1H-pyrimido(5,4-b)( 1,4)benzothiazin-2(3H)-one), G-clamps as a substituted cytidine phenoxazine (e.g. 9-(2-aminoethoxy)-H-pyrimido(5,4-(b) (1,4)benzoxazin- 2(3H)-one), carbazole cytidine (2H-pyrimido(4,5-b)indol-2-one), pyridoindole cytidine (Hpyrido(3',':4,5)pyrrolo[2,3-d] pyrimidin-2-one).

MuestrasSamples

Como se usa en la presente, el término "muestra" se refiere a una composición que comprende objetivos. Las muestras adecuadas para el análisis mediante los métodos, dispositivos y sistemas divulgados incluyen, pero no se limitan a, células, células individuales, tejidos, órganos u organismos. En algunas realizaciones, una muestra comprende muestras en bruto o sin procesar, por ejemplo, una célula completa, una población completa de células o un tejido entero. En algunas realizaciones, una muestra comprende una célula aislada o un extracto celular, o una fracción que contiene ácidos nucleicos de las mismas, por ejemplo ácidos nucleicos aislados, o una composición que comprende ácidos nucleicos enriquecidos o aislados. En algunas realizaciones, una muestra comprende un tejido fijado, una célula o una fracción que contiene ácidos nucleicos de los mismos. En algunas realizaciones, una muestra comprende un tejido congelado, célula o fracción que contiene ácidos nucleicos de los mismos. En algunas realizaciones, una muestra comprende una solución que contiene ácidos nucleicos. En algunas realizaciones, una muestra comprende una solución que comprende ácidos nucleicos. En algunas realizaciones, una muestra comprende ácidos nucleicos en un formato sólido, por ejemplo ácidos nucleicos liofilizados y similares.As used herein, the term "sample" refers to a composition comprising targets. Samples suitable for analysis by the disclosed methods, devices and systems include, but are not limited to, cells, single cells, tissues, organs or organisms. In some embodiments, a sample comprises raw or unprocessed samples, for example, a whole cell, a whole population of cells, or an entire tissue. In some embodiments, a sample comprises an isolated cell or cell extract, or a nucleic acid-containing fraction thereof, for example isolated nucleic acids, or a composition comprising enriched or isolated nucleic acids. In some embodiments, a sample comprises a tissue fixed, a cell or a fraction containing nucleic acids thereof. In some embodiments, a sample comprises a frozen tissue, cell, or nucleic acid-containing fraction thereof. In some embodiments, a sample comprises a solution containing nucleic acids. In some embodiments, a sample comprises a solution comprising nucleic acids. In some embodiments, a sample comprises nucleic acids in a solid format, for example, lyophilized nucleic acids and the like.

Especies de oligonucleótidos únicosUnique oligonucleotide species

Como se usa en las composiciones, métodos y oligonucleótidos de acuerdo con algunas realizaciones de la presente, una "especie de oligonucleótido único" se refiere a un oligonucleótido, por ejemplo ADN o ARN, que tiene una secuencia que difiere en por lo menos una base de otra especie de oligonucleótido único. Las especies de oligonucleótidos únicos de una composición de acuerdo con algunas realizaciones de la presente pueden compartir ciertas características estructurales o formatos, pero pueden tener secuencias de ácidos nucleicos diferentes entre sí. Las especies de oligonucleótidos únicos pueden ser de cadena sencilla o de cadena doble. Una composición puede comprender una diversidad de 100, 1000, 6500 o 65.000 especies de oligonucleótidos únicos. Opcionalmente, la composición que comprende especies de oligonucleótidos únicos también puede comprender dos o más oligonucleótidos de la misma especie de oligonucleótido único. A modo de ejemplo, una composición puede comprender dos especies de oligonucleótidos únicos: ACTT-X y TCTT-X, en la que "X" es una secuencia que es la misma para ambas especies de oligonucleótidos únicos. Sería posible que la composición comprendiera dos copias de un oligonucleótido que tuviera la secuencia ACTT-X, y una copia de un oligonucleótido que tuviera la secuencia TCTT-X.As used in the compositions, methods and oligonucleotides according to some embodiments herein, a "single oligonucleotide species" refers to an oligonucleotide, for example DNA or RNA, that has a sequence that differs by at least one base. of another single oligonucleotide species. The single oligonucleotide species of a composition according to some embodiments herein may share certain structural characteristics or formats, but may have nucleic acid sequences different from each other. Single oligonucleotide species can be single-stranded or double-stranded. A composition may comprise a variety of 100, 1000, 6500 or 65,000 species of unique oligonucleotides. Optionally, the composition comprising single oligonucleotide species may also comprise two or more oligonucleotides of the same single oligonucleotide species. By way of example, a composition may comprise two species of single oligonucleotides: ACTT-X and TCTT-X, where "X" is a sequence that is the same for both species of single oligonucleotides. It would be possible for the composition to comprise two copies of an oligonucleotide having the sequence ACTT-X, and one copy of an oligonucleotide having the sequence TCTT-X.

Las especies de oligonucleótidos de las composiciones, métodos y oligonucleótidos comprenden una región de código de barras y una región uniforme como se describe en la presente. Las regiones de código de barras pueden diferir entre especies de oligonucleótidos únicos, para proporcionar diversidad en una población de especies de oligonucleótidos únicos, mientras que las regiones uniformes permanecen iguales. La región de código de barras puede comprender un índice molecular como se describe en la presente. El índice molecular puede configurarse para minimizar el sesgo, por ejemplo minimizando el contenido de G de tal manera que ninguna especie de oligonucleótido único en una población de especies de oligonucleótidos únicos tenga un índice molecular con un contenido de G superior al 50%, y/o de tal manera que la secuencia "GG" no aparezca en el índice molecular (por ejemplo, de tal manera que no haya dos G consecutivas). La región del código de barras comprende un índice de muestra. El índice de muestra puede configurarse de tal manera que los oligonucleótidos únicos de un grupo dada puedan tener el mismo índice de muestra, pero diferentes índices moleculares. De este modo, si se analizan múltiples muestras, el índice de muestra puede indicar a qué muestra corresponde cada oligonucleótido. De este modo, después de que las especies de oligonucleótidos únicos se unan al objetivo, las especies de oligonucleótidos únicos pueden agruparse y pueden analizarse las secuencias. En algunas realizaciones, el índice de la muestra es 5' del índice de la molécula. En algunas realizaciones, el índice de la molécula es 5' del índice de la muestra. Opcionalmente, la especie de oligonucleótido único comprende un adaptador. El adaptador puede situarse 5' de la región del código de barras. En algunas realizaciones, el adaptador está configurado para inmovilizar la especie de oligonucleótido único en un sustrato.The oligonucleotide species of the compositions, methods and oligonucleotides comprise a barcode region and a uniform region as described herein. The barcode regions may differ between single oligonucleotide species, to provide diversity in a population of single oligonucleotide species, while the uniform regions remain the same. The barcode region may comprise a molecular index as described herein. The molecular index may be configured to minimize bias, for example by minimizing the G content such that no single oligonucleotide species in a population of single oligonucleotide species has a molecular index with a G content greater than 50%, and/ or in such a way that the sequence "GG" does not appear in the molecular index (for example, such that there are no two consecutive G's). The barcode region comprises a sample index. The sample index can be configured such that unique oligonucleotides from a given group can have the same sample index, but different molecular indexes. Thus, if multiple samples are analyzed, the sample index can indicate which sample each oligonucleotide corresponds to. In this way, after the single oligonucleotide species bind to the target, the single oligonucleotide species can be grouped and the sequences can be analyzed. In some embodiments, the index of the sample is 5' of the index of the molecule. In some embodiments, the index of the molecule is 5' of the index of the sample. Optionally, the single oligonucleotide species comprises an adapter. The adapter can be located 5' from the barcode region. In some embodiments, the adapter is configured to immobilize the single oligonucleotide species on a substrate.

Sin estar limitado por ninguna teoría, se contempla que las especies de oligonucleótidos únicos configuradas de acuerdo con algunas realizaciones de la presente pueden proporcionar resultados de análisis y secuenciación precisos con un sesgo reducido, mínimo o nulo, por ejemplo minimizando el contenido de G en la región del código de barras o código de barras molecular, y/o minimizando el contenido de G cerca de la región uniforme. A modo de ejemplo, una reducción del sesgo puede comprobarse mediante una reducción del ruido y/o un aumento de la sensibilidad para detectar el número de moléculas diferentes de un ácido nucleico objetivo en una muestra (ver, por ejemplo, las FIGS. 6-7). En algunas realizaciones, la reducción del sesgo puede determinarse como una disminución del ruido (ver la FIG. 6), por ejemplo, un error estándar más pequeño en el número de moléculas de ácido nucleico objetivo detectadas en la muestra. En algunas realizaciones, la reducción del sesgo puede determinarse como un aumento de la sensibilidad (ver la FIG. 7), por ejemplo, detectando un mayor número de moléculas diferentes de un ácido nucleico objetivo en una muestra (por ejemplo, se "pierden" menos moléculas de ácido nucleico objetivo). Como tal, en algunas realizaciones, las composiciones y los métodos permiten la cuantificación de moléculas de ácido nucleico objetivo en una muestra con bajo ruido, por ejemplo, un error estándar relativo inferior al 30%, por ejemplo, inferior al 30%, 25%, 20%, 15%, 10%, 5%, 4%, 3%, 2%, 1% o 0,01%, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, las composiciones y los métodos permiten la cuantificación de moléculas de ácidos nucleicos objetivo en una muestra con alta sensibilidad, por ejemplo, una sensibilidad (medida como un porcentaje del número real de ácidos nucleicos objetivo diferentes en una muestra que se detectan), por ejemplo, una sensibilidad de por lo menos el 70%, 75%, 80%, 85%, 90%, 85%, 96%, 97%, 98%, 99% o 99,9%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, los métodos o composiciones descritos en la presente reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo, o aumentando la sensibilidad y reduciendo el error estándar con respecto a las composiciones o métodos que comprenden especies de oligonucleótidos únicos en línea con la FIG. 3A.Without being limited by any theory, it is contemplated that single oligonucleotide species configured in accordance with some embodiments herein can provide accurate analysis and sequencing results with reduced, minimal or no bias, for example by minimizing the G content in the barcode region or molecular barcode, and/or minimizing the G content near the uniform region. By way of example, a reduction in bias can be verified by a reduction in noise and/or an increase in sensitivity to detect the number of different molecules of a target nucleic acid in a sample (see, for example, FIGS. 6- 7). In some embodiments, the reduction in bias can be determined as a decrease in noise (see FIG. 6), for example, a smaller standard error in the number of target nucleic acid molecules detected in the sample. In some embodiments, the reduction in bias can be determined as an increase in sensitivity (see FIG. 7), for example, by detecting a greater number of different molecules of a target nucleic acid in a sample (e.g., they are "missed"). fewer target nucleic acid molecules). As such, in some embodiments, the compositions and methods allow for the quantification of target nucleic acid molecules in a sample with low noise, e.g., a relative standard error of less than 30%, e.g., less than 30%, 25%. , 20%, 15%, 10%, 5%, 4%, 3%, 2%, 1% or 0.01%, including intervals between two of the listed values. In some embodiments, the compositions and methods allow the quantification of target nucleic acid molecules in a sample with high sensitivity, e.g., a sensitivity (measured as a percentage of the actual number of different target nucleic acids in a sample that are detected). , for example, a sensitivity of at least 70%, 75%, 80%, 85%, 90%, 85%, 96%, 97%, 98%, 99% or 99.9%, including intervals between two any of the values listed. In some embodiments, the methods or compositions described herein reduce bias by increasing the sensitivity, reducing the relative standard error, or by increasing the sensitivity and reducing the standard error relative to compositions or methods comprising single oligonucleotide species in line with FIG. 3A.

La FIG. 3A ilustra un diseño de oligonucleótido convencional. Se observa que la secuencia de índice molecular NNNNNNN (en la que cada N es A, G, C, o T, y en la que dos cualquiera de las N pueden ser iguales o diferentes entre sí) puede comprender dos o más G consecutivas, y/o puede tener un contenido de G de más del 50%. Por ejemplo, un subconjunto de la población de especies de oligonucleótidos únicos de acuerdo con la FIG. 3A puede ser rico en G. Sin estar limitado por ninguna teoría, se contempla que por lo menos algunas especies de oligonucleótidos únicos en una población basada en la configuración de la FIG. 3A podrían verse favorecidas, lo que llevaría a un sesgo. Otro ejemplo de índice molecular "de referencia" que puede estar sujeto a sesgo es la secuencia 'BBBBBBV' (en la que B es C, G, o T, y en la que V es A, C, o G). En las FIGS. 3B-3H se ilustran ejemplos de configuraciones para especies de oligonucleótidos únicos de acuerdo con algunas realizaciones de la presente. Como se muestra en las FIGS. 3B-C, la adición de TTT o TTTTT después del índice molecular de acuerdo con algunas realizaciones de la presente puede reducir la riqueza en G a lo largo de la región (la longitud de los espaciadores no G puede ser variable, y puede comprender cualquier nucleótido o nucleótidos no G). En la FIG. 3D, el índice de la muestra y las posiciones de la molécula se intercambian (de tal manera que el índice de la molécula está 5' del índice de la muestra), de tal manera que los posibles MI ricos en G en por lo menos un subconjunto de especies de oligonucleótidos únicos no serían adyacentes a regiones objetivo específicas de genes potencialmente ricas en G. En las FIGS. 3E-F, la adición de TTT o TTTTT a la configuración ilustrada en la FIG. 3D puede minimizar adicionalmente las regiones potencialmente ricas en G. Sin estar limitado por ninguna teoría, se observa que los códigos de barras de la muestra pueden tener frecuentemente contenidos bajos de G (por ejemplo, para ser "no ricos en G"). Se observa además que la longitud de los espaciadores no G puede ser variable y puede ser cualquier nucleótido no G). En las configuraciones de las FIGS. 3G-H, los códigos de barras moleculares comprenden "HHHHHHHH" o "HNHNHNHN" (en los que H es A, C o T, y en los que dos H cualquiera pueden ser iguales o diferentes entre sí, y en los que dos N cualquiera pueden ser iguales o diferentes entre sí).FIG. 3A illustrates a conventional oligonucleotide design. It is noted that the molecular index sequence NNNNNNN (in which each N is A, G, C, or T, and in which any two of the N can be the same or different from each other) may comprise two or more consecutive Gs, and/or may have a G content of more than 50%. For example, a subset of the population of single oligonucleotide species according to FIG. 3A may be G-rich. Without being limited by any theory, it is contemplated that at least some unique oligonucleotide species in a population based on the configuration of FIG. 3A could be favored, leading to bias. Another example of a "reference" molecular index that may be subject to bias is the sequence 'BBBBBBV' (where B is C, G, or T, and where V is A, C, or G). In FIGS. 3B-3H illustrate examples of configurations for single oligonucleotide species according to some embodiments herein. As shown in FIGS. 3B-C, the addition of TTT or TTTTT after the molecular index according to some embodiments herein can reduce the G-richness throughout the region (the length of the non-G spacers can be variable, and can comprise any nucleotide or non-G nucleotides). In FIG. 3D, the sample index and molecule positions are swapped (such that the molecule index is 5' to the sample index), such that possible G-rich MIs in at least one subset of single oligonucleotide species would not be adjacent to potentially G-rich gene-specific target regions. In FIGS. 3E-F, the addition of TTT or TTTTT to the configuration illustrated in FIG. 3D can further minimize potentially G-rich regions. Without being limited by any theory, it is noted that sample barcodes may frequently have low G contents (e.g., to be "non-G-rich"). It is further noted that the length of the non-G spacers can be variable and can be any non-G nucleotide). In the configurations of FIGS. 3G-H, molecular barcodes comprise "HHHHHHHH" or "HNHNHNHN" (in which H is A, C or T, and in which any two H can be the same or different from each other, and in which any two N any can be the same or different from each other).

En algunas realizaciones, cada una de una pluralidad de especies de oligonucleótidos únicos (por ejemplo, cada una de las especies de oligonucleótidos únicos) en una composición o método tiene una longitud de por lo menos 24 nucleótidos, por ejemplo por lo menos 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 55, 60, 65, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, o 140 nucleótidos de longitud, incluyendo los intervalos entre dos cualquiera de los valores enumerados, por ejemplo 24 140, 24-135, 24-130, 24-125, 24-120, 24-115, 24-110, 24-105, 24-100, 24-95, 24-90, 24-85, 24-80, 24-75, 24-70, 24 65, 24-60, 24-55, 24-50, 24-45, 24-40, 25-140, 25-135, 25-130, 25-125, 25-120, 25-115, 25-110, 25-105, 25-100, 25 95, 25-90, 25-85, 25-80, 25-75, 25-70, 25-65, 25-60, 25-55, 25-50, 25-45, 25-40, 27-140, 27-135, 27-130, 27-125, 27 120, 27-115, 27-110, 27-105, 27-100, 27-95, 27-90, 27-85, 27-80, 27-75, 27-70, 27-65, 27-60, 27-55, 27-50, 27-45, 27-40, 30-140, 30-135, 30-130, 30-125, 30-120, 30-115, 30-110, 30-105, 30-100, 30-95, 30-90, 30-85, 30-80, 30-75, 30-70, 30-65, 30-60, 30-55, 30-50, 30-45, 30-40, 35-140, 35-135, 35-130, 35-125, 35-120, 35-115, 35-110, 35-105, 35-100, 35-95, 35-90, 35-85, 35-80, 35-75, 35-70, 35-65, 35-60, 35-55, 35-50, 35-45, 35-40, 40-140, 40-135, 40-130, 40-125, 40-120, 40-115, 40-110, 40-105, 40-100, 40-95, 40-90, 40-85, 40-80, 40-75, 40-70, 40-65, 40-60, 40-55, 40 50, o 40-45 nucleótidos de longitud. Opcionalmente, diferentes especies de oligonucleótidos únicos en una composición o método tienen diferentes longitudes entre sí. Opcionalmente, todas las especies de oligonucleótidos únicos en una composición o método tienen la misma longitud entre sí. Opcionalmente, algunas especies de oligonucleótidos únicos en una composición o método tienen la misma longitud entre sí, mientras que algunas especies de oligonucleótidos únicos tienen longitudes diferentes entre sí.In some embodiments, each of a plurality of single oligonucleotide species (e.g., each single oligonucleotide species) in a composition or method has a length of at least 24 nucleotides, e.g., at least 24, 25 , 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 , 55, 60, 65, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, or 140 nucleotides in length, including intervals between two any of the values listed, for example 24 140, 24-135, 24-130, 24-125, 24-120, 24-115, 24-110, 24-105, 24-100, 24-95, 24-90 , 24-85, 24-80, 24-75, 24-70, 24 65, 24-60, 24-55, 24-50, 24-45, 24-40, 25-140, 25-135, 25- 130, 25-125, 25-120, 25-115, 25-110, 25-105, 25-100, 25 95, 25-90, 25-85, 25-80, 25-75, 25-70, 25 -65, 25-60, 25-55, 25-50, 25-45, 25-40, 27-140, 27-135, 27-130, 27-125, 27 120, 27-115, 27-110, 27-105, 27-100, 27-95, 27-90, 27-85, 27-80, 27-75, 27-70, 27-65, 27-60, 27-55, 27-50, 27- 45, 27-40, 30-140, 30-135, 30-130, 30-125, 30-120, 30-115, 30-110, 30-105, 30-100, 30-95, 30-90, 30-85, 30-80, 30-75, 30-70, 30-65, 30-60, 30-55, 30-50, 30-45, 30-40, 35-140, 35-135, 35- 130, 35-125, 35-120, 35-115, 35-110, 35-105, 35-100, 35-95, 35-90, 35-85, 35-80, 35-75, 35-70, 35-65, 35-60, 35-55, 35-50, 35-45, 35-40, 40-140, 40-135, 40-130, 40-125, 40-120, 40-115, 40- 110, 40-105, 40-100, 40-95, 40-90, 40-85, 40-80, 40-75, 40-70, 40-65, 40-60, 40-55, 40 50, or 40-45 nucleotides long. Optionally, different species of single oligonucleotides in a composition or method have different lengths from each other. Optionally, all single oligonucleotide species in a composition or method are of the same length as each other. Optionally, some species of single oligonucleotides in a composition or method have the same length as each other, while some species of single oligonucleotides have different lengths from each other.

En algunas realizaciones, la región uniforme comprende, consiste o consiste esencialmente en una secuencia de amplificación de 5' a 3' para un ácido nucleico objetivo, o clase de ácidos nucleicos objetivo (esta secuencia de amplificación también puede denominarse región "específica de objetivo"). Por ejemplo, si los ácidos nucleicos objetivo comprenden ARNm, la región uniforme puede comprender oligo dT. Por ejemplo, si los ácidos nucleicos objetivo comprenden regiones variables de un receptor de células T, la región uniforme puede comprender secuencias que flanquean regiones variables de un ARNm de receptor de células T. En algunas realizaciones, la región uniforme comprende por lo menos 10 nucleótidos que son complementarios al ácido nucleico objetivo, por ejemplo por lo menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, o 30 nucleótidos complementarios al objetivo, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 10-30, 10-29, 10-28, 10 27, 10-26, 10-25, 10-24, 10-23, 10-22, 10-21, 10-20, 11-30, 11-29, 11-28, 11-27, 11-26, 11-25, 11-24, 11-23, 11-22, 11-21, 11-20, 12-30, 12-29, 12-28, 12-27, 12-26, 12-25, 12-24, 12-23, 12-22, 12-21, 12-20, 15-30, 15-29, 15-28, 15 27, 15-26, 15-25, 15-24, 15-23, 15-22, 15-21, 15-20, 20-30, 20-29, 20-28, 20-27, 20-26, 20-25, 20-24, 20-23, 20-22, o 20-21 nucleótidos. En algunas realizaciones, la región uniforme comprende una región específica de objetivo que hibrida con una secuencia que flanquea una secuencia que codifica una región variable de un receptor de células inmunitarias, por ejemplo una región variable de un receptor de células T, un receptor de células B, o inmunoglobulina, por ejemplo un anticuerpo. Cabe señalar que, como los receptores de células B comprenden inmunoglobulina unida a membrana, las regiones objetivo específicas para secuencias codificantes de la región variable de inmunoglobulina son típicamente adecuadas para amplificar receptores de células B, así como inmunoglobulinas secretadas (por ejemplo, anticuerpos). Ambas opciones se indican en la presente para aclarar que se contempla la amplificación de inmunoglobulinas unidas a membrana (receptores de células B) y también de inmunoglobulinas secretadas (anticuerpos). Como se usa en la presente, se entenderá que cuando los cebadores o las regiones uniformes comprendan regiones específicas del objetivo que comprendan "secuencias flanqueantes" (y variaciones de este término raíz, como "secuencias flanqueantes") de regiones variables de receptores de células inmunitarias y/o inmunoglobulinas, se entenderá que las regiones específicas de objetivo comprenden por lo menos una de (i) secuencias que hibridan en sentido descendente (3') de la secuencia que codifica la región variable y, en particular, que hibridan con la cadena de la secuencia codificante, y por lo tanto están configuradas para producir una cadena que comprende la secuencia codificante de la región variable tras la extensión en la dirección 5' a 3'; o (ii) secuencias que hibridan en sentido ascendente (5') de la secuencia que codifica la región variable y, en particular, hibridan con la cadena complementaria a la de la secuencia codificante y, por lo tanto, están configuradas para producir una cadena que comprende el complemento inverso de la secuencia codificante de la región variable tras la extensión en la dirección 5' a 3'. Por tanto, una secuencia flanqueante puede configurarse para la amplificación de las secuencias codificantes de la región variable junto con un cebador adecuado (por ejemplo, una secuencia flanqueante al otro lado de la región variable). Se entenderá que una secuencia flanqueante no necesita necesariamente detenerse o comenzar exactamente donde comienza o se detiene la secuencia codificante y, por lo tanto, es permisible que haya secuencias intermedias entre un sitio de hibridación de una secuencia flanqueante y la propia secuencia codificante de la región variable. Se entenderá que, aunque una secuencia flanqueante generalmente hibrida con una secuencia externa a la secuencia codificante de la región variable para amplificar una amplia variedad de posibles secuencias codificantes de la región variable, en algunas realizaciones, la "secuencia flanqueante" de la región variable comprende además alguna secuencia de la propia región variable, por ejemplo, si interesa un subconjunto de posibles regiones variables. Sin embargo, una "secuencia flanqueante", como se usa en la presente, no requiere que una única secuencia flanquee ambos lados de la región variable. Más bien, se entenderá que cuando se mencionan secuencias flanqueantes junto con composiciones, métodos y oligonucleótidos de algunas realizaciones de la presente, también se contemplan expresamente secuencias 5' y 3' que comprenden pares de cebadores adecuados para amplificar la secuencia codificante de la región variable.In some embodiments, the uniform region comprises, consists of, or consists essentially of a 5' to 3' amplification sequence for a target nucleic acid, or class of target nucleic acids (this amplification sequence may also be referred to as a "target-specific" region. ). For example, if the target nucleic acids comprise mRNA, the uniform region may comprise oligo dT. For example, if the target nucleic acids comprise variable regions of a T cell receptor, the uniform region may comprise sequences flanking variable regions of a T cell receptor mRNA. In some embodiments, the uniform region comprises at least 10 nucleotides. that are complementary to the target nucleic acid, for example at least 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28 , 29, or 30 nucleotides complementary to the target, including intervals between any two of the values listed, for example 10-30, 10-29, 10-28, 10 27, 10-26, 10-25, 10-24, 10 -23, 10-22, 10-21, 10-20, 11-30, 11-29, 11-28, 11-27, 11-26, 11-25, 11-24, 11-23, 11-22 , 11-21, 11-20, 12-30, 12-29, 12-28, 12-27, 12-26, 12-25, 12-24, 12-23, 12-22, 12-21, 12 -20, 15-30, 15-29, 15-28, 15 27, 15-26, 15-25, 15-24, 15-23, 15-22, 15-21, 15-20, 20-30, 20-29, 20-28, 20-27, 20-26, 20-25, 20-24, 20-23, 20-22, or 20-21 nucleotides. In some embodiments, the uniform region comprises a target-specific region that hybridizes to a sequence flanking a sequence encoding a variable region of an immune cell receptor, for example a variable region of a T cell receptor, an immune cell receptor. B, or immunoglobulin, for example an antibody. It should be noted that, as B cell receptors comprise membrane-bound immunoglobulin, target regions specific for immunoglobulin variable region coding sequences are typically suitable for amplifying B cell receptors as well as secreted immunoglobulins (e.g., antibodies). Both options are indicated herein to clarify that amplification of membrane-bound immunoglobulins (B cell receptors) and also secreted immunoglobulins (antibodies) is contemplated. As used herein, it will be understood that when primers or uniform regions comprise target-specific regions that comprise "flanking sequences" (and variations of this root term, such as "flanking sequences") of immune cell receptor variable regions and/or immunoglobulins, the specific target regions will be understood to comprise at least one of (i) sequences that hybridize downstream (3') of the sequence encoding the variable region and, in particular, which hybridize to the coding sequence strand, and are therefore configured to produce a strand comprising the variable region coding sequence upon extension in the 5' to 3'direction; or (ii) sequences that hybridize upstream (5') of the sequence encoding the variable region and, in particular, hybridize to the strand complementary to that of the coding sequence and are therefore configured to produce a strand comprising the reverse complement of the coding sequence of the variable region after extension in the 5' to 3' direction. Therefore, a flanking sequence can be configured for amplification of the coding sequences of the variable region together with a suitable primer (for example, a flanking sequence on the other side of the variable region). It will be understood that a flanking sequence need not necessarily stop or start exactly where the coding sequence begins or stops and, therefore, it is permissible for there to be intermediate sequences between a hybridization site of a flanking sequence and the coding sequence of the region itself. variable. It will be understood that, although a flanking sequence generally hybridizes to a sequence external to the variable region coding sequence to amplify a wide variety of possible variable region coding sequences, in some embodiments, the "flanking sequence" of the variable region comprises also some sequence of the variable region itself, for example, if a subset of possible variable regions is of interest. However, a "flanking sequence," as used herein, does not require that a single sequence flank both sides of the variable region. Rather, it will be understood that when flanking sequences are mentioned in conjunction with compositions, methods and oligonucleotides of some embodiments herein, 5' and 3' sequences comprising primer pairs suitable for amplifying the variable region coding sequence are also expressly contemplated. .

Una especie de oligonucleótido único comprende una región de código de barras como se describe en la presente y también comprende una región uniforme que comprende una región específica de objetivo que comprende una secuencia que flanquea una secuencia codificante de región variable de receptor de células inmunitarias y/o inmunoglobulina. También puede proporcionarse un segundo cebador de oligonucleótidos para el otro lado de la secuencia codificante de la región variable, para amplificar la secuencia de la región variable junto con la región específica del objetivo de la región uniforme. La región uniforme comprende una región específica del objetivo, colocada 3' de la región del código de barras, y que comprende una secuencia que flanquea una región variable de inmunoglobulina (y, por tanto, flanquea una región variable de receptor de células B, así como una región variable de anticuerpo correspondiente), por ejemplo flanqueando la región variable de un locus de cadena pesada de inmunoglobulina, flanqueando la región variable de un locus kappa de inmunoglobulina (cadena ligera), o flanqueando la región variable de un locus lambda de inmunoglobulina (cadena ligera). En algunas realizaciones, la región uniforme comprende una región específica del objetivo, situada 3' de la región del código de barras, y que comprende una secuencia que flanquea por lo menos una de las regiones variables de una cadena alfa del receptor de células T, una región variable de una cadena beta del receptor de células T, una región variable de una cadena gamma del receptor de células T, o una cadena delta del receptor de células T.A single oligonucleotide species comprises a barcode region as described herein and also comprises a uniform region comprising a target-specific region comprising a sequence flanking an immune cell receptor variable region coding sequence and/or or immunoglobulin. A second oligonucleotide primer may also be provided for the other side of the variable region coding sequence, to amplify the variable region sequence together with the target-specific region of the uniform region. The uniform region comprises a target-specific region, positioned 3' of the barcode region, and comprising a sequence that flanks an immunoglobulin variable region (and therefore flanks a B cell receptor variable region, as well as a corresponding antibody variable region), for example flanking the variable region of an immunoglobulin heavy chain locus, flanking the variable region of an immunoglobulin kappa (light chain) locus, or flanking the variable region of an immunoglobulin lambda locus (light chain). In some embodiments, the uniform region comprises a target-specific region, located 3' of the barcode region, and comprising a sequence flanking at least one of the variable regions of a T cell receptor alpha chain, a variable region of a T cell receptor beta chain, a variable region of a T cell receptor gamma chain, or a T cell receptor delta chain.

En algunas realizaciones, un kit comprende una composición que comprende especies de oligonucleótidos únicos como se describe en la presente, en la que cada una de las especies de oligonucleótidos únicos comprenden una secuencia uniforme que flanquea una secuencia codificante de región variable de receptor de células inmunitarias o inmunoglobulina como se describe en la presente. El kit comprende además un cebador de oligonucleótidos configurado para hibridar con la cadena opuesta y en el otro lado de la secuencia codificante de región variable en comparación con la región uniforme, y está por tanto configurado para amplificar la secuencia de región variable junto con la región específica de objetivo de la región uniforme. En algunas realizaciones, la secuencia amplificada tiene por lo menos 1 kb y comprende la secuencia codificante variable, por ejemplo por lo menos 1 kb, 2kb, 3kb, 4kb, o 5kb, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, a kit comprises a composition comprising single oligonucleotide species as described herein, wherein each of the single oligonucleotide species comprises a uniform sequence flanking an immune cell receptor variable region coding sequence. or immunoglobulin as described herein. The kit further comprises an oligonucleotide primer configured to hybridize to the opposite strand and on the other side of the variable region coding sequence as compared to the uniform region, and is therefore configured to amplify the variable region sequence together with the specific target of the uniform region. In some embodiments, the amplified sequence is at least 1 kb and comprises the variable coding sequence, for example at least 1 kb, 2 kb, 3 kb, 4 kb, or 5 kb, including intervals between any two of the listed values.

Cabe señalar que los ácidos nucleicos que codifican regiones variables de algunos receptores de células inmunitarias o inmunoglobulinas pueden tener más de 1 kb de longitud. Por ejemplo, las secuencias de regiones variables de receptores de células T pueden comprender una secuencia codificante CDR3 que termina a más de 1 kb de distancia de donde comienza la secuencia codificante CDR1. Sin estar limitado por la teoría, se observa que algunos enfoques de secuenciación convencionales y de próxima generación, por ejemplo secuenciación por síntesis, están limitados a lecturas cortas que son típicamente considerablemente menores de 1 kb. Por consiguiente, se contempla que los métodos, composiciones y kits de acuerdo con algunas realizaciones de la presente puedan ser útiles para codificar con códigos de barras y analizar ácidos nucleicos que codifican regiones variables de receptores de células inmunes y/o inmunoglobulinas, que de otro modo no serían susceptibles de secuenciación de lectura única de menos de 1 kb. Por consiguiente, en algunas realizaciones, la especie de oligonucleótido único comprende una secuencia que flanquea una secuencia codificante de región variable de receptor de célula inmunitaria o inmunoglobulina, está configurada para amplificar una secuencia de por lo menos 1 kb y que comprende la secuencia codificante de región variable, por ejemplo por lo menos 1 kb, 2 kb, 3 kb, 4 kb o 5 kb, incluyendo intervalos entre dos cualquiera de los valores enumerados.It should be noted that nucleic acids encoding variable regions of some immune cell receptors or immunoglobulins can be more than 1 kb in length. For example, T cell receptor variable region sequences may comprise a CDR3 coding sequence that ends more than 1 kb away from where the CDR1 coding sequence begins. Without being limited by theory, it is noted that some conventional and next generation sequencing approaches, for example sequencing by synthesis, are limited to short reads that are typically considerably less than 1 kb. Accordingly, it is contemplated that the methods, compositions and kits according to some embodiments herein may be useful for barcoding and analyzing nucleic acids that encode variable regions of immune cell receptors and/or immunoglobulins, which otherwise Otherwise they would not be amenable to single read sequencing of less than 1 kb. Accordingly, in some embodiments, the single oligonucleotide species comprises a sequence that flanks an immune cell receptor or immunoglobulin variable region coding sequence, is configured to amplify a sequence of at least 1 kb, and comprises the coding sequence of variable region, for example at least 1 kb, 2 kb, 3 kb, 4 kb or 5 kb, including intervals between any two of the listed values.

Regiones con códigos de barrasRegions with barcodes

De acuerdo con las composiciones, métodos y oligonucleótidos de algunas realizaciones de la presente, una región de código de barras comprende una secuencia de ácido nucleico que es útil para identificar un ácido nucleico, por ejemplo un ácido nucleico objetivo de una muestra, o un amplicón o transcrito inverso derivado de un único ácido nucleico objetivo de una muestra. Por ejemplo, dos transcritos de ARNm de una muestra pueden transcribirse inversamente y codificarse con un código de barras de tal manera que los ácidos nucleicos correspondientes al primer ARNm incluyan un primer código de barras, y los ácidos nucleicos correspondientes al segundo ARNm incluyan un segundo código de barras. Tras la secuenciación (u otro análisis), puede obtenerse información sobre los ARNm individuales de la muestra, por ejemplo, el número de copias, incluso después de la amplificación. Sin embargo, si una gran población de ARNm se etiqueta estocásticamente y algunos códigos de barras se representan más favorablemente (por ejemplo, debido a la estabilidad, la eficiencia de amplificación, etc.), puede producirse un sesgo, sesgando la capacidad de cuantificar los ácidos nucleicos de una muestra. Por tanto, de acuerdo con algunas realizaciones de la presente, cada especie de oligonucleótido único en una población puede comprender una región de código de barras única. Cuanto mayor sea la diversidad de códigos de barras, mayor será la diversidad de especies de oligonucleótidos únicos, y mayor será la probabilidad de que una secuencia de código de barras particular se asocie con un único ácido nucleico objetivo de una muestra. En algunas realizaciones, los métodos o composiciones que comprenden especies de oligonucleótidos únicos que comprenden códigos de barras moleculares como se describe en la presente reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo, o aumentando la sensibilidad y reduciendo el error estándar. Como se usa en la presente, un "código de barras de molécula" también puede denominarse "código de barras molecular", "índice molecular (IM)" o identificador molecular único (IMU). En la presente, un "código de barras de muestra" también puede denominarse "índice de muestra (IS)".According to the compositions, methods and oligonucleotides of some embodiments herein, a barcode region comprises a nucleic acid sequence that is useful for identifying a nucleic acid, for example a target nucleic acid from a sample, or an amplicon or reverse transcript derived from a single target nucleic acid from a sample. For example, two mRNA transcripts from a sample can be reverse transcribed and barcoded such that the nucleic acids corresponding to the first mRNA include a first barcode, and the nucleic acids corresponding to the second mRNA include a second code. of bars. After sequencing (or other analysis), information about individual mRNAs in the sample, for example copy number, can be obtained even after amplification. However, if a large population of mRNA is stochastically labeled and some barcodes are represented more favorably (e.g. due to stability, amplification efficiency, etc.), bias may occur, skewing the ability to quantify the nucleic acids from a sample. Therefore, according to some embodiments herein, each unique oligonucleotide species in a population may comprise a unique barcode region. The greater the barcode diversity, the greater the diversity of single oligonucleotide species, and the greater the probability that a particular barcode sequence will be associated with a single target nucleic acid in a sample. In some embodiments, methods or compositions comprising single oligonucleotide species comprising molecular barcodes as described herein reduce bias by increasing sensitivity, reducing relative standard error, or increasing sensitivity and reducing standard error. As used herein, a “molecule barcode” may also be referred to as a “molecular barcode,” “molecular index (MI),” or unique molecular identifier (IMU). Herein, a "sample barcode" may also be referred to as a "sample index (SI)".

Una región de código de barras puede comprender un código de barras molecular. El código de barras molecular puede comprender una secuencia única, de tal manera que cuando múltiples ácidos nucleicos de la muestra (que pueden ser iguales y/o diferentes entre sí) se asocian uno a uno con códigos de barras moleculares, los diferentes ácidos nucleicos de la muestra pueden diferenciarse entre sí por los códigos de barras moleculares. Como tal, incluso si una muestra comprende dos ácidos nucleicos con la misma secuencia, cada uno de estos dos ácidos nucleicos puede etiquetarse con un código de barras molecular diferente, de tal manera que los ácidos nucleicos de la población puedan cuantificarse, incluso después de la amplificación. El código de barras molecular puede comprender una secuencia de ácido nucleico de por lo menos 5 nucleótidos, por ejemplo por lo menos 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, o 50 nucleótidos, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 5-50, 5-45, 5-40, 5-35, 5-30, 5-25, 5-20, 5-15, 5-14, 5-13, 5-12, 5-11, 5-10, 5-9, 5-8, 5-7, 5-6, 6-50, 6-45, 6-40, 6-35, 6 30, 6-25, 6-20, 6-15, 6-14, 6-13, 6-12, 6-11,6-10, 6-9, 6-8, 6-7, 7-50, 7-45, 7-40, 7-35, 7-30, 7-25, 7-20, 7-15, 7-14, 7 13, 7-12, 7-11, 7-10, 7-9, 7-8, 8-50, 8-45, 8-40, 8-35, 8-30, 8-25, 8-20, 8-15, 8-14, 8-13, 8-12, 8-11, 8-10, 8-9, 9-50, 9 45, 9-40, 9-35, 9-30, 9-25, 9-20, 9-15, 9-14, 9-13, 9-12, 9-11, 9-10, 10-50, 10-45, 10-40, 10-35, 10-30, 10-25, 10-20, 10-15, 10-14, 10-13, 10-12, o 10-11 nucleótidos. En algunas realizaciones, la secuencia de ácido nucleico del código de barras molecular comprende una secuencia única, por ejemplo, de tal manera que cada especie de oligonucleótido único en una composición comprende un código de barras molecular diferente. En algunas realizaciones, dos o más especies de oligonucleótidos únicos pueden comprender el mismo código de barras molecular, pero todavía diferir entre sí. Por ejemplo, si las especies de oligonucleótidos únicos incluyen códigos de barras de muestra, cada especie de oligonucleótido único con un código de barras de muestra particular puede comprender un código de barras molecular diferente. La composición reivindicada que comprende especies de oligonucleótidos únicos comprende una diversidad de códigos de barras moleculares de por lo menos 1000 códigos de barras moleculares diferentes, y por tanto por lo menos 1000 especies de oligonucleótidos únicos. En algunas realizaciones, una composición que comprende especies de oligonucleótidos únicos comprende una diversidad de códigos de barras moleculares de por lo menos 6.500 códigos de barras moleculares diferentes, y por lo tanto por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, una composición que comprende especies de oligonucleótidos únicos comprende una diversidad de códigos de barras moleculares de por lo menos 65.000 códigos de barras moleculares diferentes, y por lo tanto por lo menos 65.000 especies de oligonucleótidos únicos.A barcode region may comprise a molecular barcode. The molecular barcode may comprise a unique sequence, such that when multiple nucleic acids of the sample (which may be the same and/or different from each other) are associated one by one with molecular barcodes, the different nucleic acids of The sample can be differentiated from each other by molecular barcodes. As such, even if a sample comprises two nucleic acids with the same sequence, each of these two nucleic acids can be labeled with a different molecular barcode, such that nucleic acids in the population can be quantified, even after amplification. The molecular barcode may comprise a nucleic acid sequence of at least 5 nucleotides, for example at least 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, or 50 nucleotides, including intervals between any two of the values listed, for example 5-50, 5-45, 5-40, 5-35, 5-30, 5-25, 5-20, 5-15, 5-14, 5-13, 5-12, 5-11, 5-10, 5-9, 5-8, 5-7, 5-6, 6- 50, 6-45, 6-40, 6-35, 6 30, 6-25, 6-20, 6-15, 6-14, 6-13, 6-12, 6-11,6-10, 6 -9, 6-8, 6-7, 7-50, 7-45, 7-40, 7-35, 7-30, 7-25, 7-20, 7-15, 7-14, 7 13, 7-12, 7-11, 7-10, 7-9, 7-8, 8-50, 8-45, 8-40, 8-35, 8-30, 8-25, 8-20, 8- 15, 8-14, 8-13, 8-12, 8-11, 8-10, 8-9, 9-50, 9 45, 9-40, 9-35, 9-30, 9-25, 9 -20, 9-15, 9-14, 9-13, 9-12, 9-11, 9-10, 10-50, 10-45, 10-40, 10-35, 10-30, 10-25 , 10-20, 10-15, 10-14, 10-13, 10-12, or 10-11 nucleotides. In some embodiments, the nucleic acid sequence of the molecular barcode comprises a unique sequence, for example, such that each unique oligonucleotide species in a composition comprises a different molecular barcode. In some embodiments, two or more unique oligonucleotide species may comprise the same molecular barcode, but still differ from each other. For example, if the unique oligonucleotide species include sample barcodes, each unique oligonucleotide species with a particular sample barcode may comprise a different molecular barcode. The claimed composition comprising unique oligonucleotide species comprises a molecular barcode diversity of at least 1000 different molecular barcodes, and therefore at least 1000 unique oligonucleotide species. In some embodiments, a composition comprising unique oligonucleotide species comprises a molecular barcode diversity of at least 6,500 different molecular barcodes, and therefore at least 6,500 unique oligonucleotide species. In some embodiments, a composition comprising unique oligonucleotide species comprises a molecular barcode diversity of at least 65,000 different molecular barcodes, and therefore at least 65,000 unique oligonucleotide species.

Sin estar limitado por ninguna teoría, se contempla que un código de barras molecular que comprende un bajo contenido de G (por ejemplo, 50% G o menos, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G) puede minimizar el sesgo para una composición o grupo de especies de oligonucleótidos únicos que se usan para codificar con códigos de barras una población de ácidos nucleicos (por ejemplo, minimizar el sesgo que amplificaría preferiblemente códigos de barras que comprenden un contenido G más alto). Se observa que los enfoques convencionales de codificación con códigos de barras muestran típicamente un sesgo a favor de un contenido G más alto. Por ejemplo, las FIGS. 4A, 4B, y 4C ilustran muestras de uso de nucleótidos en códigos de barras moleculares convencionales de composiciones que comprenden numerosos códigos de barras moleculares únicos para ES32, TRAC (FIG. 4A), ES32 TRBC (FIG. 4B), y ES32 OligodT (FIG. 4C). Es decir, en todo caso, los códigos de barras moleculares convencionales y las regiones de código de barras, diseñadas sin respetar ciertas orientaciones proporcionadas en la presente, pueden comprender un contenido de G más alto que el que se esperaría por probabilidad aleatoria. En algunas realizaciones, los métodos o composiciones que comprenden especies de oligonucleótidos únicos que comprenden códigos de barras moleculares como se describe en la presente reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo, o aumentando la sensibilidad y reduciendo el error estándar. Without being limited by any theory, it is contemplated that a molecular barcode comprising a low G content (e.g., 50% G or less, e.g., less than 50% G, 45% G, 40% G, 35% of G, 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G , or 2.5% G) can minimize the bias for a composition or group of single oligonucleotide species that are used to barcode a population of nucleic acids (e.g., minimize the bias that would preferentially amplify barcodes which comprise a higher G content). It is noted that conventional barcode coding approaches typically show a bias in favor of higher G content. For example, FIGS. 4A, 4B, and 4C illustrate samples of nucleotide usage in conventional molecular barcodes of compositions comprising numerous unique molecular barcodes for ES32, TRAC (FIG. 4A), ES32 TRBC (FIG. 4B), and ES32 OligodT ( FIG. 4C). That is, if anything, conventional molecular barcodes and barcode regions, designed without respecting certain orientations provided herein, may comprise a higher G content than would be expected by random chance. In some embodiments, methods or compositions comprising single oligonucleotide species comprising molecular barcodes as described herein reduce bias by increasing sensitivity, reducing relative standard error, or increasing sensitivity and reducing standard error.

En algunas realizaciones, todos los códigos de barras moleculares de una composición o composición usada en los métodos descritos en la presente comprenden especies de oligonucleótidos únicos que tienen colectivamente un contenido de G menor del 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-10% de G, 5-7,5% de G, 7,5-10% de G, 10-12,5% de G. Por "todos los códigos de barras moleculares de una composición de especies de oligonucleótidos únicos tienen colectivamente un contenido de G. de..", se entiende que si se calculara el contenido total de G entre todos los códigos de barras moleculares en toda la composición (por ejemplo, una población de por lo menos 1000, 2000, 5000, 6500, 10.000, 20.000, 30.000, 40.000, 50.000, 60.000, o 65.000 especies de oligonucleótidos únicos), este contenido total de G de la suma total de los códigos de barras caería por debajo de los valores enumerados o dentro de los intervalos enumerados. Aunque todavía sería posible que una especie de oligonucleótido único individual tuviera un código de barras molecular con un contenido de G por encima del valor indicado o fuera del intervalo indicado, el contenido de nucleótidos colectivo de las especies de oligonucleótidos únicos de la composición estaría por debajo del valor indicado o dentro del intervalo indicado. En algunas realizaciones, todos los códigos de barras moleculares en una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores indicados. En algunas realizaciones, todos los códigos de barras moleculares en una composición que comprende por lo menos 6500 especies de oligonucleótidos únicos tienen colectivamente un contenido G de menos del 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, todos los códigos de barras moleculares en una composición que comprende por lo menos 65.000 especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, all molecular barcodes of a composition or composition used in the methods described herein comprise single oligonucleotide species that collectively have a G content of less than 12.5% G, 10% G, 7 .5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed, for example 2.5-10% of G, 2.5- 7.5% G, 2.5-5% G, 5-10% G, 5-7.5% G, 7.5-10% G, 10-12.5% G. By "all molecular barcodes in a single oligonucleotide species composition collectively have a G content of...", it is meant that if the total G content among all molecular barcodes in the entire composition were calculated (e.g., a population of at least 1000, 2000, 5000, 6500, 10,000, 20,000, 30,000, 40,000, 50,000, 60,000, or 65,000 unique oligonucleotide species), this total G content of the total sum of the codes of bars would fall below the listed values or within the listed ranges. Although it would still be possible for an individual single oligonucleotide species to have a molecular barcode with a G content above the indicated value or outside the indicated range, the collective nucleotide content of the single oligonucleotide species in the composition would be below of the indicated value or within the indicated range. In some embodiments, all molecular barcodes in a composition comprising at least 1000 unique oligonucleotide species collectively have a G content of less than 12.5% G, 10% G, 7.5% G , 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the indicated values. In some embodiments, all molecular barcodes in a composition comprising at least 6500 unique oligonucleotide species collectively have a G content of less than 12.5% G, 10% G, 7.5% G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed. In some embodiments, all molecular barcodes in a composition comprising at least 65,000 unique oligonucleotide species collectively have a G content of less than 12.5% G, 10% G, 7.5% G , 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed.

En algunas realizaciones, para una composición que comprende especies de oligonucleótidos únicos (o tal composición usada en un método), la composición consiste en o consiste esencialmente en especies de oligonucleótidos únicos que comprenden cada uno un contenido de G de código de barras molecular del 50% de G o menos, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12.5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2,5-30% de G, 2,5-25% de G, 2.5-20% de G, 2,5-15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7,5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7.5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7,5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12,5-50% de G, 12,5-45% de G, 12,5-40% de G, 12.5-35% de G, 12,5-30% de G, 12,5-25% de G, 12,5-20% de G, 12,5-15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G, o 20-25% de G. Por "la composición consiste en, o consiste esencialmente en, especies de oligonucleótidos únicos que tienen cada una un contenido de código de barras molecular G de menos de...", se entiende que cada una o esencialmente cada una de las especies de oligonucleótidos únicos en una composición, población o grupo tienen un contenido de G de código de barras molecular menor al valor indicado, o fuera del intervalo indicado. Es decir, para una composición, población o grupo "que consiste esencialmente en" especies de oligonucleótidos únicos que tienen cada uno el contenido de G indicado, sería posible que una parte analíticamente insignificante de los oligonucleótidos únicos en la composición tuviera códigos de barras moleculares con un contenido de G por encima del valor indicado o fuera del intervalo enumerado. Por ejemplo, la parte analíticamente insignificante de los oligonucleótidos únicos puede tener, o puede tener no más del 5%, 4%, 3%, 2%, 1%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, o menos del oligonucleótido único en una composición. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 1000 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 50%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 6500 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 50%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 65.000 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 50%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 1000 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 25%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición de por lo menos 6500 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 25%. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición, población o grupo de por lo menos 65.000 oligonucleótidos únicos comprenden un código de barras molecular que tiene un contenido de G superior al 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G superior al 25%. Opcionalmente, ninguno de los códigos de barras moleculares de las especies de oligonucleótidos únicos de la composición tienen colectivamente un contenido de G superior al 50% G, por ejemplo, todos los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen un contenido de G de menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, for a composition comprising single oligonucleotide species (or such composition used in a method), the composition consists of or essentially consists of single oligonucleotide species each comprising a molecular barcode G content of 50 % G or less, for example, less than 50% G, 45% G, 40% G, 35% G, 30% G, 25% G, 20% G, 15% G , 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed, for example 2 .5-50% of G, 2.5-45% of G, 2.5-40% of G, 2.5-35% of G, 2.5-30% of G, 2.5-25% of G, 2.5-20% of G, 2.5-15% of G, 2.5-10% of G, 2.5-7.5% of G, 2.5-5% of G, 5- 50% of G, 5-45% of G, 5-40% of G, 5-35% of G, 5-30% of G, 5-25% of G, 5-20% of G, 5-15 % G, 5-10% G, 5-7.5% G, 7.5-50% G, 7.5-45% G, 7.5-40% G, 7.5 -35% of G, 7.5-30% of G, 7.5-25% of G, 7.5-20% of G, 7.5-15% of G, 7.5-10% of G, 10 -50% of G, 10-45% of G, 10-40% of G, 10-35% of G, 10-30% of G, 10-25% of G, 10-20% of G, 10- 15% G, 10-12.5% G, 12.5-50% G, 12.5-45% G, 12.5-40% G, 12.5-35% G, 12, 5-30% G, 12.5-25% G, 12.5-20% G, 12.5-15% G, 15-50% G, 15-45% G, 15- 40% G, 15-35% G, 15-30% G, 15-25% G, 15-20% G, 20-50% G, 20-45% G, 20-40 % G, 20-35% G, 20-30% G, or 20-25% G. By "the composition consists of, or consists essentially of, unique oligonucleotide species each having a code content of molecular barcode G of less than...", it is understood that each or essentially each of the unique oligonucleotide species in a composition, population or group has a molecular barcode G content less than the indicated value, or outside the indicated range. That is, for a composition, population, or group "consisting essentially of" species of single oligonucleotides each having the indicated G content, it would be possible for an analytically insignificant portion of the single oligonucleotides in the composition to have molecular barcodes with a G content above the indicated value or outside the listed range. For example, the analytically insignificant part of the unique oligonucleotides may have, or may have no more than 5%, 4%, 3%, 2%, 1%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, or less of the unique oligonucleotide in a composition. In some embodiments, less than 1% of the unique oligonucleotide species in a composition comprising at least 1000 unique oligonucleotides comprise a molecular barcode having a G content greater than 50%, for example less than 1%, 0 .9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05%, 0 .01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content greater than 50%. In some embodiments, less than 1% of the unique oligonucleotide species in a composition comprising at least 6500 unique oligonucleotides comprise a molecular barcode having a G content greater than 50%, for example less than 1%, 0 .9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05%, 0 .01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content greater than 50%. In some embodiments, less than 1% of the unique oligonucleotide species in a composition comprising at least 65,000 unique oligonucleotides comprise a molecular barcode having a G content greater than 50%, for example less than 1%, 0 .9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05%, 0 .01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content greater than 50%. In some embodiments, less than 1% of the unique oligonucleotide species in a composition comprising at least 1000 unique oligonucleotides comprise a molecular barcode having a G content greater than 25%, for example less than 1%, 0 .9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05%, 0 .01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content greater than 25%. In some embodiments, less than 1% of the unique oligonucleotide species in a composition of at least 6500 unique oligonucleotides comprise a molecular barcode having a G content greater than 25%, for example less than 1%, 0, 9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05%, 0.01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content greater than 25%. In some embodiments, less than 1% of the unique oligonucleotide species in a composition, population or group of at least 65,000 unique oligonucleotides comprise a molecular barcode that has a G content greater than 25%, for example less than 1 %, 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05 %, 0.01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content greater than 25%. Optionally, none of the molecular barcodes of the single oligonucleotide species of the composition collectively have a G content greater than 50% G, for example, all of the molecular barcodes of the single oligonucleotide species have a G content. of less than 50% of G, 45% of G, 40% of G, 35% of G, 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed.

En algunas realizaciones, la composición tal como se describe en la presente (o dicha composición como se usa en un método) consiste o consiste esencialmente en especies de oligonucleótidos únicos que comprenden cada uno una región de código de barras G con un contenido de menos del 50% como se describe en la presente. En algunas realizaciones, para una composición que comprende especies de oligonucleótidos únicos, la composición consiste o consiste esencialmente en especies de oligonucleótidos únicos que comprenden cada uno un contenido de G de región de código de barras del 50% de G o menos, por ejemplo, menos de 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12.5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2.5-30% de G, 2,5-25% de G, 2,5-20% de G, 2,5-15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7.5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7,5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7.5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12,5-50% de G, 12,5-45% de G, 12,5-40% de G, 12,5-35% de G, 12,5-30% de G, 12,5-25% de G, 12,5-20% de G, 12.5-15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G, o 20-25% de G. Por "la composición consiste o consiste esencialmente en especies de oligonucleótidos únicos que tienen cada una un contenido de regiones G de código de barras de menos de.... ", se entiende que cada una o esencialmente cada una de las especies de oligonucleótidos únicos en una composición, población o grupo tienen un contenido de G de región de código de barras inferior al valor indicado, o fuera del intervalo indicado. Es decir, para una composición, población o grupo "que consiste esencialmente en" especies de oligonucleótidos únicos que tienen cada uno el contenido G indicado, sería posible que una parte analíticamente insignificante de los oligonucleótidos únicos en la composición tuviera regiones de código de barras con un contenido de G por encima del valor indicado o fuera del intervalo mencionado. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 1000 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 50%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 6500 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 50%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 65.000 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 50%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 50%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición que comprende por lo menos 1000 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 25%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición de por lo menos 6500 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 50%, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, menos del 1% de las especies de oligonucleótidos únicos en una composición, población o grupo de por lo menos 65.000 oligonucleótidos únicos comprenden una región de código de barras que tiene un contenido de G de más del 25%, por ejemplo menos del 1%, 0,9%, 0,8%, 0,7%, 0,6%, 0,5%, 0,4%, 0,3%, 0,2%, 0,1%, 0,05%, 0,01%, 0,001%, o 0,0001% de las especies de oligonucleótidos únicos tienen un contenido de G de más del 25%, incluyendo intervalos entre dos cualquiera de los valores enumerados. Opcionalmente, ninguna de las regiones de código de barras de las especies de oligonucleótidos únicos de la composición tienen colectivamente un contenido de G de más del 50% de G, por ejemplo, todas las regiones de código de barras de las especies de oligonucleótidos únicos tienen un contenido de G de menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados. In some embodiments, the composition as described herein (or said composition as used in a method) consists of or consists essentially of single oligonucleotide species each comprising a G barcode region with a content of less than 50% as described herein. In some embodiments, for a composition comprising single oligonucleotide species, the composition consists of or essentially consists of single oligonucleotide species each comprising a barcode region G content of 50% G or less, e.g. less than 50% of G, 45% of G, 40% of G, 35% of G, 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed, for example 2.5-50% of G, 2 .5-45% of G, 2.5-40% of G, 2.5-35% of G, 2.5-30% of G, 2.5-25% of G, 2.5-20% of G , 2.5-15% G, 2.5-10% G, 2.5-7.5% G, 2.5-5% G, 5-50% G, 5-45% of G, 5-40% of G, 5-35% of G, 5-30% of G, 5-25% of G, 5-20% of G, 5-15% of G, 5-10% of G, 5-7.5% G, 7.5-50% G, 7.5-45% G, 7.5-40% G, 7.5-35% G, 7.5-30 % G, 7.5-25% G, 7.5-20% G, 7.5-15% G, 7.5-10% G, 10-50% G, 10-45% G, 10-40% of G, 10-35% of G, 10-30% of G, 10-25% of G, 10-20% of G, 10-15% of G, 10-12.5% of G, 12.5-50% of G, 12.5-45% of G, 12.5-40% of G, 12.5-35% of G, 12.5-30% of G, 12, 5-25% G, 12.5-20% G, 12.5-15% G, 15-50% G, 15-45% G, 15-40% G, 15-35% G , 15-30% of G, 15-25% of G, 15-20% of G, 20-50% of G, 20-45% of G, 20-40% of G, 20-35% of G, 20-30% G, or 20-25% G. For "the composition consists of or consists essentially of single oligonucleotide species each having a barcode G region content of less than....", It is understood that each or essentially each of the single oligonucleotide species in a composition, population or group has a barcode region G content less than the indicated value, or outside the indicated range. That is, for a composition, population, or group "consisting essentially of" species of single oligonucleotides each having the indicated G content, it would be possible for an analytically insignificant portion of the single oligonucleotides in the composition to have barcode regions with a G content above the indicated value or outside the mentioned range. In some embodiments, less than 1% of the unique oligonucleotide species in a composition comprising at least 1000 unique oligonucleotides comprise a barcode region having a G content of more than 50%, for example less than 1%. , 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05% , 0.01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content of more than 50%, including intervals between any two of the values listed. In some embodiments, less than 1% of the unique oligonucleotide species in a composition comprising at least 6500 unique oligonucleotides comprise a barcode region having a G content of more than 50%, for example less than 1%. , 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05% , 0.01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content of more than 50%, including intervals between any two of the values listed. In some embodiments, less than 1% of the unique oligonucleotide species in a composition comprising at least 65,000 unique oligonucleotides comprise a barcode region having a G content of more than 50%, for example less than 1%. , 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05% , 0.01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content of more than 50%, including intervals between any two of the values listed. In some embodiments, less than 1% of the unique oligonucleotide species in a composition comprising at least 1000 unique oligonucleotides comprise a barcode region having a G content of more than 25%, for example less than 1%. , 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05% , 0.01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content of more than 25%, including intervals between any two of the values listed. In some embodiments, less than 1% of the unique oligonucleotide species in a composition of at least 6500 unique oligonucleotides comprise a barcode region having a G content of more than 25%, for example less than 1%, 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0.05%, 0.01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content of more than 50%, including intervals between any two of the values listed. In some embodiments, less than 1% of the unique oligonucleotide species in a composition, population or pool of at least 65,000 unique oligonucleotides comprise a barcode region having a G content of more than 25%, e.g. 1%, 0.9%, 0.8%, 0.7%, 0.6%, 0.5%, 0.4%, 0.3%, 0.2%, 0.1%, 0 .05%, 0.01%, 0.001%, or 0.0001% of the single oligonucleotide species have a G content of more than 25%, including intervals between any two of the values listed. Optionally, none of the barcode regions of the single oligonucleotide species of the composition collectively have a G content of more than 50% G, for example, all barcode regions of the single oligonucleotide species have a G content of less than 50% G, 45% G, 40% G, 35% G, 30% G, 25% G, 20% G, 15% G, 12.5 %G, 10%G, 7.5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed.

En algunas realizaciones, la composición (o dicha composición como se usa en un método) consiste o consiste esencialmente en especies de oligonucleótidos únicos que tienen cada uno un código de barras molecular que comprende la secuencia de por lo menos tres repeticiones del doblete "HN" (en el que cada "H" es cualquiera de A, C, o T, y en el que "N" es cualquiera de A, G, C, o T), por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos cualquiera de los valores enumerados. Ejemplos de repeticiones múltiples del doblete "HN" incluyen HN, HNHN, HNHNHN y HNHNHNHN. Cabe señalar que, aunque la fórmula "HN" describe restricciones en el contenido de base, no todos los H ni todos los N tienen que ser iguales o diferentes. Por ejemplo, si los códigos de barras moleculares de especies de oligonucleótidos únicos en una composición comprendían HNHNHN, un código de barras molecular puede comprender la secuencia ACTGCA, mientras que otro código de barras molecular puede comprender la secuencia TAACTA, mientras que otro código de barras molecular podría comprender la secuencia AGACAc . Cabe señalar que cualquier número de repeticiones del doblete "HN" tendría un contenido de G de no más del 50%. En algunas realizaciones, por lo menos el 95% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 99% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 99,9% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 1000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 95% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 6500 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 99% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 6500 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 99,9% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 6500 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 95% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 65.000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, por lo menos el 99% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 65.000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 99,9% de las especies de oligonucleótidos únicos de una composición que comprende por lo menos 65.000 especies de oligonucleótidos únicos comprenden códigos de barras moleculares que comprenden por lo menos tres repeticiones del doblete "HN", por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 repeticiones, incluyendo intervalos entre dos de los valores enumerados. En algunas realizaciones, la composición consiste o consiste esencialmente en por lo menos 1000, 6500, o 65.000 especies de oligonucleótidos únicos que tienen cada uno un código de barras molecular que comprende la secuencia HNHNHN. En algunas realizaciones, la composición consiste o consiste esencialmente en por lo menos 1000, 6500 o 65.000 especies de oligonucleótidos únicos que tienen cada uno un código de barras molecular que comprende la secuencia HNHNHN. En algunas realizaciones, por lo menos el 95%, 99% o 99,9% de las regiones de código de barras de la composición descrita en la presente comprenden por lo menos tres repeticiones del doblete "HN" descrito en la presente. Sin estar limitado por ninguna teoría, se observa que tener un número relativamente grande de secuencias de nucleótidos disponibles para códigos de barras moleculares puede ser útil cuando se codifica con códigos de barras una población de ácidos nucleicos objetivo de una muestra, por ejemplo para aumentar la diversidad de códigos de barras dentro de una longitud de secuencia dada junto con la probabilidad de que cada ácido nucleico objetivo se marque de manera única, a la vez que se minimiza el tamaño de las especies de oligonucleótidos. Se observa que limitar el contenido de G de los códigos de barras moleculares y/o regiones de códigos de barras puede limitar la diversidad de estos códigos de barras y regiones de códigos de barras al reducir el número de nucleótidos disponibles a partir de los cuales pueden construirse códigos de barras (y el número de secuencias diferentes disponibles por longitud de ácido nucleico). Como tal, tener algunas G en los códigos de barras moleculares o regiones de códigos de barras de acuerdo con varias realizaciones de la presente puede ser útil para aumentar la diversidad, mientras que limitar el contenido de G puede ser útil para minimizar el sesgo. Se indica, y se ha observado (ver el Ejemplo 2 y las FIGS. 6-7) que las secuencias que comprenden dobletes "HN" repetidos pueden producir un sesgo bajo, a la vez que proporcionan un compromiso entre la reducción del sesgo y el mantenimiento de una cantidad relativamente grande de secuencias de nucleótidos disponibles, de tal manera que puede obtenerse una diversidad relativamente alta en una secuencia relativamente corta, a la vez que se minimiza el sesgo. En algunas realizaciones, los métodos o composiciones que comprenden especies de oligonucleótidos únicos que comprenden códigos de barras moleculares que comprenden dobletes "HN" repetidos como se describe en la presente reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo, o aumentando la sensibilidad y reduciendo el error estándar.In some embodiments, the composition (or said composition as used in a method) consists of or consists essentially of single oligonucleotide species each having a molecular barcode comprising the sequence of at least three repeats of the "HN" doublet. (in which each "H" is any of A, C, or T, and in which "N" is any of A, G, C, or T), for example at least 3, 4, 5, 6 , 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between any two of the listed values. Examples of multiple repeats of the "HN" doublet include HN, HNHN, HNHNHN, and HNHNHNHN. It should be noted that although the "HN" formula describes restrictions on base content, not all H's or all N's have to be the same or different. For example, if the molecular barcodes of single oligonucleotide species in a composition comprised HNHNHN, one molecular barcode may comprise the sequence ACTGCA, while another molecular barcode may comprise the sequence TAACTA, while another barcode molecular could comprise the sequence AGACAc. It should be noted that any number of repeats of the "HN" doublet would have a G content of no more than 50%. In some embodiments, at least 95% of the unique oligonucleotide species of a composition comprising at least 1000 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, for example by at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between any two of the values listed. In some embodiments, at least 99% of the unique oligonucleotide species of a composition comprising at least 1000 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, for example by at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between any two of the values listed. In some embodiments, at least 99.9% of the unique oligonucleotide species of a composition comprising at least 1000 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, e.g. example at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between two of the listed values . In some embodiments, at least 95% of the unique oligonucleotide species of a composition comprising at least 6500 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, for example by at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between two of the listed values. In some embodiments, at least 99% of the unique oligonucleotide species of a composition comprising at least 6500 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, for example by at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between two of the listed values. In some embodiments, at least 99.9% of the unique oligonucleotide species of a composition comprising at least 6500 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, e.g. example at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between two of the listed values . In some embodiments, at least 95% of the unique oligonucleotide species of a composition comprising at least 65,000 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, for example by at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between two of the listed values. In some embodiments, at least 99% of the unique oligonucleotide species of a composition comprising at least 65,000 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, for example by at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between any two of the values listed. In some embodiments, at least 99.9% of the unique oligonucleotide species of a composition comprising at least 65,000 unique oligonucleotide species comprise molecular barcodes comprising at least three repeats of the "HN" doublet, e.g. example at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 repetitions, including intervals between two of the listed values . In some embodiments, the composition consists of or essentially consists of at least 1000, 6500, or 65,000 species of unique oligonucleotides each having a molecular barcode comprising the sequence HNHNHN. In some embodiments, the composition consists of or essentially consists of at least 1000, 6500 or 65,000 species of unique oligonucleotides each having a molecular barcode comprising the sequence HNHNHN. In some embodiments, at least 95%, 99%, or 99.9% of the barcode regions of the composition described herein comprise at least three repeats of the "HN" doublet described herein. Without being limited by any theory, it is noted that having a relatively large number of nucleotide sequences available for molecular barcoding can be useful when barcoding a population of target nucleic acids from a sample, for example to increase the barcode diversity within a given sequence length along with the probability that each target nucleic acid is uniquely labeled, while minimizing the size of the oligonucleotide species. It is noted that limiting the G content of molecular barcodes and/or barcode regions can limit the diversity of these barcodes and barcode regions by reducing the number of available nucleotides from which they can be barcodes can be constructed (and the number of different sequences available per nucleic acid length). As such, having some Gs in the molecular barcodes or barcode regions according to various embodiments herein may be useful to increase diversity, while limiting G content may be useful to minimize bias. It is indicated, and has been observed (see Example 2 and FIGS. 6-7) that sequences comprising repeated "HN" doublets can produce low bias, while providing a compromise between bias reduction and maintenance of a relatively large number of available nucleotide sequences, such that relatively high diversity can be obtained in a relatively short sequence, while minimizing bias. In some embodiments, methods or compositions comprising single oligonucleotide species comprising molecular barcodes comprising repeated "HN" doublets as described herein reduce bias by increasing sensitivity, reducing relative standard error, or increasing sensitivity. and reducing the standard error.

En algunas realizaciones, la composición (o tal composición como se usa en un método) comprende, consiste en, o consiste esencialmente en especies de oligonucleótidos únicos que comprenden cada uno un código de barras molecular que comprende por lo menos seis "H" consecutivas (en el que cada "H" es cualquiera de A, C, o T), por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. Cabe señalar que, aunque la fórmula "H" describe restricciones en el contenido de base, no todas las H tienen que ser iguales (o diferentes). Por ejemplo, si los códigos de barras moleculares de especies de oligonucleótidos únicos en una población comprendieran cada una la secuencia HHHH, un código de barras molecular de una especie de oligonucleótido único podría comprender ACTA, un código de barras molecular de otra especie de oligonucleótido único podría comprender Tt AC, y un código de barras molecular de otra especie de oligonucleótido único podría comprender ACAT. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 1000 especies de oligonucleótidos únicos, de los cuales por lo menos el 95% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 1000 especies de oligonucleótidos únicos, de las cuales por lo menos el 99% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 1000 especies de oligonucleótidos únicos, de las cuales por lo menos el 99,9% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 6500 especies de oligonucleótidos únicos, de las cuales por lo menos 95% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 6500 especies de oligonucleótidos únicos, de las cuales por lo menos el 99% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 6500 especies de oligonucleótidos únicos, de las cuales por lo menos el 99,9% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 65.000 especies de oligonucleótidos únicos, de las cuales por lo menos el 95% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 65.000 especies de oligonucleótidos únicos, de las cuales por lo menos el 99% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, una composición comprende, consiste en, o consiste esencialmente en por lo menos 65.000 especies de oligonucleótidos únicos, de las cuales por lo menos el 99,9% comprenden un código de barras molecular que comprende por lo menos seis H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de las especies de oligonucleótidos únicos comprenden una secuencia que suma por lo menos 6 H y N alternadas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H y N alternadas, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HNHNHNHN, en donde cada "H" es una cualquiera de A, C o T, y en donde cada "N" es una cualquiera de A, G, C o T. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HHHHHHHH, en donde cada "H" es una cualquiera de A, C o T. In some embodiments, the composition (or such composition as used in a method) comprises, consists of, or consists essentially of single oligonucleotide species each comprising a molecular barcode comprising at least six consecutive "H"s ( in which each "H" is any of A, C, or T), for example at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 , or 20 consecutive H, including intervals between any two of the values listed. It should be noted that although the "H" formula describes restrictions on base content, not all H's have to be the same (or different). For example, if the molecular barcodes of single oligonucleotide species in a population each comprised the sequence HHHH, a molecular barcode of one single oligonucleotide species could comprise ACTA, a molecular barcode of another single oligonucleotide species could comprise Tt AC, and a molecular barcode of another single oligonucleotide species could comprise ACAT. In some embodiments, a composition comprises, consists of, or consists essentially of at least 1000 unique oligonucleotide species, at least 95% of which comprise a molecular barcode comprising at least six consecutive H's, e.g. at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive hours, including intervals between any two of the values listed. In some embodiments, a composition comprises, consists of, or essentially consists of at least 1000 unique oligonucleotide species, at least 99% of which comprise a molecular barcode comprising at least six consecutive H's, e.g. at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive hours, including intervals between any two of the values listed. In some embodiments, a composition comprises, consists of, or consists essentially of at least 1000 unique oligonucleotide species, at least 99.9% of which comprise a molecular barcode comprising at least six consecutive H, for example at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive H, including intervals between any two of the values listed. In some embodiments, a composition comprises, consists of, or consists essentially of at least 6500 unique oligonucleotide species, at least 95% of which comprise a molecular barcode comprising at least six consecutive H, for example by at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive hours, including intervals between any two of the values listed. In some embodiments, a composition comprises, consists of, or consists essentially of at least 6500 unique oligonucleotide species, at least 99% of which comprise a molecular barcode comprising at least six consecutive H's, e.g. at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive hours, including intervals between any two of the values listed. In some embodiments, a composition comprises, consists of, or consists essentially of at least 6500 unique oligonucleotide species, at least 99.9% of which comprise a molecular barcode comprising at least six consecutive H, for example at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive H, including intervals between any two of the values listed. In some embodiments, a composition comprises, consists of, or consists essentially of at least 65,000 unique oligonucleotide species, at least 95% of which comprise a molecular barcode comprising at least six consecutive H's, e.g. at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive hours, including intervals between any two of the values listed. In some embodiments, a composition comprises, consists of, or consists essentially of at least 65,000 unique oligonucleotide species, at least 99% of which comprise a molecular barcode comprising at least six consecutive H's, e.g. at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive hours, including intervals between any two of the values listed. In some embodiments, a composition comprises, consists of, or consists essentially of at least 65,000 unique oligonucleotide species, at least 99.9% of which comprise a molecular barcode comprising at least six consecutive Hs, for example at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive H, including intervals between any two of the values listed. In some embodiments, at least 95% of the molecular barcodes of the unique oligonucleotide species comprise a sequence that sums to at least 6 alternating H and N, for example at least 6, 7, 8, 9, 10 , 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 alternating H and N, including intervals between any two of the listed values. In some embodiments, at least 95% of the molecular barcodes of the single oligonucleotide species comprise the sequence HNHNHNHN, where each "H" is any one of A, C or T, and where each "N" is any one of A, G, C or T. In some embodiments, each molecular barcode of the single oligonucleotide species comprises the sequence HNHNHNHN, where each "H" is any one of A, C or T, and in where each "N" is any one of A, G, C or T. In some embodiments, each molecular barcode of the unique oligonucleotide species comprises the sequence HHHHHHHH, where each "H" is any one of A, C or T.

En algunas realizaciones, por lo menos el 95% (por ejemplo, el 95%, 96%, 97%, 98%, 99% o más) de las especies de oligonucleótidos únicos de la composición como se describe en la presente (o tal composición como se usa en un método) comprenden regiones de código de barras que comprenden por lo menos 6 H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados como se describe en la presente. En algunas realizaciones, por lo menos el 99% de las especies de oligonucleótidos únicos de la composición como se describe en la presente comprenden regiones de código de barras que comprenden por lo menos 6 H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados como se describe en la presente. En algunas realizaciones, por lo menos el 99,9% de las especies de oligonucleótidos únicos de la composición como se describe en la presente comprenden regiones de código de barras que comprenden por lo menos 6 H consecutivas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H consecutivas, incluyendo intervalos entre dos cualquiera de los valores enumerados como se describe en la presente.In some embodiments, at least 95% (e.g., 95%, 96%, 97%, 98%, 99% or more) of the unique oligonucleotide species of the composition as described herein (or such composition as used in a method) comprise barcode regions comprising at least 6 consecutive H, for example at least 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive H, including intervals between any two of the values listed as described herein. In some embodiments, at least 99% of the unique oligonucleotide species of the composition as described herein comprise barcode regions comprising at least 6 consecutive H, e.g. at least 6, 7, 8 , 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive H, including intervals between any two of the values listed as described herein. In some embodiments, at least 99.9% of the unique oligonucleotide species of the composition as described herein comprise barcode regions comprising at least 6 consecutive H, e.g. at least 6.7 , 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 consecutive H, including intervals between any two of the values listed as described herein.

En algunas realizaciones, el código de barras de la muestra de cada especie de oligonucleótido único tiene un contenido de G del 50% o menos, por ejemplo 50% o menos, 40% o menos, 25% o menos, 20% o menos, 12,5% o menos, 10% o menos, o 5% o menos, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, the sample barcode of each single oligonucleotide species has a G content of 50% or less, for example 50% or less, 40% or less, 25% or less, 20% or less, 12.5% or less, 10% or less, or 5% or less, including intervals between any two of the values listed.

En algunas realizaciones, la región del código de barras de cada especie de oligonucleótido único tiene un contenido de G del 50% o menos, por ejemplo 50% o menos, 40% o menos, 25% o menos, 20% o menos, 12,5% o menos, 10% o menos, o 5% o menos, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, the barcode region of each single oligonucleotide species has a G content of 50% or less, for example 50% or less, 40% or less, 25% or less, 20% or less, 12 .5% or less, 10% or less, or 5% or less, including intervals between any two of the values listed.

En algunas realizaciones, los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%, por ejemplo de menos del 12,5%, de menos del 10%, de menos del 7,5%, de menos del 5%, de menos del 2,5%, o de menos del 1%, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, the molecular barcodes of the single oligonucleotide species collectively have a G content of less than 12.5%, for example less than 12.5%, less than 10%, less than 7, 5%, less than 5%, less than 2.5%, or less than 1%, including intervals between any two of the listed values.

En algunas realizaciones, las regiones de código de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%, por ejemplo de menos del 12,5%, de menos del 10%, de menos del 7,5%, de menos del 5%, de menos del 2,5%, o de menos del 1%, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, the barcode regions of the single oligonucleotide species collectively have a G content of less than 12.5%, for example less than 12.5%, less than 10%, less than 7 .5%, less than 5%, less than 2.5%, or less than 1%, including intervals between any two of the listed values.

En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G. En algunas realizaciones, para por lo menos el 99% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G. En algunas realizaciones, para todas o sustancialmente todas las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G.In some embodiments, for at least 95% of the unique oligonucleotide species, any G in the molecular barcode is not adjacent to another G. In some embodiments, for at least 99% of the unique oligonucleotide species , any G in the molecular barcode is not adjacent to another G. In some embodiments, for all or substantially all single oligonucleotide species, any G in the molecular barcode is not adjacent to another G.

Cada región de código de barras comprende un código de barras de muestra. De acuerdo con las composiciones, métodos y oligonucleótidos de algunas realizaciones de la presente, cada especie de oligonucleótido único en una grupo puede comprender el mismo código de barras de muestra, pero puede haber dos o más grupos que están asociados cada uno con diferentes códigos de barras de muestra. Como tal, todas o esencialmente todas las especies de oligonucleótidos únicos en el grupo N° 1 pueden comprender el código de barras de muestra N° 1, y todas o esencialmente todas las especies de oligonucleótidos únicos en el grupo N° 2 pueden comprender el código de barras de muestra N° 2. Los ácidos nucleicos de una primera muestra pueden comprender el mismo código de barras de muestra. Los ácidos nucleicos de una primera muestra pueden asociarse con las especies de oligonucleótidos únicos en el grupo N° 1, y los ácidos nucleicos de una segunda muestra pueden asociarse con las especies de oligonucleótidos únicos en el grupo N° 2, por ejemplo mediante hibridación y amplificación. Como tal, todos o esencialmente todos los ácidos nucleicos amplificados correspondientes a la primera muestra comprenderán el código de barras de muestra N° 1 (pero pueden comprender diferentes códigos de barras moleculares), y todos los ácidos nucleicos amplificados correspondientes a la segunda muestra comprenderán el código de barras de muestra N° 2. En algunas realizaciones, hay por lo menos 24, 48, 96 o 192 grupos.Each barcode region comprises a sample barcode. According to the compositions, methods and oligonucleotides of some embodiments herein, each unique oligonucleotide species in a pool may comprise the same sample barcode, but there may be two or more pools that are each associated with different barcodes. sample bars. As such, all or essentially all of the unique oligonucleotide species in group No. 1 may comprise the sample barcode No. 1, and all or essentially all of the unique oligonucleotide species in group No. 2 may comprise the code sample barcode No. 2. The nucleic acids of a first sample may comprise the same sample barcode. Nucleic acids from a first sample can be associated with the unique oligonucleotide species in group No. 1, and nucleic acids from a second sample can be associated with the unique oligonucleotide species in group No. 2, for example by hybridization and amplification. As such, all or essentially all amplified nucleic acids corresponding to the first sample will comprise the sample barcode #1 (but may comprise different molecular barcodes), and all amplified nucleic acids corresponding to the second sample will comprise the sample barcode No. 2. In some embodiments, there are at least 24, 48, 96 or 192 groups.

El código de barras de la muestra puede comprender una secuencia de ácido nucleico de por lo menos 3 nucleótidos, por ejemplo de por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 4849, 50 nucleótidos, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 3-50, 3-45, 3-40, 3-35, 3-30, 3-25, 3-20, 3-15, 3-14, 3-13, 3-12, 3-11, 3-10, 3-9, 3-8, 3-7, 3-6, 3-5, 3-4, 4-50, 4-45, 4-40, 4-35, 4-30, 4-25, 4-20, 4-15, 4-14, 4-13, 4 12, 4-11, 4-10, 4-9, 4-8, 4-7, 4-6, 4-5, 5-50, 5-45, 5-40, 5-35, 5-30, 5-25, 5-20, 5-15, 5-14, 5-13, 5-12, 5-11, 5-10, 5-9, 5-8, 5-7, 5-6, 6-50, 6-45, 6-40, 6-35, 6-30, 6-25, 6-20, 6-15, 6-14, 6-13, 6-12, 6-11, 6-10, 6-9, 6-8, 6-7, 7-50, 7-45, 7 40, 7-35, 7-30, 7-25, 7-20, 7-15, 7-14, 7-13, 7-12, 7-11, 7-10, 7-9, 7-8, 8-50, 8-45, 8-40, 8-35, 8-30, 8-25, 8-20, 8-15, 8-14, 8-13, 8-12, 8-11, 8-10, 8-9, 9-50, 9-45, 9-40, 9-35, 9-30, 9-25, 9-20, 9-15, 9-14, 9-13, 9-12, 9-11, 9-10, 10-50, 10-45, 10-40, 10-35, 10-30, 10-25, 10-20, 10-15, 10-14, 10-13, 10-12, o 10-11 nucleótidos. En algunas realizaciones, la secuencia de ácido nucleico del código de barras de la muestra comprende una secuencia única, por ejemplo, de tal manera que cada especie de oligonucleótido único en una población comprende un código de barras molecular diferente.The sample barcode may comprise a nucleic acid sequence of at least 3 nucleotides, for example of at least 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 , 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39 , 40, 41,42, 43, 44, 45, 46, 47, 4849, 50 nucleotides, including intervals between any two of the values listed, for example 3-50, 3-45, 3-40, 3-35, 3-30, 3-25, 3-20, 3-15, 3-14, 3-13, 3-12, 3-11, 3-10, 3-9, 3-8, 3-7, 3- 6, 3-5, 3-4, 4-50, 4-45, 4-40, 4-35, 4-30, 4-25, 4-20, 4-15, 4-14, 4-13, 4 12, 4-11, 4-10, 4-9, 4-8, 4-7, 4-6, 4-5, 5-50, 5-45, 5-40, 5-35, 5-30 , 5-25, 5-20, 5-15, 5-14, 5-13, 5-12, 5-11, 5-10, 5-9, 5-8, 5-7, 5-6, 6 -50, 6-45, 6-40, 6-35, 6-30, 6-25, 6-20, 6-15, 6-14, 6-13, 6-12, 6-11, 6-10 , 6-9, 6-8, 6-7, 7-50, 7-45, 7 40, 7-35, 7-30, 7-25, 7-20, 7-15, 7-14, 7- 13, 7-12, 7-11, 7-10, 7-9, 7-8, 8-50, 8-45, 8-40, 8-35, 8-30, 8-25, 8-20, 8-15, 8-14, 8-13, 8-12, 8-11, 8-10, 8-9, 9-50, 9-45, 9-40, 9-35, 9-30, 9- 25, 9-20, 9-15, 9-14, 9-13, 9-12, 9-11, 9-10, 10-50, 10-45, 10-40, 10-35, 10-30, 10-25, 10-20, 10-15, 10-14, 10-13, 10-12, or 10-11 nucleotides. In some embodiments, the sample barcode nucleic acid sequence comprises a unique sequence, e.g. such that each unique oligonucleotide species in a population comprises a different molecular barcode.

Sin estar limitado por ninguna teoría, se contempla que un código de barras de muestra que comprenda un bajo contenido de G (por ejemplo, menos del 50% de G, por ejemplo, menos del 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G o 2,5% de G) puede colocarse 3' de un código de barras de muestra que comprende un contenido de G relativamente más alto y 5' de una región uniforme (por ejemplo, una secuencia específica de objetivo o secuencia de oligo dT), para minimizar el sesgo separando el código de barras de muestra relativamente rico en G de la región uniforme. En algunas realizaciones, la región del código de barras comprende un código de barras de muestra con un contenido de G del 50% o menos, por ejemplo, menos del 50% G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2.5% de G, o 0% de G, incluidos los intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2,5-30% de G, 2.5-25% de G, 2,5-20% de G, 2,5-15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7.5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7,5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7,5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12,5-50% de G, 12.5-45% de G, 12,5-40% de G, 12,5-35% de G, 12,5-30% de G, 12,5-25% de G, 12.5- 20% de G, 12,5-15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G, o 20-25% de G.Without being limited by any theory, it is contemplated that a sample barcode comprising a low G content (e.g., less than 50% G, e.g., less than 45% G, 40% G, 35 % of G, 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G or 2, 5% G) can be placed 3' of a sample barcode comprising a relatively higher G content and 5' of a uniform region (e.g., a target-specific sequence or oligo dT sequence), to minimize the bias separating the relatively G-rich sample barcode from the uniform region. In some embodiments, the barcode region comprises a sample barcode with a G content of 50% or less, for example, less than 50% G, 45% G, 40% G, 35% G, 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed, for example 2.5-50% of G, 2.5-45% of G, 2.5-40% of G, 2, 5-35% G, 2.5-30% G, 2.5-25% G, 2.5-20% G, 2.5-15% G, 2.5-10% G, 2.5-7.5% G, 2.5-5% G, 5-50% G, 5-45% G, 5-40% G, 5-35% G, 5- 30% G, 5-25% G, 5-20% G, 5-15% G, 5-10% G, 5-7.5% G, 7.5-50% G, 7 .5-45% of G, 7.5-40% of G, 7.5-35% of G, 7.5-30% of G, 7.5-25% of G, 7.5-20% of G, 7.5-15% of G, 7.5-10% of G, 10-50% of G, 10-45% of G, 10-40% of G, 10-35% of G, 10 -30% of G, 10-25% of G, 10-20% of G, 10-15% of G, 10-12.5% of G, 12.5-50% of G, 12.5-45% of G, 12.5-40% of G, 12.5-35% of G, 12.5-30% of G, 12.5-25% of G, 12.5- 20% of G, 12.5-15 % G, 15-50% G, 15-45% G, 15-40% G, 15-35% G, 15-30% G, 15-25% G, 15-20% of G, 20-50% of G, 20-45% of G, 20-40% of G, 20-35% of G, 20-30% of G, or 20-25% of G.

En algunas realizaciones, para una composición que comprende especies de oligonucleótidos únicos (o tal composición como se usa en un método), por lo menos el 95% de los códigos de barras de muestra de los oligonucleótidos únicos de la composición tienen cada uno menos de 50% de contenido de G, por ejemplo, menos de 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12.5% de G, 10% de G, 7.5% de G, 5% de G, o 2.5% de G, o 0% de G, incluyendo intervalos entro dos cualquiera de los valores enumerados, por ejemplo, 2.5- 50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2,5-30% de G, 2,5-25% de G, 2,5-20% de G, 2,5-15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7,5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7,5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7,5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12,5-50% de G, 12,5-45% de G, 12,5-40% de G, 12,5-35% de G, 12,5-30% de G, 12,5-25% de G, 12,5-20% de G, 12,5-15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G o 20-25% de G.In some embodiments, for a composition comprising single oligonucleotide species (or such composition as used in a method), at least 95% of the sample barcodes of the single oligonucleotides of the composition each have less than 50% G content, for example, less than 45% G, 40% G, 35% G, 30% G, 25% G, 20% G, 15% G, 12.5% G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed, for example, 2.5- 50% of G, 2 .5-45% of G, 2.5-40% of G, 2.5-35% of G, 2.5-30% of G, 2.5-25% of G, 2.5-20% of G, 2.5-15% of G, 2.5-10% of G, 2.5-7.5% of G, 2.5-5% of G, 5-50% of G, 5- 45% of G, 5-40% of G, 5-35% of G, 5-30% of G, 5-25% of G, 5-20% of G, 5-15% of G, 5-10 % G, 5-7.5% G, 7.5-50% G, 7.5-45% G, 7.5-40% G, 7.5-35% G, 7 .5-30% of G, 7.5-25% of G, 7.5-20% of G, 7.5-15% of G, 7.5-10% of G, 10-50% of G , 10-45% of G, 10-40% of G, 10-35% of G, 10-30% of G, 10-25% of G, 10-20% of G, 10-15% of G, 10-12.5% G, 12.5-50% G, 12.5-45% G, 12.5-40% G, 12.5-35% G, 12.5-30 % G, 12.5-25% G, 12.5-20% G, 12.5-15% G, 15-50% G, 15-45% G, 15-40% G, 15-35% of G, 15-30% of G, 15-25% of G, 15-20% of G, 20-50% of G, 20-45% of G, 20-40% of G , 20-35% of G, 20-30% of G or 20-25% of G.

En algunas realizaciones, para una composición que comprende especies de oligonucleótidos únicos (o tal composición como se usa en un método), por lo menos el 99% de los códigos de barras de muestra de los oligonucleótidos únicos de la composición tienen cada uno un contenido del 50% G o menos, por ejemplo, menos de 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12.5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2,5-50% de G, 2,5-45% de G, 2,5-40% de G, 2,5-35% de G, 2.5-30% de G, 2,5-25% de G, 2,5-20% de G, 2.5- 15% de G, 2,5-10% de G, 2,5-7,5% de G, 2,5-5% de G, 5-50% de G, 5-45% de G, 5-40% de G, 5-35% de G, 5-30% de G, 5-25% de G, 5-20% de G, 5-15% de G, 5-10% de G, 5-7.5% de G, 7,5-50% de G, 7,5-45% de G, 7,5-40% de G, 7,5-35% de G, 7,5-30% de G, 7,5-25% de G, 7,5-20% de G, 7,5-15% de G, 7.5-10% de G, 10-50% de G, 10-45% de G, 10-40% de G, 10-35% de G, 10-30% de G, 10-25% de G, 10-20% de G, 10-15% de G, 10-12,5% de G, 12.5- 50% de G, 12,5-45% de G, 12,5-40% de G, 12,5-35% de G, 12,5-30% de G, 12,5-25% de G, 12.5-20% de G, 12.5- 15% de G, 15-50% de G, 15-45% de G, 15-40% de G, 15-35% de G, 15-30% de G, 15-25% de G, 15-20% de G, 20-50% de G, 20-45% de G, 20-40% de G, 20-35% de G, 20-30% de G, o 20-25% de G. Es decir, dentro de la población de oligonucleótidos únicos, menos del 1% de los códigos de barras de la muestra tienen un contenido de G de más del 50%. En algunas realizaciones, las especies de oligonucleótidos únicos de la composición consisten o consisten esencialmente en especies de oligonucleótidos únicos que tienen cada uno códigos de barras de muestra con un contenido de G de menos del 50%, como se describe en la presente.In some embodiments, for a composition comprising single oligonucleotide species (or such composition as used in a method), at least 99% of the sample barcodes of the unique oligonucleotides of the composition each have a content of 50% G or less, for example, less than 50% G, 45% G, 40% G, 35% G, 30% G, 25% G, 20% G, 15% G, 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the listed values, e.g. 2.5-50% G, 2.5-45% G, 2.5-40% G, 2.5-35% G, 2.5-30% G, 2.5-25% G, 2.5-20% of G, 2.5- 15% of G, 2.5-10% of G, 2.5-7.5% of G, 2.5-5% of G, 5-50 % G, 5-45% G, 5-40% G, 5-35% G, 5-30% G, 5-25% G, 5-20% G, 5-15% of G, 5-10% of G, 5-7.5% of G, 7.5-50% of G, 7.5-45% of G, 7.5-40% of G, 7.5-35% of G, 7.5-30% of G, 7.5-25% of G, 7.5-20% of G, 7.5-15% of G, 7.5-10% of G, 10-50% of G, 10-45% of G, 10-40% of G, 10-35% of G, 10-30% of G, 10-25% of G, 10-20% of G, 10-15% of G, 10-12.5% of G, 12.5- 50% of G, 12.5-45% of G, 12.5-40% of G, 12.5-35% of G, 12.5-30 % G, 12.5-25% G, 12.5-20% G, 12.5- 15% G, 15-50% G, 15-45% G, 15-40% G, 15- 35% G, 15-30% G, 15-25% G, 15-20% G, 20-50% G, 20-45% G, 20-40% G, 20-35 % G, 20-30% G, or 20-25% G. That is, within the population of single oligonucleotides, less than 1% of the barcodes in the sample have a G content of more than fifty%. In some embodiments, the single oligonucleotide species of the composition consist of or consist essentially of single oligonucleotide species each having sample barcodes with a G content of less than 50%, as described herein.

En algunas realizaciones, una región de código de barras se sitúa 5' de la región uniforme sin ninguna secuencia intermedia entre la región de código de barras y la región uniforme. En algunas realizaciones, la región del código de barras está situada 5' de un espaciador, que está situado 5' de la región uniforme, de tal manera que hay un espaciador entre la región del código de barras y la región uniforme. Opcionalmente, el espaciador tiene un bajo contenido en G (por ejemplo, 50% de G o menos, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G). El espaciador puede tener una longitud de por lo menos 1 nucleótido, por ejemplo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, o 50 nucleótidos, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 1-50, 1-45, 1-35, 1-30, 1-25, 1-20, 1-15, 1-10, 1-9, 1-8, 1-7, 1-6, 1-5, 1-4, 1-3, 1-2, 2-50, 2 45, 2-35, 2-30, 2-25, 2-20, 2-15, 2-10, 2-9, 2-8, 2-7, 2-6, 2-5, 2-4, 2-3, 3-50, 3-45, 3-35, 3-30, 3-25, 3-20, 3-15, 3-10, 3 9, 3-8, 3-7, 3-6, 3-5, 3-4, 4-50, 4-45, 4-35, 4-30, 4-25, 4-20, 4-15, 4-10, 4-9, 4-8, 4-7, 4-6, 4-5, 5-50, 5-45, 5-35, 5-30, 5-25, 5-20, 5-15, 5-10, 5-9, 5-8, 5-7, 5-6, 6-50, 6-45, 6-35, 6-30, 6-25, 6-20, 6-15, 6-10, 6-9, 6-8, 6-7, 7-50, 7-45, 7-35, 7-30, 7-25, 7-20, 7-15, 7-10, 7-9, 7-8, 8-50, 8-45, 8-35, 8-30, 8-25, 8-20, 8-15, 8-10, 8-9, 9-50, 9-45, 9-35, 9-30, 9-25, 9-20, 9-15, 9-10, 10-50, 10-45, 10-35, 10-30, 10-25, 10-20, o 10-15 nucleótidos. En algunas realizaciones, el espaciador puede comprender por lo menos dos nucleótidos consecutivos no G (denotados como "H", en los que "H" es A, C o T), por ejemplo por lo menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 H consecutivos, incluyendo intervalos entre dos cualquiera de los valores enumerados, por ejemplo 2-20, 2-15, 2-10, 2-9, 2-8, 2-7, 2 6, 2-5, 2-4, 2-3, 3-20, 3-15, 3-10, 3-9, 3-8, 3-7, 3-6, 3-5, 3-4, 4-20, 4-15, 4-10, 4-9, 4-8, 4-7, 4-6, 4-5, 5-20, 5-15, 5-10, 5-9, 5-8, 5-7, 5-6, 6-20, 6-15, 6-10, 6-9, 6-8, o 6-7. En algunas realizaciones, los nucleótidos de los espaciadores son Ts. Por ejemplo, el espaciador puede comprender una secuencia poli-T, como TT, TTT, TTTT, TTTTT, TTTTTT, TTTTTTTT o TTTTTTTTTT. Se observa que los espaciadores no proporcionan necesariamente diversidad, y como tal, en una composición que comprende especies de oligonucleótidos únicos como se describe en la presente, algunas o todas las especies de oligonucleótidos únicos pueden tener las mismas secuencias espaciadoras. Opcionalmente, todas las especies de oligonucleótidos únicos de la composición comprenden la misma secuencia espaciadora. In some embodiments, a barcode region is located 5' of the uniform region without any intervening sequence between the barcode region and the uniform region. In some embodiments, the barcode region is located 5' of a spacer, which is located 5' of the uniform region, such that there is a spacer between the barcode region and the uniform region. Optionally, the spacer has a low G content (e.g., 50% G or less, e.g., less than 50% G, 45% G, 40% G, 35% G, 30% G , 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G). The spacer may be at least 1 nucleotide long, for example 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 , 19, 20, 25, 30, 35, 40, 45, or 50 nucleotides, including intervals between any two of the values listed, for example 1-50, 1-45, 1-35, 1-30, 1-25 , 1-20, 1-15, 1-10, 1-9, 1-8, 1-7, 1-6, 1-5, 1-4, 1-3, 1-2, 2-50, 2 45, 2-35, 2-30, 2-25, 2-20, 2-15, 2-10, 2-9, 2-8, 2-7, 2-6, 2-5, 2-4, 2-3, 3-50, 3-45, 3-35, 3-30, 3-25, 3-20, 3-15, 3-10, 3 9, 3-8, 3-7, 3-6 , 3-5, 3-4, 4-50, 4-45, 4-35, 4-30, 4-25, 4-20, 4-15, 4-10, 4-9, 4-8, 4 -7, 4-6, 4-5, 5-50, 5-45, 5-35, 5-30, 5-25, 5-20, 5-15, 5-10, 5-9, 5-8 , 5-7, 5-6, 6-50, 6-45, 6-35, 6-30, 6-25, 6-20, 6-15, 6-10, 6-9, 6-8, 6 -7, 7-50, 7-45, 7-35, 7-30, 7-25, 7-20, 7-15, 7-10, 7-9, 7-8, 8-50, 8-45, 8-35, 8-30, 8-25, 8- 20, 8-15, 8-10, 8-9, 9-50, 9-45, 9-35, 9-30, 9-25, 9-20, 9-15, 9-10, 10-50, 10-45, 10-35, 10-30, 10-25, 10-20, or 10-15 nucleotides. In some embodiments, the spacer may comprise at least two consecutive non-G nucleotides (denoted "H", where "H" is A, C or T), for example at least 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 or 20 consecutive hours, including intervals between any two of the listed values, for example 2-20, 2- 15, 2-10, 2-9, 2-8, 2-7, 2 6, 2-5, 2-4, 2-3, 3-20, 3-15, 3-10, 3-9, 3 -8, 3-7, 3-6, 3-5, 3-4, 4-20, 4-15, 4-10, 4-9, 4-8, 4-7, 4-6, 4-5 , 5-20, 5-15, 5-10, 5-9, 5-8, 5-7, 5-6, 6-20, 6-15, 6-10, 6-9, 6-8, or 6-7. In some embodiments, the spacer nucleotides are Ts. For example, the spacer may comprise a poly-T sequence, such as TT, TTT, TTTT, TTTTT, TTTTTT, TTTTTTTT or TTTTTTTTTT. It is noted that spacers do not necessarily provide diversity, and as such, in a composition comprising single oligonucleotide species as described herein, some or all of the single oligonucleotide species may have the same spacer sequences. Optionally, all unique oligonucleotide species of the composition comprise the same spacer sequence.

Grupos y agolpamientoGroups and crowding

Las composiciones que comprenden especies de oligonucleótidos únicos como se describe de acuerdo con las composiciones y métodos de algunas realizaciones de la presente pueden disponerse en grupos espacialmente aislados, por ejemplo para que puedan analizarse múltiples muestras, con una muestra por grupo. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados, cada grupo comprendiendo una pluralidad de oligonucleótidos únicos de las especies de oligonucleótidos únicos, de tal manera que los oligonucleótidos únicos del mismo grupo comprenden la misma secuencia de código de barras de muestra, y de tal manera que diferentes oligonucleótidos únicos del mismo grupo comprenden secuencias de código de barras molecular diferentes. Como se usa en la presente, "aislamiento espacial" (y variaciones de este término raíz) significa que los ácidos nucleicos objetivo de una muestra pueden hibridar con las especies de oligonucleótidos únicos del grupo sin reaccionar sustancialmente de manera cruzada con otros grupos, y sin que las especies de oligonucleótidos únicos del grupo hibriden sustancialmente con ácidos nucleicos objetivo de otras muestras. Como tal, el código de barras de la muestra puede identificar de qué grupo procede una especie de oligonucleótido único determinada. Además, tras codificar con códigos de barras las secuencias de ácidos nucleicos objetivo con especies de oligonucleótidos únicos, el código de barras de la muestra puede identificar de qué grupo procede una secuencia de ácido nucleico objetivo codificada (o transcripción inversa o amplicón de la misma).Compositions comprising single oligonucleotide species as described in accordance with the compositions and methods of some embodiments herein may be arranged in spatially isolated groups, for example so that multiple samples can be analyzed, with one sample per group. In some embodiments, the unique oligonucleotide species are arranged in spatially isolated groups, each group comprising a plurality of unique oligonucleotides of the unique oligonucleotide species, such that the unique oligonucleotides of the same group comprise the same barcode sequence of sample, and such that different unique oligonucleotides from the same group comprise different molecular barcode sequences. As used herein, "spatial isolation" (and variations of this root term) means that the target nucleic acids of a sample can hybridize to the unique oligonucleotide species of the group without substantially cross-reacting with other groups, and without that the unique oligonucleotide species of the group hybridize substantially with target nucleic acids from other samples. As such, the sample barcode can identify which group a given single oligonucleotide species came from. Furthermore, after barcoding target nucleic acid sequences with unique oligonucleotide species, the sample barcode can identify which pool an encoded target nucleic acid sequence (or reverse transcription or amplicon thereof) comes from. .

En algunas realizaciones, un sustrato organiza los grupos de tal manera que estén espacialmente aislados unos de otros. Por ejemplo, una placa de múltiples pocillos puede organizar grupos espacialmente aislados, de tal manera que cada grupo se encuentre en un pocillo separado. Por ejemplo, cada grupo puede inmovilizarse en una perla diferente. Opcionalmente, cada pocillo de una placa de múltiples pocillos puede contener una única perla en la que se inmoviliza el grupo de especies de oligonucleótidos únicos, de tal manera que en cada pocillo de la placa de múltiples pocillos se coloca un grupo diferente de especies de oligonucleótidos únicos.In some embodiments, a substrate arranges the clusters such that they are spatially isolated from each other. For example, a multi-well plate can arrange spatially isolated groups, such that each group is in a separate well. For example, each group can be immobilized on a different bead. Optionally, each well of a multi-well plate may contain a single bead on which the pool of single oligonucleotide species is immobilized, such that a different pool of oligonucleotide species is placed in each well of the multi-well plate. unique.

En algunas realizaciones, las especies de oligonucleótidos únicos están dispuestas en por lo menos 2 grupos, por ejemplo, por lo menos 2, 3, 4, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 15, 16, 17, 18, 19, 20, 21 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 60, 70, 72, 96, 99, 100, 110, 120, 144, 168, o 192, grupos, incluyendo intervalos entre dos cualquiera de los valores enumerados. Opcionalmente, puede haber por lo menos 100 oligonucleótidos únicos por grupo.In some embodiments, the unique oligonucleotide species are arranged in at least 2 groups, for example, at least 2, 3, 4, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 15, 16, 17, 18, 19, 20, 21 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 60, 70, 72, 96, 99, 100, 110, 120, 144, 168, or 192, groups, including intervals between any two of the listed values. Optionally, there may be at least 100 unique oligonucleotides per group.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos 2 grupos, y hay por lo menos 100 oligonucleótidos únicos por grupo, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000, 6000, 6500, 10.000 o 65.000 especies de oligonucleótidos únicos por grupo.In some embodiments, the unique oligonucleotide species are arranged in at least 2 groups, and there are at least 100 unique oligonucleotides per group, for example, at least 100, 200, 300, 400, 500, 1000, 2000, 3000 , 4000, 5000, 6000, 6500, 10,000 or 65,000 species of unique oligonucleotides per group.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos 24 grupos, y hay por lo menos 100 oligonucleótidos únicos por grupo, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000, 6000, 6500, 10.000 o 65.000 especies de oligonucleótidos únicos por grupo.In some embodiments, the unique oligonucleotide species are arranged in at least 24 groups, and there are at least 100 unique oligonucleotides per group, for example, at least 100, 200, 300, 400, 500, 1000, 2000, 3000 , 4000, 5000, 6000, 6500, 10,000 or 65,000 species of unique oligonucleotides per group.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos 48 grupos, y hay por lo menos 100 oligonucleótidos únicos por grupo, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000, 6000, 6500, 10.000 o 65.000 especies de oligonucleótidos únicos por grupo.In some embodiments, the unique oligonucleotide species are arranged in at least 48 groups, and there are at least 100 unique oligonucleotides per group, for example, at least 100, 200, 300, 400, 500, 1000, 2000, 3000 , 4000, 5000, 6000, 6500, 10,000 or 65,000 species of unique oligonucleotides per group.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en por lo menos 96 grupos, y hay por lo menos 100 oligonucleótidos únicos por grupo, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 4000, 5000, 6000, 6500, 10.000 o 65.000 especies de oligonucleótidos únicos por grupo.In some embodiments, the unique oligonucleotide species are arranged in at least 96 groups, and there are at least 100 unique oligonucleotides per group, for example, at least 100, 200, 300, 400, 500, 1000, 2000, 3000 , 4000, 5000, 6000, 6500, 10,000 or 65,000 species of unique oligonucleotides per group.

SustratosSubstrates

Las especies de oligonucleótidos únicos de acuerdo con las composiciones y métodos de algunas realizaciones de la presente pueden inmovilizarse en sustratos, por ejemplo, perlas, pocillos de placas de múltiples pocillos, o matrices. Por ejemplo, las especies de oligonucleótidos únicos que tienen el mismo código de barras de muestra, pero diferentes códigos de barras moleculares pueden inmovilizarse en un sustrato, como en una única perla, o en un único pocillo de una placa de múltiples pocillos. Como tal, cuando las especies de oligonucleótidos únicos inmovilizados de un sustrato particular se ponen en contacto con una muestra particular, como una célula individual, las especies de oligonucleótidos únicos inmovilizados, inmovilizadas en ese sustrato se asociarán con ácidos nucleicos objetivo de la misma muestra. Si las especies de oligonucleótidos únicos inmovilizadas en el mismo sustrato tienen el mismo código de barras de muestra, mientras que las de otros sustratos tienen códigos de barras de muestra diferentes, la muestra asociada con cada ácido nucleico objetivo puede identificarse fácilmente (por ejemplo, todas las especies de oligonucleótidos únicos del sustrato N° 1 tienen el código de barras de muestra N° 1, todas las especies de oligonucleótidos únicos del sustrato N° 2 tienen el código de barras de muestra N° 2).Single oligonucleotide species according to the compositions and methods of some embodiments herein may be immobilized on substrates, for example, beads, wells of multi-well plates, or arrays. For example, unique oligonucleotide species that have the same barcode sample, but different molecular barcodes can be immobilized on a substrate, such as on a single bead, or in a single well of a multi-well plate. As such, when immobilized single oligonucleotide species from a particular substrate are contacted with a particular sample, such as an individual cell, the immobilized single oligonucleotide species, immobilized on that substrate will associate with target nucleic acids from the same sample. If single oligonucleotide species immobilized on the same substrate have the same sample barcode, while those on other substrates have different sample barcodes, the sample associated with each target nucleic acid can be easily identified (e.g., all single oligonucleotide species from substrate #1 have sample barcode #1, all unique oligonucleotide species from substrate #2 have sample barcode #2).

En algunas realizaciones, tales configuraciones en las que especies de oligonucleótidos únicos se inmovilizan en un sustrato pueden ser útiles para facilitar la eficiencia y el rendimiento. Por ejemplo, pueden añadirse células individuales a los pocillos de una placa de múltiples pocillos, de tal manera que no haya más de una célula individual en cada pocillo. Si las especies de oligonucleótidos únicos inmovilizadas en un pocillo dado (por ejemplo, en el pocillo o en una perla) comprenden un código de barras de muestra único, los ácidos nucleicos objetivo codificados con códigos de barras y los transcritos inversos y amplicones de los mismos correspondientes a la célula individual pueden identificarse y cuantificarse, incluso si se agrupan transcritos inversos con código de barras o amplicones de múltiples muestras.In some embodiments, such configurations in which single oligonucleotide species are immobilized on a substrate may be useful to facilitate efficiency and performance. For example, individual cells can be added to the wells of a multi-well plate such that there is no more than one individual cell in each well. If the unique oligonucleotide species immobilized in a given well (e.g., in the well or on a bead) comprise a unique sample barcode, the barcoded target nucleic acids and the reverse transcripts and amplicons thereof corresponding to the individual cell can be identified and quantified, even if barcoded reverse transcripts or amplicons from multiple samples are pooled.

Un sustrato puede comprender un tipo de soporte sólido. Un sustrato puede referirse a una superficie sólida o semisólida continua sobre la que pueden realizarse los métodos de la divulgación. Un sustrato puede referirse a una matriz, un cartucho, un chip, un dispositivo y un portaobjetos, por ejemplo. Como tal, "soporte sólido" y "sustrato" pueden usarse indistintamente.A substrate may comprise a type of solid support. A substrate may refer to a continuous solid or semi-solid surface on which the methods of the disclosure may be performed. A substrate can refer to an array, a cartridge, a chip, a device, and a slide, for example. As such, "solid support" and "substrate" can be used interchangeably.

Un sustrato o soporte sólido de acuerdo con algunas realizaciones de la presente puede abarcar cualquier tipo de esfera, bola, cojinete, cilindro sólidos, porosos o huecos u otra configuración similar compuesta de plástico, cerámica, metal o material polimérico (por ejemplo, hidrogel) sobre la que puede inmovilizarse un ácido nucleico (por ejemplo, de covalente o no covalentemente). Un sustrato o soporte sólido puede comprender una partícula discreta que puede ser esférica (por ejemplo, microesferas) o tener una forma no esférica o irregular, como cúbica, cuboide, piramidal, cilindrica, cónica, oblonga o en forma de disco, y similares. Una pluralidad de soportes sólidos espaciados en una matriz puede no comprender un sustrato. Un soporte sólido puede usarse indistintamente con el término "perla".A solid substrate or support according to some embodiments herein may encompass any type of solid, porous or hollow sphere, ball, bearing, cylinder or other similar configuration composed of plastic, ceramic, metal or polymeric material (e.g., hydrogel). on which a nucleic acid can be immobilized (for example, covalently or non-covalently). A solid substrate or support may comprise a discrete particle that may be spherical (e.g., microspheres) or have a non-spherical or irregular shape, such as cubic, cuboid, pyramidal, cylindrical, conical, oblong or disc-shaped, and the like. A plurality of solid supports spaced in an array may not comprise a substrate. A solid support can be used interchangeably with the term "pearl."

En algunas realizaciones, se proporciona una pluralidad de sustratos, y la diversidad de los códigos de barras de las muestras puede representarse en la pluralidad de sustratos, de tal manera que los sustratos únicos pueden comprender códigos de barras de muestras únicos.In some embodiments, a plurality of substrates are provided, and the diversity of sample barcodes may be represented on the plurality of substrates, such that unique substrates may comprise unique sample barcodes.

Métodos de codificación con códigos de barrasBarcode coding methods

De acuerdo con algunas realizaciones de la presente, se describen métodos de codificar con códigos de barras específicamente ácidos nucleicos a partir de dos o más muestras. Cada muestra puede comprender ácidos nucleicos. El método puede comprender el contacto de cada muestra con un grupo que comprende una pluralidad de especies de oligonucleótidos únicos, como se describe en la presente. Cada muestra puede ponerse en contacto en aislamiento espacial de las otras muestras. Las especies de polinucleótidos únicos de cada grupo pueden comprender el mismo código de barras de muestra y comprender diferentes códigos de barras moleculares. El método puede incluir la hibridación de regiones objetivo específicas de por lo menos algunos oligonucleótidos de las especies de oligonucleótidos únicos con por lo menos algunos de los ácidos nucleicos de la muestra. El método puede incluir extender los oligonucleótidos hibridados para producir cadenas que comprenden un oligonucleótido de la especie de oligonucleótido único y una secuencia complementaria a la región objetivo. Por tanto, para cada muestra, las cadenas producidas pueden comprender el mismo código de barras de la muestra y diferentes códigos de barras moleculares. Para muestras diferentes, los códigos de barras de la muestra pueden ser diferentes. En algunas realizaciones, las especies de oligonucleótidos únicos puestas en contacto con la muestra consisten o consisten esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos del 50%. En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. Opcionalmente, cada grupo comprende por lo menos 100 especies de oligonucleótidos únicos, por ejemplo por lo menos 100, 500, 100, 500, 1000, 2000, 6500, o 65.000 especies de oligonucleótidos únicos. Tales métodos, de acuerdo con algunas realizaciones de la presente, pueden codificar con códigos de barras los ácidos nucleicos de dos o más muestras diferentes, como una muestra de una única célula, para permitir el análisis y la cuantificación de los ácidos nucleicos de una única célula.According to some embodiments herein, methods of specifically barcoding nucleic acids from two or more samples are described. Each sample may comprise nucleic acids. The method may comprise contacting each sample with a pool comprising a plurality of single oligonucleotide species, as described herein. Each sample can be contacted in spatial isolation from the other samples. The unique polynucleotide species of each group may comprise the same sample barcode and comprise different molecular barcodes. The method may include hybridization of specific target regions of at least some oligonucleotides of the single oligonucleotide species with at least some of the nucleic acids of the sample. The method may include extending the hybridized oligonucleotides to produce chains comprising an oligonucleotide of the single oligonucleotide species and a sequence complementary to the target region. Therefore, for each sample, the chains produced may comprise the same sample barcode and different molecular barcodes. For different samples, the sample barcodes may be different. In some embodiments, the single oligonucleotide species contacted with the sample consist or essentially consist of single oligonucleotide species in which each molecular barcode has a G content of less than 50%. In some embodiments, the molecular barcodes of all single oligonucleotide species collectively have a G content of no more than 12.5%. Optionally, each group comprises at least 100 unique oligonucleotide species, for example at least 100, 500, 100, 500, 1000, 2000, 6500, or 65,000 unique oligonucleotide species. Such methods, according to some embodiments herein, may barcode nucleic acids from two or more different samples, such as a single cell sample, to allow analysis and quantification of nucleic acids from a single cell. cell.

Opcionalmente, cada muestra se pone en contacto con un único grupo de especies de oligonucleótidos únicos en aislamiento espacial de los demás grupos y muestras. En algunas realizaciones, los grupos están aislados espacialmente por estar en espacios contenidos únicos, por ejemplo, diferentes pocillos de una placa de múltiples pocillos, diferentes tubos de ensayo, diferentes canales de microfluidos, o similares. En algunas realizaciones, los grupos están aislados espacialmente por estar en diferentes regiones de una superficie, por ejemplo puntos de reacción en una matriz. Optionally, each sample is contacted with a single pool of unique oligonucleotide species in spatial isolation from the other pools and samples. In some embodiments, the groups are spatially isolated by being in unique contained spaces, for example, different wells of a multi-well plate, different test tubes, different microfluidic channels, or the like. In some embodiments, the groups are spatially isolated by being in different regions of a surface, for example reaction points in a matrix.

Los oligonucleótidos pueden ponerse en contacto con los ácidos nucleicos objetivo de la muestra en condiciones de hibridación estándar (por ejemplo, en tampones estándar y a una temperatura inferior a la Tm de una parte de la región uniforme que es complementaria al ácido nucleico objetivo). Opcionalmente, por ejemplo si los ácidos nucleicos objetivo comprenden ^aRⁿ, los ácidos nucleicos objetivo de la muestra se transcriben inversamente después de la hibridación a la especie de oligonucleótido único, para generar ADN (por ejemplo ADNc). Opcionalmente, los productos de la reacción de hibridación o de transcripción inversa se amplifican para generar una biblioteca de ADN. La amplificación puede realizarse mediante PCR en condiciones estándar, o mediante otros métodos adecuados, por ejemplo amplificación isotérmica, amplificación en círculo rodante, y similares. Opcionalmente, la amplificación puede comprender la amplificación de transcritos inversos o ácidos nucleicos hibridados con una polimerasa con actividad 5' a 3'. Opcionalmente, los productos de la amplificación pueden analizarse adicionalmente, por ejemplo por secuencia. Opcionalmente, los transcritos inversos o amplicones de diferentes grupos pueden agruparse para la secuenciación, ya que los diferentes códigos de barras de las muestras indicarán el grupo correspondiente (y la muestra) de cada ácido nucleico individual codificado con código de barras. Cabe señalar que puede haber un sesgo a favor del código de barras molecular rico en G o especies de oligonucleótidos únicos, y los métodos de acuerdo con algunas realizaciones de la presente pueden minimizar o eliminar dicho sesgo. A modo de ejemplo, cuando se cuantifican ácidos nucleicos de la muestra a nivel de ácido nucleico único, puede ser útil minimizar o eliminar dicho sesgo que podría favorecer la representación de algunos ácidos nucleicos y sesgar los resultados cuantitativos a favor de ciertos tipos de códigos de barras en lugar de ácidos nucleicos objetivo representativos de la muestra. En algunas realizaciones, los métodos que comprenden especies de oligonucleótidos únicos, como se describen en la presente, reducen el sesgo aumentando la sensibilidad, reduciendo el error estándar relativo o aumentando la sensibilidad y reduciendo el error estándar.The oligonucleotides can be contacted with the target nucleic acids of the sample under standard hybridization conditions (for example, in standard buffers and at a temperature below the Tm of a portion of the uniform region that is complementary to the target nucleic acid). Optionally, for example if the target nucleic acids comprise ^Rn , the target nucleic acids of the sample are reverse transcribed after hybridization to the single oligonucleotide species, to generate DNA ( ^for example cDNA). Optionally, the products of the hybridization or reverse transcription reaction are amplified to generate a DNA library. Amplification can be carried out by PCR under standard conditions, or by other suitable methods, for example isothermal amplification, rolling circle amplification, and the like. Optionally, the amplification may comprise the amplification of reverse transcripts or hybridized nucleic acids with a polymerase with 5' to 3' activity. Optionally, the amplification products can be analyzed further, for example by sequence. Optionally, reverse transcripts or amplicons from different pools can be pooled for sequencing, as different sample barcodes will indicate the corresponding pool (and sample) of each individual barcoded nucleic acid. It should be noted that there may be a bias in favor of G-rich molecular barcoding or single oligonucleotide species, and methods according to some embodiments herein may minimize or eliminate such bias. As an example, when quantifying nucleic acids from the sample at the single nucleic acid level, it may be useful to minimize or eliminate such bias that could favor the representation of some nucleic acids and bias the quantitative results in favor of certain types of codes. bars instead of representative target nucleic acids from the sample. In some embodiments, methods comprising single oligonucleotide species, as described herein, reduce bias by increasing the sensitivity, reducing the relative standard error, or by increasing the sensitivity and reducing the standard error.

Opcionalmente, el método puede comprender además determinar las secuencias de ácidos nucleicos de las cadenas que comprenden los oligonucleótidos de las especies de oligonucleótidos únicos y la secuencia complementaria al objetivo. Por ejemplo, pueden secuenciarse transcritos inversos, amplicones y/o bibliotecas de ADNc generadas a partir de la hibridación y extensión de las sondas de oligonucleótidos únicos. Puede emplearse cualquier método de secuenciación adecuado conocido en la técnica, preferiblemente enfoques de alto rendimiento. Por ejemplo, también puede usarse la secuenciación de matrices cíclica usando plataformas como Roche 454, Illumina Solexa, ABI-SOLiD, ION Torrent, Complete Genomics, Pacific Bioscience, Helicos, o la plataforma Polonator. La secuenciación puede incluir la secuenciación MiSeq. La secuenciación puede incluir la secuenciación HiSeq. Si procede, las especies de oligonucleótidos únicos pueden incluir adaptadores para facilitar la secuenciación de alto rendimiento, por ejemplo sitios de cebado universales. Opcionalmente, los ácidos nucleicos codificados con códigos de barras correspondientes a dos o más muestras diferentes (por ejemplo, de dos o más grupos diferentes) pueden agruparse o combinarse para la secuenciación. Opcionalmente, todos los grupos se combinan o agrupan para la secuenciación. Sin estar limitado por ninguna teoría, se observa que los códigos de barras de la muestra pueden identificar la muestra (o grupo) correspondiente de los ácidos nucleicos codificados con códigos de barras combinados, tal combinación o agrupación de los ácidos nucleicos puede facilitar el rendimiento y/o la utilización de recursos para la secuenciación, y la codificación con códigos de barras precisa de acuerdo con algunas realizaciones de la presente puede minimizar o eliminar el sesgo, incluso cuando se analiza un gran número de ácidos nucleicos diferentes.Optionally, the method may further comprise determining the nucleic acid sequences of the chains comprising the oligonucleotides of the single oligonucleotide species and the sequence complementary to the target. For example, reverse transcripts, amplicons, and/or cDNA libraries generated from hybridization and extension of single oligonucleotide probes can be sequenced. Any suitable sequencing method known in the art, preferably high-throughput approaches, may be employed. For example, cycle array sequencing can also be used using platforms such as Roche 454, Illumina Solexa, ABI-SOLiD, ION Torrent, Complete Genomics, Pacific Bioscience, Helicos, or the Polonator platform. Sequencing may include MiSeq sequencing. Sequencing may include HiSeq sequencing. If appropriate, single oligonucleotide species may include adapters to facilitate high-throughput sequencing, for example universal priming sites. Optionally, barcoded nucleic acids corresponding to two or more different samples (e.g., from two or more different groups) can be pooled or combined for sequencing. Optionally, all groups are combined or pooled for sequencing. Without being limited by any theory, it is noted that the sample barcodes can identify the corresponding sample (or group) of the nucleic acids encoded with combined barcodes, such combination or grouping of the nucleic acids can facilitate the performance and /or utilization of resources for sequencing, and accurate barcoding according to some embodiments herein can minimize or eliminate bias, even when analyzing a large number of different nucleic acids.

La región del código de barras de cada grupo comprende un código de barras de muestra que comprende por lo menos 3 nucleótidos como se describe en la presente, por ejemplo por lo menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, o 50 nucleótidos, incluyendo intervalos entre dos cualquiera de los valores enumerados. Opcionalmente, el código de barras de la muestra se sitúa 3' del código de barras molecular. Opcionalmente, el código de barras molecular se sitúa 3' del código de barras de la muestra. Opcionalmente, las especies de oligonucleótidos únicos comprenden el mismo código de barras de la muestra, que puede ser un código de barras de la muestra diferente de las especies de oligonucleótidos únicos de otros grupos. Opcionalmente, el código de barras de la muestra tiene un bajo contenido de G como se describe en la presente, por ejemplo, menos del 50% de G, por ejemplo, menos del 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G o 2,5% de G. Opcionalmente, por lo menos el 95%, 99% o 99,9% de los códigos de barras de la muestra tienen un bajo contenido de G como se describe en la presente. Opcionalmente, cada oligonucleótido único comprende un espaciador 3' del código de barras molecular y 5' de la región uniforme como se describe en la presente.The barcode region of each group comprises a sample barcode comprising at least 3 nucleotides as described herein, for example at least 3, 4, 5, 6, 7, 8, 9, 10 , 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35 , 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, or 50 nucleotides, including intervals between any two of the values listed. Optionally, the sample barcode is located 3' of the molecular barcode. Optionally, the molecular barcode is located 3' of the sample barcode. Optionally, the single oligonucleotide species comprise the same sample barcode, which may be a different sample barcode from the single oligonucleotide species of other groups. Optionally, the sample barcode has a low G content as described herein, for example, less than 50% G, for example, less than 45% G, 40% G, 35% G, 30% G, 25% G, 20% G, 15% G, 12.5% G, 10% G, 7.5% G, 5% G or 2.5% of G. Optionally, at least 95%, 99% or 99.9% of the barcodes in the sample have a low G content as described herein. Optionally, each unique oligonucleotide comprises a spacer 3' of the molecular barcode and 5' of the uniform region as described herein.

Las especies de oligonucleótidos únicos puestas en contacto con la muestra consisten esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos del 50% como se describe en la presente, por ejemplo, menos del 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G. En algunas realizaciones, todos los códigos de barras moleculares de las especies de oligonucleótidos únicos en contacto con la muestra comprenden códigos de barras moleculares que tienen un contenido de G de menos del 50% como se describe en la presente, por ejemplo, menos del 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de contenido de G, o 0% de contenido de G.The single oligonucleotide species contacted with the sample essentially consist of single oligonucleotide species in which each molecular barcode has a G content of less than 50% as described herein, for example, less than 45% of G, 40% of G, 35% of G, 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% G, or 2.5% G, or 0% G. In some embodiments, all molecular barcodes of the unique oligonucleotide species in contact with the sample comprise molecular barcodes having a G content of less than 50% as described herein, for example, less than 45% G, 40% G, 35% G, 30% G, 25% G, 20% G, 15% G, 12.5% G, 10% G, 7.5% G, 5% G, or 2.5% G content, or 0% G content.

En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del12,5% G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, the molecular barcodes of all unique oligonucleotide species collectively have a G content of less than 12.5% G, 10% G, 7.5% G, 5% G, or 2.5% G, or 0% G, including intervals between any two of the listed values.

En algunas realizaciones, cada especie de oligonucleótido único comprende además una región uniforme 3' de la región del código de barras. La región uniforme comprende por lo menos 10 nucleótidos complementarios a una secuencia de ácido nucleico objetivo (por ejemplo, por lo menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, o 30 nucleótidos complementarios al objetivo, incluyendo intervalos entre dos cualquiera de los valores enumerados), y está configurada para la amplificación de 5' a 3' de la secuencia de ácido nucleico objetivo. Opcionalmente, la región uniforme comprende una secuencia oligo dT.In some embodiments, each unique oligonucleotide species further comprises a uniform region 3' of the barcode region. The uniform region comprises at least 10 nucleotides complementary to a target nucleic acid sequence (e.g., at least 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, or 30 nucleotides complementary to the target, including intervals between any two of the values listed), and is configured for amplification from 5' to 3' of the nucleic acid sequence aim. Optionally, the uniform region comprises an oligo dT sequence.

En algunas realizaciones, las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato como se describe en la presente, de tal manera que las especies de oligonucleótidos únicos inmovilizadas en un sustrato dado comprenden el mismo código de barras de la muestra, y diferentes especies de oligonucleótidos únicos inmovilizadas en el sustrato comprenden diferentes códigos de barras moleculares. A modo de ejemplo, los sustratos pueden incluir pocillos en placas de múltiples pocillos (por ejemplo, placas de 24, 48 y 96 pocillos), puntos en una matriz, perlas y similares. En algunas realizaciones, en cada sustrato se inmovilizan por lo menos 100 oligonucleótidos únicos. Opcionalmente, todas las especies de oligonucleótidos únicos inmovilizadas en un sustrato dado (y por tanto en el mismo conjunto) comprenden el mismo código de barras de muestra. En algunas realizaciones, cada código de barras de muestra tiene un contenido de G del 50% o menos, por ejemplo 50% o menos, 40% o menos, 25% o menos, 20% o menos, 12,5% o menos, 10% o menos, o 5% o menos.In some embodiments, the single oligonucleotide species of each group are immobilized on a substrate as described herein, such that the single oligonucleotide species immobilized on a given substrate comprise the same sample barcode, and different Unique oligonucleotide species immobilized on the substrate comprise different molecular barcodes. By way of example, substrates may include wells in multi-well plates (e.g., 24-, 48-, and 96-well plates), spots in an array, beads, and the like. In some embodiments, at least 100 unique oligonucleotides are immobilized on each substrate. Optionally, all single oligonucleotide species immobilized on a given substrate (and therefore in the same pool) comprise the same sample barcode. In some embodiments, each sample barcode has a G content of 50% or less, for example 50% or less, 40% or less, 25% or less, 20% or less, 12.5% or less, 10% or less, or 5% or less.

En algunas realizaciones, los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de menos del 12,5%, por ejemplo menos del 12,5%, menos del 10%, menos del 7,5%, menos del 5%, menos del 2,5% o menos del 1%.In some embodiments, the molecular barcodes of the single oligonucleotide species collectively have a G content of less than 12.5%, for example less than 12.5%, less than 10%, less than 7.5%, less than 5%, less than 2.5% or less than 1%.

En algunas realizaciones, las regiones de código de barras de las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%, por ejemplo de no más del 12,5%, de no más del 10%, de no más del 7,5%, de no más del 5%, de no más del 2,5%, o de no más del 1%.In some embodiments, the barcode regions of the single oligonucleotide species collectively have a G content of no more than 12.5%, for example no more than 12.5%, no more than 10%, not more than 7.5%, not more than 5%, not more than 2.5%, or not more than 1%.

En algunas realizaciones, para por lo menos el 95% de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G. Por ejemplo, para por lo menos el 95%, 96%, 97%, 98%, 99%, 99,5%, 99,9%, o 99,99%, de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular puede ser no adyacente a otra G.In some embodiments, for at least 95% of the unique oligonucleotide species, any G in the molecular barcode is not adjacent to another G. For example, for at least 95%, 96%, 97%, For 98%, 99%, 99.5%, 99.9%, or 99.99%, of the unique oligonucleotide species, any G in the molecular barcode may be non-adjacent to another G.

En algunas realizaciones, cada grupo consiste, o consiste esencialmente, en especies de oligonucleótidos únicos para las que cualquier G del código de barras molecular no es adyacente a otra G.In some embodiments, each group consists of, or essentially consists of, single oligonucleotide species for which any G of the molecular barcode is not adjacent to another G.

En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden una secuencia que suma por lo menos 6 H y N alternas, por ejemplo por lo menos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, o 20 H y N alternas, incluyendo intervalos entre dos cualquiera de los valores enumerados. A modo de ejemplo, 6 H y N alternas pueden representarse como HNHNHN. Cabe señalar que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N.In some embodiments, at least 95% of the molecular barcodes of the single oligonucleotide species comprise a sequence that sums to at least 6 alternating H and N, for example at least 6, 7, 8, 9, 10 , 11, 12, 13, 14, 15, 16, 17, 18, 19, or 20 alternating H and N, including intervals between any two of the listed values. As an example, 6 alternating H and N can be represented as HNHNHN. It should be noted that each H can be the same or different from any other H, and that each N can be the same or different from any other N.

En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HNHNHNHN, en la que cada "H" es una cualquiera de A, C, o T, y en la que cada "N" es una cualquiera de A, G, C, o T. Por ejemplo, por lo menos el 95%, 96%, 97,%, 98%, 99%, 99,5%, 99,9% o 99,99% de los códigos de barras moleculares de la especie de oligonucleótido único pueden comprender la secuencia HNHNHNHN. Se observa que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HNHNHNHN.In some embodiments, at least 95% of the molecular barcodes of the single oligonucleotide species comprise the sequence HNHNHNHN, in which each "H" is any one of A, C, or T, and in which each "N" is any one of A, G, C, or T. For example, at least 95%, 96%, 97%, 98%, 99%, 99.5%, 99.9%, or 99 .99% of the molecular barcodes of the single oligonucleotide species can comprise the sequence HNHNHNHN. It is noted that each H can be the same or different from any other H, and that each N can be the same or different from any other N. In some embodiments, each molecular barcode of the unique oligonucleotide species comprises the sequence HNHNHNHN.

En algunas realizaciones, por lo menos el 99% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HHHHHHHH, en la que cada "H" es cualquiera de A, C o T. Por ejemplo, por lo menos el 95%, 96%, 97,%, 98%, 99%, 99,5%, 99,9% o 99,99% de los códigos de barras moleculares de la especie de oligonucleótido único pueden comprender la secuencia HHHHHHHH. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HHHHHHHH.In some embodiments, at least 99% of the molecular barcodes of the single oligonucleotide species comprise the sequence HHHHHHHH, where each "H" is any of A, C or T. For example, at least the 95%, 96%, 97%, 98%, 99%, 99.5%, 99.9% or 99.99% of the molecular barcodes of the single oligonucleotide species may comprise the sequence HHHHHHHH. In some embodiments, each molecular barcode of the unique oligonucleotide species comprises the sequence HHHHHHHH.

En algunas realizaciones, cada oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo. Opcionalmente, el espaciador puede comprender la secuencia HNH, en la que cada "H" es cualquiera de A, C, o T, y en la que cada "N" es cualquiera de A, G, C, o T. Opcionalmente, el espaciador puede comprender la secuencia HHH. Opcionalmente, el espaciador puede comprender la secuencia HNHNHNHN. Opcionalmente, el espaciador puede comprender la secuencia HHHHHHHH. Se observa que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N. En algunas realizaciones, cada oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HNHNHNHN, en la que cada "H" es cualquiera de A, C, o T, y en la que cada "N" es cualquiera de A, G, C, o T. En algunas realizaciones, el oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprendiendo la secuencia HHHHHHHH, en la que cada "H" es cualquiera de A, C o T.In some embodiments, each unique oligonucleotide comprises a spacer 3' to the barcode region and 5' to the target-specific region. Optionally, the spacer may comprise the sequence HNH, in which each "H" is any of A, C, or T, and in which each "N" is any of A, G, C, or T. Optionally, the spacer may comprise the sequence HHH. Optionally, the spacer may comprise the sequence HNHNHNHN. Optionally, the spacer may comprise the sequence HHHHHHHH. It is noted that each H can be the same or different from any other H, and that each N can be the same or different from any other N. In some embodiments, each single oligonucleotide comprises a spacer 3 'of the barcode region and 5 ' of the specific region of the target, said spacer comprising the sequence HNHNHNHN, in which each "H" is any of A, C, or T, and wherein each "N" is any of A, G, C, or T. In some embodiments, the single oligonucleotide comprises a spacer 3' of the barcode region and 5' of the target-specific region, said spacer comprising the sequence HHHHHHHH, in which each "H" is any of A, C or T.

En algunas realizaciones, por lo menos un grupo comprende por lo menos dos oligonucleótidos de la misma especie de oligonucleótido único. En algunas realizaciones, ningún grupo comprende dos oligonucleótidos de la misma especie de oligonucleótido único.In some embodiments, at least one group comprises at least two oligonucleotides of the same single oligonucleotide species. In some embodiments, no group comprises two oligonucleotides of the same single oligonucleotide species.

En algunas realizaciones, la región específica del objetivo puede comprender una secuencia para la amplificación de 5' a 3' de un ácido nucleico objetivo. En algunas realizaciones, la región específica del objetivo comprende una secuencia oligo dT. En algunas realizaciones, la región específica del objetivo comprende una secuencia que flanquea una secuencia que codifica una región variable de un receptor de células inmunitarias o inmunoglobulina.In some embodiments, the target specific region may comprise a sequence for 5' to 3' amplification of a target nucleic acid. In some embodiments, the target-specific region comprises an oligo dT sequence. In some embodiments, the target-specific region comprises a sequence flanking a sequence encoding a variable region of an immune cell receptor or immunoglobulin.

En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras molecular es 3' del código de barras de la muestra. En algunas realizaciones, para cada especie de oligonucleótido único, el código de barras de la muestra es 3' del código de barras molecular.In some embodiments, for each unique oligonucleotide species, the molecular barcode is 3' to the sample barcode. In some embodiments, for each unique oligonucleotide species, the sample barcode is 3' to the molecular barcode.

En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de por lo menos 24 nucleótidos. En algunas realizaciones, cada especie de oligonucleótido único tiene una longitud de 24-140 nucleótidos.In some embodiments, each unique oligonucleotide species has a length of at least 24 nucleotides. In some embodiments, each unique oligonucleotide species has a length of 24-140 nucleotides.

En algunas realizaciones, cada grupo comprende por lo menos 1000 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 65.000 especies de oligonucleótidos únicos.In some embodiments, each pool comprises at least 1000 unique oligonucleotide species. In some embodiments, each pool comprises at least 6,500 unique oligonucleotide species. In some embodiments, each pool comprises at least 65,000 unique oligonucleotide species.

En algunas realizaciones, por lo menos 48 muestras únicas se ponen en contacto cada una con un grupo diferente de especies de oligonucleótidos únicos. Por ejemplo, por lo menos 48, 72, 96, 120, 144, 168 o 192 muestras pueden ponerse en contacto con un grupo diferente. Por ejemplo, cada muestra puede ponerse en contacto con un grupo diferente de especies de oligonucleótidos únicos en un pocillo de una placa de múltiples pocillos.In some embodiments, at least 48 unique samples are each contacted with a different set of unique oligonucleotide species. For example, at least 48, 72, 96, 120, 144, 168 or 192 samples can contact a different group. For example, each sample may be contacted with a different set of unique oligonucleotide species in one well of a multi-well plate.

En algunas realizaciones, por lo menos el 99% de las muestras no comprenden más de una célula cada una. Por ejemplo, por lo menos el 99%, 99,5%, 99,9% o 99,99% de las muestras pueden comprender no más de una célula. A modo de ejemplo, una solución que comprende múltiples células puede diluirse a una concentración adecuada de tal manera que haya una probabilidad adecuadamente alta de que cada muestra no comprenda más de una célula.In some embodiments, at least 99% of the samples comprise no more than one cell each. For example, at least 99%, 99.5%, 99.9% or 99.99% of the samples may comprise no more than one cell. By way of example, a solution comprising multiple cells may be diluted to a suitable concentration such that there is a suitably high probability that each sample does not comprise more than one cell.

En algunas realizaciones, las especies de oligonucleótidos únicos de cada grupo se inmovilizan en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares sean los mismos para las especies de oligonucleótidos únicos inmovilizadas en cada sustrato. Como tal, cada grupo puede ser identificado por un código de barras de muestra particular. Cabe señalar que diferentes sustratos (y como tales, diferentes grupos) pueden asociarse con diferentes códigos de barras de la muestra. En algunas realizaciones, el sustrato comprende una región espacialmente aislada de una superficie, de tal manera que los sustratos de los diferentes grupos comprendan las diferentes regiones espacialmente aisladas de la superficie. En algunas realizaciones, el sustrato comprende un pocillo de una placa de múltiples pocillos. En algunas realizaciones, el sustrato comprende una perla.In some embodiments, the single oligonucleotide species of each group are immobilized on a substrate, such that the sample barcodes but not the molecular barcodes are the same for the single oligonucleotide species immobilized on each substrate. As such, each group can be identified by a particular sample barcode. It should be noted that different substrates (and as such, different groups) can be associated with different sample barcodes. In some embodiments, the substrate comprises a spatially isolated region of a surface, such that substrates of different groups comprise different spatially isolated regions of the surface. In some embodiments, the substrate comprises one well of a multi-well plate. In some embodiments, the substrate comprises a bead.

En algunas realizaciones, la especie de oligonucleótido único comprende además un adaptador configurado para inmovilizar el oligonucleótido único en el sustrato, en donde dicha región de código de barras se encuentra 3' del adaptador. Opcionalmente, cada adaptador puede comprender un sitio de cebado universal, por ejemplo para su uso en secuenciación.In some embodiments, the single oligonucleotide species further comprises an adapter configured to immobilize the single oligonucleotide to the substrate, wherein said barcode region is located 3' of the adapter. Optionally, each adapter may comprise a universal priming site, for example for use in sequencing.

Métodos de elaboración de composiciones que comprenden especies de oligonucleótidos únicosMethods of making compositions comprising single oligonucleotide species

De acuerdo con algunas realizaciones de la presente, se describen métodos para elaborar una composición que comprende oligonucleótidos únicos. El método puede comprender proporcionar una pluralidad de diferentes códigos de barras de muestra como se describe en la presente. El método puede comprender proporcionar una pluralidad de códigos de barras moleculares diferentes como se describe en la presente. El método puede comprender sintetizar una pluralidad de especies de oligonucleótidos únicos como se describe en la presente, en donde cada especie de oligonucleótido único comprende una región de código de barras que comprende un código de barras de muestra y un código de barras molecular como se describe en la presente. El método puede comprender disponer la pluralidad de especies de oligonucleótidos únicos en grupos espacialmente aislados. Cada grupo puede comprender múltiples especies de oligonucleótidos únicos, de tal manera que las especies de oligonucleótidos únicos del mismo grupo comprendan la misma secuencia de código de barras de muestra, y de tal manera que diferentes especies de oligonucleótidos únicos del mismo grupo comprendan diferentes secuencias de código de barras molecular. Opcionalmente, las especies de oligonucleótidos únicos se disponen en los grupos espacialmente aislados concurrentemente con la síntesis. Opcionalmente, las especies de oligonucleótidos únicos se disponen en los grupos espacialmente aislados después de la síntesis. Opcionalmente, la composición consiste esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos del 50%. Opcionalmente, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. Opcionalmente, la composición consiste esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de menos de 50 y los códigos de barras moleculares de todas las especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%. En algunas realizaciones, cada grupo aislado espacialmente comprende por lo menos 100 especies de oligonucleótidos únicos, por ejemplo, por lo menos 100, 200, 300, 400, 500, 1000, 2000, 3000, 5000, 6500 o 65.000 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo aislado espacialmente comprende por lo menos 1000 especies de oligonucleótidos únicos.According to some embodiments herein, methods for making a composition comprising single oligonucleotides are described. The method may comprise providing a plurality of different sample barcodes as described herein. The method may comprise providing a plurality of different molecular barcodes as described herein. The method may comprise synthesizing a plurality of single oligonucleotide species as described herein, wherein each single oligonucleotide species comprises a barcode region comprising a sample barcode and a molecular barcode as described at the moment. The method may comprise arranging the plurality of unique oligonucleotide species into spatially isolated groups. Each group may comprise multiple species of unique oligonucleotides, such that species of unique oligonucleotides from the same group comprise the same sample barcode sequence, and such that different species of unique oligonucleotides from the same group comprise different sequences of molecular barcode. Optionally, the unique oligonucleotide species are arranged in the spatially isolated pools concurrently with the synthesis. Optionally, the single oligonucleotide species are arranged in the groups spatially isolated after synthesis. Optionally, the composition consists essentially of single oligonucleotide species in which each molecular barcode has a G content of less than 50%. Optionally, the molecular barcodes of all single oligonucleotide species collectively have a G content of no more than 12.5%. Optionally, the composition consists essentially of single oligonucleotide species in which each molecular barcode has a G content of less than 50 and the molecular barcodes of all single oligonucleotide species collectively have a G content of no more of 12.5%. In some embodiments, each spatially isolated group comprises at least 100 unique oligonucleotide species, for example, at least 100, 200, 300, 400, 500, 1000, 2000, 3000, 5000, 6500 or 65,000 unique oligonucleotide species. In some embodiments, each spatially isolated group comprises at least 1000 unique oligonucleotide species.

Los oligonucleótidos únicos pueden sintetizarse usando cualquiera de los métodos adecuados. En algunas realizaciones, las secuencias de códigos de barras de la muestra y las secuencias de códigos de barras moleculares se generan in silico, y se sintetizan especies de oligonucleótidos únicos que comprenden las secuencias de códigos de barras de la muestra y las secuencias de códigos de barras molecular juntas, por ejemplo usando síntesis química de oligonucleótidos. En algunas realizaciones, una pluralidad de oligonucleótidos que comprenden la misma secuencia de código de barras de muestra se agrupan en aislamiento espacial, y se unen con una pluralidad de oligonucleótidos que comprenden códigos de barras moleculares, por ejemplo mediante hibridación y extensión, o mediante ligadura. Tal enfoque puede realizarse en múltiples entornos espacialmente aislados en paralelo, o secuencialmente, para conseguir múltiples especies de oligonucleótidos únicos.Single oligonucleotides can be synthesized using any of the suitable methods. In some embodiments, the sample barcode sequences and the molecular barcode sequences are generated in silico, and unique oligonucleotide species comprising the sample barcode sequences and the molecular barcode sequences are synthesized. molecular rods together, for example using chemical synthesis of oligonucleotides. In some embodiments, a plurality of oligonucleotides comprising the same sample barcode sequence are pooled in spatial isolation, and ligated to a plurality of oligonucleotides comprising molecular barcodes, for example by hybridization and extension, or by ligation. . Such an approach can be performed in multiple spatially isolated environments in parallel, or sequentially, to achieve multiple species of unique oligonucleotides.

Opcionalmente, cada especie de oligonucleótido único comprende además una región uniforme 3' de la región del código de barras, como se describe en la presente. Opcionalmente, la región uniforme comprende una región específica del objetivo. En algunas realizaciones, la región específica de objetivo comprende por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo (por ejemplo, por lo menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, o 30 nucleótidos complementarios al objetivo, incluyendo intervalos entre dos cualquiera de los valores enumerados), y está configurada para la amplificación de 5' a 3' de la secuencia de ácidos nucleicos objetivo. Opcionalmente, la región uniforme comprende una secuencia oligo dT.Optionally, each unique oligonucleotide species further comprises a uniform region 3' of the barcode region, as described herein. Optionally, the uniform region comprises a specific region of the target. In some embodiments, the target specific region comprises at least 10 nucleotides complementary to a target nucleic acid (e.g., at least 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, or 30 nucleotides complementary to the target, including intervals between any two of the values listed), and is configured for amplification from 5' to 3' of the target nucleic acid sequence. Optionally, the uniform region comprises an oligo dT sequence.

En algunas realizaciones, la pluralidad de códigos de barras moleculares (y como tal, la pluralidad de especies de oligonucleótidos únicos) consiste esencialmente en especies de oligonucleótidos únicos en las que cada código de barras molecular tiene un contenido de G de no más del 50% como se describe en la presente, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G. En algunas realizaciones, todos los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen códigos de barras moleculares que tienen un contenido de G de no más del 50% como se describe en la presente. En algunas realizaciones, todos los códigos de barras moleculares de las especies de oligonucleótidos únicos tienen códigos de barras moleculares que tienen un contenido de G de no más del 50% como se describe en la presente, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G de contenido. En algunas realizaciones, cada código de barras molecular de cada especie de oligonucleótido único tiene un contenido de G de no más del 50%, por ejemplo, menos del 50% de G, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G.In some embodiments, the plurality of molecular barcodes (and as such, the plurality of single oligonucleotide species) essentially consists of single oligonucleotide species in which each molecular barcode has a G content of no more than 50%. as described herein, for example, less than 50% G, 45% G, 40% G, 35% G, 30% G, 25% G, 20% G, 15% G, 12.5% G, 10% G, 7.5% G, 5% G, or 2.5% G, or 0% G. In some embodiments, all molecular barcodes of the single oligonucleotide species have molecular barcodes that have a G content of no more than 50% as described herein. In some embodiments, all molecular barcodes of the single oligonucleotide species have molecular barcodes that have a G content of no more than 50% as described herein, for example, less than 50% G, 45% G, 40% G, 35% G, 30% G, 25% G, 20% G, 15% G, 12.5% G, 10% G, 7.5 % G, 5% G, or 2.5% G, or 0% G content. In some embodiments, each molecular barcode of each single oligonucleotide species has a G content of no more than 50%, for example, less than 50% G, 45% G, 40% G, 35% G, 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5 % G, or 0% G.

En algunas realizaciones, los códigos de barras moleculares de todas las especies de oligonucleótidos únicos en la pluralidad de especies de oligonucleótidos únicos tienen colectivamente un contenido G de menos del 12,5% G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados.In some embodiments, the molecular barcodes of all single oligonucleotide species in the plurality of single oligonucleotide species collectively have a G content of less than 12.5% G, 10% G, 7.5% G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed.

En algunas realizaciones, cada código de barras de muestra tiene un contenido de G del 50% o menos, como se describe en la presente, por ejemplo, menos del 50%, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G de contenido, o 0% de G de contenido.In some embodiments, each sample barcode has a G content of 50% or less, as described herein, for example, less than 50%, 45% G, 40% G, 35% G , 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G content, or 0% G content.

En algunas realizaciones, los códigos de barras de muestra de todas las especies de oligonucleótidos únicos en la pluralidad de especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más de 50% de G, por ejemplo, menos del 50%, 45% de G, 40% de G, 35% de G, 30% de G, 25% de G, 20% de G, 15% de G, 12,5% de G, 10% de G, 7,5% de G, 5% de G, o 2,5% de G, o 0% de G, incluyendo intervalos entre dos cualquiera de los valores enumerados. En algunas realizaciones, los códigos de barras de muestra de todas las especies de oligonucleótidos únicos de la pluralidad de especies de oligonucleótidos únicos tienen colectivamente un contenido de G de no más del 12,5%.In some embodiments, the sample barcodes of all single oligonucleotide species in the plurality of single oligonucleotide species collectively have a G content of no more than 50% G, e.g., less than 50%, 45% of G, 40% of G, 35% of G, 30% of G, 25% of G, 20% of G, 15% of G, 12.5% of G, 10% of G, 7.5% of G, 5% of G, or 2.5% of G, or 0% of G, including intervals between any two of the values listed. In some embodiments, the sample barcodes of all single oligonucleotide species of the plurality of single oligonucleotide species collectively have a G content of no more than 12.5%.

En algunas realizaciones, para por lo menos el 95% (por ejemplo, por lo menos el 95%, 96%, 97%, 98%, 99%, 99,5%, 99,9% o 99,99%) de las especies de oligonucleótidos únicos, cualquier G en el código de barras molecular no es adyacente a otra G. En algunas realizaciones, la pluralidad de especies de oligonucleótidos únicos consiste esencialmente en especies de oligonucleótidos únicos para las que cualquier G en el código de barras molecular no es adyacente a otra G. In some embodiments, for at least 95% (e.g., at least 95%, 96%, 97%, 98%, 99%, 99.5%, 99.9% or 99.99%) of the single oligonucleotide species, any G in the molecular barcode is not adjacent to another G. In some embodiments, the plurality of single oligonucleotide species essentially consists of single oligonucleotide species for which any G in the molecular barcode is not adjacent to another G.

En algunas realizaciones, por lo menos el 95% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden la secuencia HNHNHNHN, en la que cada "H" es cualquiera de A, C, o T, y en la que cada "N" es cualquiera de A, G, C, o T. Por ejemplo, por lo menos el 95%, 96%, 97%, 98%, 99%, 99,5%, 99,9% o 99,99% de los códigos de barras moleculares de la especie de oligonucleótido único pueden comprender la secuencia HNHNHNHN. Se observa que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HNHNHNHN.In some embodiments, at least 95% of the molecular barcodes of the single oligonucleotide species comprise the sequence HNHNHNHN, wherein each "H" is any of A, C, or T, and wherein each " N" is any of A, G, C, or T. For example, at least 95%, 96%, 97%, 98%, 99%, 99.5%, 99.9%, or 99.99% of the molecular barcodes of the single oligonucleotide species may comprise the sequence HNHNHNHN. It is noted that each H can be the same or different from any other H, and that each N can be the same or different from any other N. In some embodiments, each molecular barcode of the unique oligonucleotide species comprises the sequence HNHNHNHN.

En algunas realizaciones, por lo menos el 99% de los códigos de barras moleculares de la especie de oligonucleótido único comprenden códigos de barras moleculares que comprenden la secuencia HHHHHHHH, en la que cada "H" es cualquiera de A, C o T. Por ejemplo, por lo menos el 95%, 96%, 97%, 98%, 99%, 99,5%, 99,9% o 99,99% de los códigos de barras moleculares de la especie de oligonucleótido único pueden comprender la secuencia HHHHHHHH. En algunas realizaciones, cada código de barras molecular de la especie de oligonucleótido único comprende la secuencia HHHHHHHH.In some embodiments, at least 99% of the molecular barcodes of the single oligonucleotide species comprise molecular barcodes comprising the sequence HHHHHHHH, where each "H" is any of A, C or T. For For example, at least 95%, 96%, 97%, 98%, 99%, 99.5%, 99.9% or 99.99% of the molecular barcodes of the single oligonucleotide species may comprise the sequence HHHHHHHH. In some embodiments, each molecular barcode of the unique oligonucleotide species comprises the sequence HHHHHHHH.

En algunas realizaciones, cada especie de oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo. Opcionalmente, el espaciador puede comprender la secuencia HNH, en la que cada "H" es cualquiera de A, C, o T, y en la que cada "N" es cualquiera de A, G, C, o T. Opcionalmente, el espaciador puede comprender la secuencia HHH. Opcionalmente, el espaciador puede comprender la secuencia HNHNHNHN. Opcionalmente, el espaciador puede comprender la secuencia HHHHHHHH. Cabe señalar que cada H puede ser igual o diferente de cualquier otra H, y que cada N puede ser igual o diferente de cualquier otra N. En algunas realizaciones, cada especie de oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, dicho espaciador comprende la secuencia HNHNHNHN, en la que cada "H" es cualquiera de A, C o T, y en la que cada "N" es cualquiera de A, G, C o T. En algunas realizaciones, el oligonucleótido único comprende un espaciador 3' de la región del código de barras y 5' de la región específica del objetivo, el espaciador comprendiendo la secuencia HHHHHHHH, en la que cada "H" es cualquiera de A, C o T.In some embodiments, each single oligonucleotide species comprises a spacer 3' to the barcode region and 5' to the target-specific region. Optionally, the spacer may comprise the sequence HNH, in which each "H" is any of A, C, or T, and in which each "N" is any of A, G, C, or T. Optionally, the spacer may comprise the sequence HHH. Optionally, the spacer may comprise the sequence HNHNHNHN. Optionally, the spacer may comprise the sequence HHHHHHHH. It should be noted that each H may be the same as or different from any other H, and that each N may be the same as or different from any other N. In some embodiments, each single oligonucleotide species comprises a spacer 3' of the barcode region. and 5' of the target-specific region, said spacer comprising the sequence HNHNHNHN, in which each "H" is any of A, C or T, and in which each "N" is any of A, G, C or T. In some embodiments, the single oligonucleotide comprises a spacer 3' of the barcode region and 5' of the target-specific region, the spacer comprising the sequence HHHHHHHH, wherein each "H" is any of A, C or T.

En algunas realizaciones, cada grupo comprende por lo menos 6.500 especies de oligonucleótidos únicos. En algunas realizaciones, cada grupo comprende por lo menos 65.000 especies de oligonucleótidos únicos.In some embodiments, each pool comprises at least 6,500 unique oligonucleotide species. In some embodiments, each pool comprises at least 65,000 unique oligonucleotide species.

En algunas realizaciones, el método comprende además inmovilizar las especies de oligonucleótidos únicos de cada grupo espacialmente diferenciado en un sustrato, de tal manera que los códigos de barras de la muestra pero no los códigos de barras moleculares sean los mismos para las especies de oligonucleótidos únicos inmovilizadas en cada sustrato. Como tal, cada grupo puede ser identificado por un código de barras de muestra particular. Cabe señalar que diferentes sustratos (y como tales, diferentes grupos) pueden asociarse con diferentes códigos de barras de la muestra. En algunas realizaciones, el sustrato comprende una región discreta de una superficie, de tal manera que los sustratos de los diferentes grupos comprenden las diferentes regiones discretas de la superficie. En algunas realizaciones, el sustrato comprende un pocillo de una placa de múltiples pocillos. En algunas realizaciones, el sustrato comprende una perla. En algunas realizaciones, las especies de oligonucleótidos únicos se inmovilizan en el sustrato mediante un enlace covalente. En algunas realizaciones, las especies de oligonucleótidos únicos se inmovilizan en el sustrato mediante una fuerza magnética o electromagnética. En algunas realizaciones, las especies de oligonucleótidos únicos se incrustan en el sustrato, para inmovilizarlos en el sustrato.In some embodiments, the method further comprises immobilizing the unique oligonucleotide species of each spatially distinct group on a substrate, such that the sample barcodes but not the molecular barcodes are the same for the unique oligonucleotide species. immobilized on each substrate. As such, each group can be identified by a particular sample barcode. It should be noted that different substrates (and as such, different groups) can be associated with different sample barcodes. In some embodiments, the substrate comprises a discrete region of a surface, such that the substrates of the different groups comprise the different discrete regions of the surface. In some embodiments, the substrate comprises one well of a multi-well plate. In some embodiments, the substrate comprises a bead. In some embodiments, the single oligonucleotide species are immobilized on the substrate via a covalent bond. In some embodiments, the single oligonucleotide species are immobilized on the substrate by a magnetic or electromagnetic force. In some embodiments, the single oligonucleotide species are embedded in the substrate, to immobilize them on the substrate.

En algunas realizaciones, se hacen por lo menos 48 grupos espacialmente distintos, por ejemplo por lo menos 48, 72, 96, 120, 144, 168 o 192 grupos espacialmente distintos.In some embodiments, at least 48 spatially distinct groups are made, for example at least 48, 72, 96, 120, 144, 168 or 192 spatially distinct groups.

En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados simultáneamente con dicha síntesis. En algunas realizaciones, las especies de oligonucleótidos únicos se disponen en grupos espacialmente aislados después de dicha síntesis.In some embodiments, the single oligonucleotide species are arranged in groups spatially isolated simultaneously with said synthesis. In some embodiments, the single oligonucleotide species are arranged in spatially isolated groups after said synthesis.

OligonucleótidosOligonucleotides

Fuera del alcance de la invención, se describe un oligonucleótido que comprende una región de código de barras 3' de la región adaptadora. La región de código de barras puede comprender un código de barras molecular como se describe en la presente, en la que el código de barras molecular tiene un contenido de G de no más del 50%. El código de barras molecular puede comprender por lo menos 7 nucleótidos.Outside the scope of the invention, an oligonucleotide comprising a barcode region 3' of the adapter region is described. The barcode region may comprise a molecular barcode as described herein, wherein the molecular barcode has a G content of no more than 50%. The molecular barcode may comprise at least 7 nucleotides.

En algunas realizaciones, el oligonucleótido comprende además un código de barras de muestra como se describe en la presente. El código de barras de la muestra puede comprender por lo menos 3 nucleótidos.In some embodiments, the oligonucleotide further comprises a sample barcode as described herein. The sample barcode may comprise at least 3 nucleotides.

En algunas realizaciones, el oligonucleótido comprende además una región uniforme 3' de la región del código de barras. En algunas realizaciones, la región uniforme comprende una región específica de objetivo que comprende por lo menos 10 nucleótidos complementarios a un ácido nucleico objetivo como se describe en la presente. En algunas realizaciones, la región uniforme comprende una secuencia oligo dT. En algunas realizaciones, el oligonucleótido comprende además una región adaptadora 5' de la región del código de barras. En algunas realizaciones, el oligonucleótido comprende además un espaciador 3' de la región del código de barras y 5' de la región uniforme como se describe en la presente.In some embodiments, the oligonucleotide further comprises a uniform region 3' of the barcode region. In some embodiments, the uniform region comprises a target-specific region comprising at least 10 nucleotides complementary to a target nucleic acid as described herein. In some embodiments, the uniform region comprises an oligo dT sequence. In some embodiments, the oligonucleotide further comprises an adapter region 5' of the barcode region. In some embodiments, the oligonucleotide further comprises a spacer 3' to the barcode region and 5' to the uniform region as described herein.

Realizaciones alternativasAlternative embodiments

Se proporcionan diseños para un código de barras preciso y sin sesgo de transcritos de ácidos nucleicos. Estos diseños de cebadores se componen de secuencias de ácidos nucleicos (ADN, ARN o LNA) que pueden dirigirse a transcritos específicos de ácido nucleico (ADN/ARN) a través de un enfoque gen-específico, o dirigirse a un gran conjunto de transcritos de ácidos nucleicos (por ejemplo, a través de la cola poli-A de los ARN mensajeros u otras secuencias consenso) (FIGS. 1A-C). Junto con las secuencias objetivo, estos cebadores incluyen dos categorías de códigos de barras de ácido nucleico: 1) códigos de barras moleculares, también llamados "códigos de barras moleculares", Índice Molecular (MI) o Identificador Molecular Único (UMI) y 2) códigos de barras de muestra, también llamados Índice de Muestra (SI) (FIGS. 1A-C). Los códigos de barras MI y SI se usan para marcar de manera única para la identificación de su transcripción objetivo original a través del MI, y su origen de muestra (SI) después de la preparación de la biblioteca para la secuenciación de próxima generación u otros métodos de lectura de secuencias y lectura de códigos de barras. Algunas realizaciones detallan diferentes disposiciones de MI y SI dentro del cebador que garantizan el marcado sin sesgos y aleatorio de los códigos de barras a los transcritos objetivo para la realización de perfiles precisa de la expresión génica (ver, por ejemplo, las FIGS. 3A-3H) (ver Fu et al. 2011 PNAS 108: 9026 9032).Designs are provided for accurate and unbiased barcoding of nucleic acid transcripts. These primer designs are composed of nucleic acid (DNA, RNA or LNA) sequences that can target specific nucleic acid (DNA/RNA) transcripts through a gene-specific approach, or target a large set of transcripts. nucleic acids (for example, through the poly-A tail of messenger RNAs or other consensus sequences) (FIGS. 1A-C). Along with the target sequences, these primers include two categories of nucleic acid barcodes: 1) molecular barcodes, also called "molecular barcodes", Molecular Index (MI) or Unique Molecular Identifier (UMI) and 2) sample barcodes, also called Sample Index (SI) (FIGS. 1A-C). The MI and SI barcodes are used to uniquely mark for the identification of its original target transcript through the MI, and its sample origin (SI) after library preparation for next generation sequencing or others. sequence reading and barcode reading methods. Some embodiments detail different MI and SI arrangements within the primer that ensure unbiased and random labeling of barcodes to target transcripts for accurate gene expression profiling (see, for example, FIGS. 3A- 3H) (see Fu et al. 2011 PNAS 108: 9026 9032).

En algunas realizaciones, los diseños de cebadores únicos que pueden reducir el "sesgo de código de barras", que es un fenómeno que se observa en los diseños del estado de la técnica, por lo que con códigos de barras con alto contenido de nucleótidos G se usa más a menudo en comparación con otras composiciones de códigos de barras (FIG. 4). En ciertos casos en los que se usan cebadores convencionales para dirigir y marcar transcritos de ARNm usando una secuencia específica de gen, se observan preferiblemente IM con un alto % de contenido de G y múltiples G (FIG. 4). Además, sin estar limitado por ninguna teoría, en los diseños convencionales, los SI asociados con genes no objetivo observan pequeñas cantidades de errores de PCR debido a que estos cebadores reaccionan de manera cruzada durante una PCR multiplex de muestra (FIGS. 4- 5). Estos eventos de reacción cruzada se producen a menudo con cebadores con un alto % de contenido de G y múltiples G, posiblemente debido a una estructura secundaria única llamada "G-Quaduplexes" en oligonucleótidos ricos en G. Debido a que estos cebadores MI/SI ricos en G pueden formar complejos inter e intramoleculares entre sí, los pasos convencionales de limpieza del ADN para eliminar los cebadores (por ejemplo, perlas Ampure XP) pueden no ser suficientes. Para minimizar que se produzcan estos eventos, esta invención conlleva proporcionar varios diseños que reducen el contenido de G de los cebadores para minimizar el "sesgo de código de barras" y el cruce de cebadores (FIGS. 3A-3H).In some embodiments, single primer designs can reduce "barcode bias", which is a phenomenon seen in prior art designs, so with high G nucleotide barcodes. it is used more often compared to other barcode compositions (FIG. 4). In certain cases where conventional primers are used to target and label mRNA transcripts using a gene-specific sequence, IMs with high % G content and multiple Gs are preferentially observed (FIG. 4). Furthermore, without being limited by any theory, in conventional designs, SIs associated with non-target genes observe small amounts of PCR errors because these primers cross-react during a sample multiplex PCR (FIGS. 4-5). . These cross-reactive events often occur with primers with high % G content and multiple Gs, possibly due to a unique secondary structure called "G-Quaduplexes" in G-rich oligonucleotides. Because these MI/SI primers G-rich can form inter- and intramolecular complexes with each other, conventional DNA cleanup steps to remove primers (e.g., Ampure XP beads) may not be sufficient. To minimize these events from occurring, this invention involves providing several designs that reduce the G content of primers to minimize "barcoding bias" and primer crossover (FIGS. 3A-3H).

Las FIGS. 3A-3H muestran el diseño del código de barras del estado de la técnica (FIG. 3A) y los diseños novedosos para minimizar el sesgo como se describe (FIGS. 3B-H). En la FIG. 3A , el diseño convencional permite la composición MI de 'BBBBBBV' o 'NNNNNNNN' (B es C, G, o T; V es A, C, o G; N es A, T, G, o C). Un subconjunto del código de barras de MI del diseño anterior sería rico en G. En el panel 3B-C, adición de TTT o TTTTT después del MI para reducir la riqueza en G a lo largo de la región (la longitud de los espaciadores no G puede ser variable, y puede ser cualquier nucleótido no G). En la FIG. 3D, se intercambian las posiciones de SI y MI, de tal manera que las MI ricas en G no sean adyacentes a regiones objetivo potencialmente ricas en G. En las FIGA. 3E-F, se añade TTT o TTTTT al diseño de la FIG. 3D para reducir aún más las regiones ricas en G (observar que las SI no son ricas en G, y la longitud de los espaciadores no G puede ser variable y puede ser cualquier nucleótido no G). En los diseños de las FIGS. 3G- H, los MI están diseñados para no ser ricos en G mediante el uso de 'HHHHHHHH' o 'HNHNHNHN,' donde H es A, C o T. FIGS. 3A-3H show the state-of-the-art barcode design (FIG. 3A) and the novel designs to minimize bias as described (FIGS. 3B-H). In FIG. 3A, the conventional design allows MI composition of 'BBBBBBV' or 'NNNNNNNN' (B is C, G, or T; V is A, C, or G; N is A, T, G, or C). A subset of the MI barcode from the above design would be G-rich. In panel 3B-C, addition of TTT or TTTTT after the MI to reduce G-richness across the region (the length of the spacers does not G may be variable, and may be any non-G nucleotide). In FIG. 3D, the positions of SI and MI are swapped, such that G-rich MIs are not adjacent to potentially G-rich target regions. In FIGA. 3E-F, TTT or TTTTT is added to the design of FIG. 3D to further reduce the G-rich regions (note that the SIs are not G-rich, and the length of the non-G spacers can be variable and can be any non-G nucleotide). In the designs of FIGS. 3G- H, MIs are designed to be non-G rich by using 'HHHHHHHH' or 'HNHNHNHN,' where H is A, C, or T.

Los inconvenientes ricos en G de los diseños convencionales se observan en el método que usa orientación específica de genes. Algunas realizaciones incluyen el uso de los nuevos diseños de cebadores en paneles de objetivos específicos de genes, como receptores de células T (TCR), donde los cebadores se usan para dirigirse a secuencias específicas de TCR. Los diseños de acuerdo con algunas realizaciones de la presente pueden aliviar el cruce de códigos de barras SI, reduciendo de este modo el "ruido" de un ensayo de codificación con códigos de barras molecular de TCR.The G-rich drawbacks of conventional designs are observed in the method using gene-specific targeting. Some embodiments include the use of the new primer designs in gene-specific target panels, such as T cell receptors (TCR), where the primers are used to target specific TCR sequences. Designs according to some embodiments herein may alleviate crosstalk of SI barcodes, thereby reducing the "noise" of a TCR molecular barcoding assay.

Ejemplo 1: Análisis preciso de los ácidos nucleicos objetivo de la muestra usando especies de oligonucleótidos únicos Example 1: Precise Analysis of Sample Target Nucleic Acids Using Single Oligonucleotide Species

Se diseñaron 96 formatos de especies de oligonucleótidos únicos, cuyas secuencias se resumen en las FIGS.96 unique oligonucleotide species formats were designed, the sequences of which are summarized in FIGS.

5A-5E (SEQ ID NO: 1-96). Los formatos de especies de oligonucleótidos únicos A01-A12 (SEQ ID NO: 1-12) se proporcionaron como controles, en los que el código de barras molecular ("2° be") era NNNNNNNNN. Como tales, los códigos de barras moleculares de estas especies de oligonucleótidos únicos de control no tenían ninguna restricción o límite en el contenido de G. Los formatos de especies de oligonucleótidos únicos B01-B12 (SEQ ID NO: 13-24) comprendían un espaciador de la secuencia TTT 3' del código de barras molecular ("2° be") y 5' de la región uniforme ("secuencia de reconocimiento 5 a 3' "). Los formatos de especies de oligonucleótidos únicos C01-C12 (SEQ ID NO: 25-36) comprendían un espaciador de la secuencia TTTTT 3' del código de barras molecular ("2° be") y 5' de la región uniforme ("secuencia de reconocimiento 5 a 3' "). Los formatos de especies de oligonucleótidos únicos D01-D12 (SEQ ID NO: 37-48) comprendían un código de barras molecular ("1° be") 5' del código de barras de la muestra ("2° bc"). Los formatos de especies de oligonucleótidos únicos E01-E12 (SEQ ID NO: 49-60) comprendían una molécula de código de barras ("1° be") 5' del código de barras de la muestra ("2° be") y un espaciador de la secuencia TTT 3' de la región del código de barras y 4' de la región uniforme. Los formatos de especies de oligonucleótidos únicos F01-F12 (SEQ ID NO: 61-72) comprendían un código de barras molecular ("1° be") 5' del código de barras de muestra ("2° be") y un espaciador de la secuencia TTTTT 3' de la región del código de barras y 4' de la región uniforme. Los formatos de especies de oligonucleótidos únicos G01-G12 (SEQ ID NO: 73-84) comprendían códigos de barras moleculares ("2° be") cada uno de los cuales comprendiendo la secuencia HHHHHHHH (en la que cada "H" es una A, C o T, y en la que dos nucleótidos "H" cualquiera pueden ser iguales o diferentes). Los formatos de especies de oligonucleótidos únicos H01-H12 (SEQ ID NO: 85-96) comprendían códigos de barras moleculares ("2° be") cada uno de los cuales comprendiendo la secuencia HNHNHNHN (en la que cada "H" es una A, C o T, y en la que dos nucleótidos "H" cualquiera pueden ser iguales o diferentes, y en la que cada "N" puede ser A, G, C o T, y en la que dos nucleótidos "N" cualquiera pueden ser iguales o diferentes).5A-5E (SEQ ID NO: 1-96). The single oligonucleotide species formats A01-A12 (SEQ ID NO: 1-12) were provided as controls, in which the molecular barcode ("2° be") was NNNNNNNNN. As such, the molecular barcodes of these control single oligonucleotide species did not have any restrictions or limits on G content. The single oligonucleotide species formats B01-B12 (SEQ ID NO: 13-24) comprised a spacer of the TTT sequence 3' of the molecular barcode ("2° be") and 5' of the uniform region ("5 to 3' recognition sequence"). The unique oligonucleotide species formats C01-C12 (SEQ ID NO: 25-36) comprised a spacer of the TTTTT sequence 3' of the molecular barcode ("2° be") and 5' of the uniform region ("sequence recognition 5 to 3'"). The unique oligonucleotide species formats D01-D12 (SEQ ID NO: 37-48) comprised a molecular barcode ("1° be") 5' of the sample barcode ("2° bc"). The unique oligonucleotide species formats E01-E12 (SEQ ID NO: 49-60) comprised a barcode molecule ("1° be") 5' of the sample barcode ("2° be") and a TTT sequence spacer 3' of the barcode region and 4' of the uniform region. The unique oligonucleotide species formats F01-F12 (SEQ ID NO: 61-72) comprised a molecular barcode ("1° be") 5' of the sample barcode ("2° be") and a spacer of the TTTTT sequence 3' of the barcode region and 4' of the uniform region. The unique oligonucleotide species formats G01-G12 (SEQ ID NO: 73-84) comprised molecular barcodes ("2° be") each comprising the sequence HHHHHHHH (in which each "H" is a A, C or T, and in which any two "H" nucleotides can be the same or different). The unique oligonucleotide species formats H01-H12 (SEQ ID NO: 85-96) comprised molecular barcodes ("2° be") each comprising the sequence HNHNHNHN (in which each "H" is a A, C or T, and in which any two "H" nucleotides can be the same or different, and in which each "N" can be A, G, C or T, and in which any two "N" nucleotides They can be the same or different).

La amplificación y el análisis de las secuencias de ácidos nucleicos del receptor de células T objetivo se realizaron de la siguiente manera: se descongeló la placa de codificación de TCR Precise™ (BD Cellular Research Inc.) a temperatura ambiente y se hizo girar brevemente para recoger los 5μl de reactivos en cada pocillo. La placa se colocó en hielo en un estante de 96 pocillos y se retiró el precinto con mucho cuidado, evitando alterar los reactivos de los pocillos. Las células se clasificaron o se añadieron directamente en la placa de codificación de 96 pocillos (1 célula por pocillo). La placa se selló y se agitó en vórtice brevemente (5-10 s) para mezclar los reactivos y, a continuación, se centrifugó brevemente (~1000 rpm x 10 s). Las placas de muestras clasificadas pueden almacenarse opcionalmente a -80° C hasta que estén listas para iniciar el protocolo Precise™. Para la transcripción inversa, la placa se incubó a 65° C durante 3 minutos, se enfrió a 4° C y se colocó en hielo durante 5 minutos. La mezcla maestra de reacción fue la siguiente:Amplification and analysis of target T cell receptor nucleic acid sequences were performed as follows: the Precise™ TCR Encoding Plate (BD Cellular Research Inc.) was thawed at room temperature and briefly rotated to Collect the 5μl of reagents in each well. The plate was placed on ice in a 96-well rack and the seal was removed very carefully, avoiding disturbing the reagents in the wells. Cells were sorted or added directly into the 96-well scramble plate (1 cell per well). The plate was sealed and vortexed briefly (5-10 s) to mix the reagents and then centrifuged briefly (~1000 rpm x 10 s). Sorted sample plates can optionally be stored at -80°C until ready to start the Precise™ protocol. For reverse transcription, the plate was incubated at 65°C for 3 minutes, cooled to 4°C, and placed on ice for 5 minutes. The reaction master mix was as follows:

T l 1T l 1

Se pipetearon 5 ul de RT MM en cada pocillo. Se selló cada placa y se ejecutó un programa de transcriptasa inversa: 42° C, 30 min; 80C, 5 min; pausa de 4C.5 μl of RT MM was pipetted into each well. Each plate was sealed and a reverse transcriptase program was run: 42°C, 30 min; 80C, 5 min; 4C break.

La purificación del ADNc se realizó usando el siguiente protocolo: Hacer girar la placa (1000 rpm x 10 s). Combinar todas las reacciones en un único tubo de 2 ml. Añadir 8ul de Precise DBP Mix en el tubo de ADNc combinado. Agitar con vórtice suavemente para que el tampón entre en la solución. Añadir un volumen equivalente de microesferas AMPure XP al tubo que contiene el producto de la reacción de RT combinada (volumen 1X del producto de la PCR agrupada). Pipetear arriba y abajo para mezclar la muestra y las perlas. Incubar la mezcla de perlas a temperatura ambiente durante 5 minutos. Abrir el tapón para asegurarse de que no se alteran las perlas. Colocar el tubo sobre un imán y esperar hasta que el líquido y las perlas se separen. El líquido debe ser totalmente transparente antes de retirarlo. Esto puede tardar hasta 5 min. Mantener el tubo sobre el imán, retirar cuidadosamente sólo el líquido y desecharlo. Mantener el tubo en el soporte magnético, enjuagar suavemente las perlas una vez con 2 ml de EtOH al 70%/H₂O al 30%. Preparar una solución de EtOH fresca cada día para evitar la evaporación. Se debe tener cuidado de no perturbar ni volver a suspender las perlas durante el paso de enjuague. Eliminar inmediatamente toda la solución de EtOH residual con una pipeta. Mientras el tubo está sobre el imán, dar golpecitos para recoger la mayor cantidad posible de EtOH en el fondo del tubo. Para eluir el producto de las perlas, retirar el tubo del imán. Transferir 68 μl de tampón de elución al tubo que contiene las perlas. Humedecer las perlas con el tampón de elución inclinando el tubo. Agitar en vórtice bien para mezclar y esperar 1 minuto. Volver a colocar el tubo en el imán. Esperar hasta que la solución se aclare, normalmente <5 min. Recuperar la solución purificada del producto de la PCR pipeteando con cuidado la solución para separarla de las perlas. Transferir el producto líquido transparente (68 μl) a un nuevo tubo de 1,5 ml.cDNA purification was performed using the following protocol: Spin the plate (1000 rpm x 10 s). Combine all reactions in a single 2 ml tube. Add 8ul of Precise DBP Mix into the combined cDNA tube. Vortex gently to get the buffer into the solution. Add an equivalent volume of AMPure XP beads to the tube containing the pooled RT reaction product (1X volume of pooled PCR product). Pipette up and down to mix the sample and beads. Incubate the bead mixture at room temperature for 5 minutes. Open the cap to ensure that the beads are not disturbed. Place the tube over a magnet and wait until the liquid and beads separate. The liquid should be completely transparent before removing it. This may take up to 5 min. Hold the tube over the magnet, carefully remove only the liquid and discard it. Keeping the tube in the magnetic holder, gently rinse the beads once with 2 ml of 70% EtOH/30% H ₂ O. Prepare a fresh EtOH solution each day to prevent evaporation. Care should be taken not to disturb or resuspend the beads during the rinsing step. Immediately remove all solution of residual EtOH with a pipette. While the tube is over the magnet, tap to collect as much EtOH as possible at the bottom of the tube. To elute the product from the beads, remove the tube from the magnet. Transfer 68 µL of elution buffer to the tube containing the beads. Moisten the beads with the elution buffer by tilting the tube. Vortex well to mix and wait 1 minute. Replace the tube on the magnet. Wait until the solution clears, usually <5 min. Recover the purified solution of the PCR product by carefully pipetting the solution to separate it from the beads. Transfer the clear liquid product (68 µL) to a new 1.5 mL tube.

La amplificación por PCR N1 (amplificación objetivo) se realizó usando el siguiente protocolo: Preparar la mezcla de PCR (200ul) en la zona de preamplificación de acuerdo con la Tabla 2:N1 PCR amplification (target amplification) was performed using the following protocol: Prepare the PCR mix (200ul) in the preamplification zone according to Table 2:

Dividir esta mezcla de reacción de 200ul en 4 tubos de PCR. Ejecutar 20 ciclos de las siguientes condiciones de PCR: 3 minutos de apareamiento a 60C, 1 minuto de extensión a 68C (aproximadamente 2 horas). Combinar todos los productos de PCR en un tubo de muestra. Añadir 160ul de perlas Ampure (0.8X), mezclar bien con una pipeta e incubar durante 5 minutos a TA. Colocar el tubo sobre un imán y esperar hasta que el líquido y las perlas se separen. El líquido debe ser totalmente transparente antes de retirarlo. Esto puede tardar hasta 5 min. Retirar sólo el líquido y descartarlo. Enjuagar suavemente el tubo una vez mientras está en el soporte magnético con 1 ml de EtOH al 70%/H₂O al 30%. No volver a suspender las perlas durante el paso de enjuague. Eliminar inmediatamente todo el EtOH residual con una pipeta. Mientras el tubo está sobre el imán, dar golpecitos para recoger la mayor cantidad posible de EtOH en el fondo del tubo. Eluir el producto de la PCR en 50ul de tampón de elución.Divide this 200ul reaction mixture into 4 PCR tubes. Run 20 cycles of the following PCR conditions: 3 minutes annealing at 60C, 1 minute extension at 68C (approximately 2 hours). Combine all PCR products in a sample tube. Add 160ul of Ampure beads (0.8X), mix well with a pipette and incubate for 5 minutes at RT. Place the tube over a magnet and wait until the liquid and beads separate. The liquid should be completely transparent before removing it. This may take up to 5 min. Remove only the liquid and discard it. Gently rinse the tube once while on the magnetic holder with 1 ml of 70% EtOH/30% H ₂ O. Do not resuspend the beads during the rinsing step. Immediately remove all residual EtOH with a pipette. While the tube is over the magnet, tap to collect as much EtOH as possible at the bottom of the tube. Elute the PCR product in 50ul of elution buffer.

La amplificación PCR N1 (PCR de adaptador e indexación) se realizó siguiendo el siguiente protocolo: Preparar la mezcla PCR (50ul) de acuerdo con la Tabla 3:N1 PCR amplification (adapter and indexing PCR) was performed following the following protocol: Prepare the PCR mix (50ul) according to Table 3:

T lT l

Ejecutar 25 ciclos de las siguientes condiciones de PCR: 3 minutos de apareamiento a 60C, 1 minuto de tiempo de extensión a 68C. Purificar a 0.8X Ampure dos veces, eluir en 30 ul de tampón de elución.Run 25 cycles of the following PCR conditions: 3 minutes annealing at 60C, 1 minute extension time at 68C. Purify at 0.8X Ampure twice, elute in 30 ul elution buffer.

La FIG. 6 muestra la corrección de errores para la media de resultados de secuencias (por TCRa CDR3 individual). En la FIG. 6 , el eje Y representa el número de códigos de barras moleculares diferentes detectados para TCRa.FIG. 6 shows error correction for averaging sequence results (per individual TCRa CDR3). In FIG. 6, the Y axis represents the number of different molecular barcodes detected for TCRa.

Los resultados se muestran para reacciones con 50 μg de ARN objetivo (denotado como "50" en la FIG. 6 , por ejemplo, A50, B50, C50, D50, E50, F50, G50) y controles negativos que recibieron 0 μg de ARN objetivo (denotado como "0" en la FIG. 6 , por ejemplo, A0, B0, C0, ^d0, E0, F0, G0). Como tal, 0 μg sirve como control negativo y detector del ruido del ensayo que se filtra de la muestra de 50 μg. Para las reacciones que recibieron ARN objetivo, los diseños de oligonucleótidos únicos de acuerdo con algunas realizaciones de la presente B01-B12 ("B50"), C01-C12 ("C50"), D01-D12 ("D50"), E01-E12 ("E50"), F01-F12 ("F50"), G01-G12 ("G50") y H01-H12 ("H50") tuvieron tasas de error más bajas que los formatos convencionales A01-A12 ("A50"). En particular, para el TRAC en este experimento, el formato "H" tuvo la mayor sensibilidad con bajo ruido y funcionó mejor que los cebadores originales con código de barras (A).Results are shown for reactions with 50 μg of target RNA (denoted as “50” in FIG. 6, e.g., A50, B50, C50, D50, E50, F50, G50) and negative controls receiving 0 μg of RNA. target (denoted as "0" in FIG. 6, for example, A0, B0, C0, ^d 0, E0, F0, G0). As such, 0 μg serves as a negative control and detector for assay noise leaking from the 50 μg sample. For reactions receiving target RNA, single oligonucleotide designs according to some embodiments herein B01-B12 ("B50"), C01-C12 ("C50"), D01-D12 ("D50"), E01- E12 ("E50"), F01-F12 ("F50"), G01-G12 ("G50") and H01-H12 ("H50") had lower error rates than conventional A01-A12 ("A50") formats. ). In particular, for the TRAC in this experiment, the “H” format had the highest sensitivity with low noise and performed better than the original barcoded primers (A).

Por tanto, las composiciones que comprenden especies de oligonucleótidos únicos que comprenden regiones de código de barras, y códigos de barras moleculares que tienen un contenido de G relativamente bajo, y/o oligonucleótidos únicos que comprenden un espaciador 3' del código de barras molecular y 5' de la región uniforme, como se describe en la presente, produjeron una amplificación con una tasa de error más baja, y por tanto una mayor precisión que las composiciones que comprenden especies generales de polinucleótidos que no comprendían tales características. Thus, compositions comprising single oligonucleotide species comprising barcode regions, and molecular barcodes having a relatively low G content, and/or single oligonucleotides comprising a 3' spacer of the molecular barcode and 5' of the uniform region, as described herein, produced amplification with a lower error rate, and therefore greater precision, than compositions comprising general polynucleotide species that did not comprise such characteristics.

Aunque en la presente se divulgan varios aspectos y realizaciones, otros aspectos y realizaciones resultarán evidentes para los expertos en la técnica. Los varios aspectos y realizaciones divulgados en la presente tienen propósitos ilustrativos y no se pretende que sean limitativos; el verdadero alcance se indica en las reivindicaciones siguientes.Although various aspects and embodiments are disclosed herein, other aspects and embodiments will be apparent to those skilled in the art. The various aspects and embodiments disclosed herein are for illustrative purposes and are not intended to be limiting; the true scope is indicated in the following claims.

Un experto en la técnica apreciará que, para este y otros procesos y métodos divulgados en la presente, las funciones realizadas en los procesos y métodos pueden implementarse en orden diferente. Además, los pasos y operaciones descritos solo se proporcionan a modo de ejemplo, y algunos de los pasos y operaciones pueden ser opcionales, combinarse en menos pasos y operaciones, o ampliarse en pasos y operaciones adicionales sin desvirtuar la esencia de las realizaciones divulgadas.One skilled in the art will appreciate that, for this and other processes and methods disclosed herein, the functions performed in the processes and methods may be implemented in a different order. Furthermore, the steps and operations described are only provided by way of example, and some of the steps and operations may be optional, combined into fewer steps and operations, or expanded into additional steps and operations without detracting from the essence of the disclosed embodiments.

Con respecto al uso de sustancialmente cualquier término en plural y/o singular en la presente, los expertos en la técnica pueden traducir del plural al singular y/o del singular al plural según sea apropiado para e contexto y/o aplicación. En la presente pueden exponerse expresamente las varias permutaciones del singular/plural en aras de la claridad.With respect to the use of substantially any plural and/or singular terms herein, those skilled in the art may translate from plural to singular and/or from singular to plural as appropriate for the context and/or application. The various permutations of singular/plural may be expressly set forth herein for the sake of clarity.

Los expertos en la técnica entenderán que, en general, los términos usados en la presente, y especialmente en las reivindicaciones adjuntas (por ejemplo, los cuerpos de las reivindicaciones adjuntas) se entienden como términos "abiertos" (por ejemplo, el término "que incluye" debe interpretarse como "que incluye pero sin limitarse a", el término "que tiene" debe interpretarse como "que tiene por lo menos", el término "incluye" debe interpretarse como "incluye pero sin limitarse a", etc.). Los expertos en la técnica entenderán además que si se pretende un número específico de una reivindicación introducida, tal intención se enunciará explícitamente en la reivindicación, y en ausencia de tal enunciado no existe tal intención. Por ejemplo, como ayuda para la comprensión, las siguientes reivindicaciones adjuntas pueden contener el uso de las frases introductorias "por lo menos uno" y "uno o más" para introducir las enumeraciones de las reivindicaciones. Sin embargo, el uso de tales frases no debe interpretarse en el sentido de que la introducción de un enunciado de reivindicación mediante los artículos indefinidos "un" o "uno" limita cualquier reivindicación particular que contenga dicho enunciado de reivindicación introducido a realizaciones que contengan solo uno de dichos enunciados, incluso cuando la misma reivindicación incluya las frases introductorias "uno o más" o "por lo menos uno" y artículos indefinidos como "un" o "uno" (por ejemplo, "un" y/o "uno" deben interpretarse en el sentido de "por lo menos uno" o "uno o más"); lo mismo ocurre con el uso de artículos definidos usados para introducir las reivindicaciones. Además, incluso si se recita explícitamente un número específico de un enunciado de reivindicación introducida, los expertos en la técnica reconocerán que dicho enunciado debe interpretarse en el sentido de que significa por lo menos el número enunciado (por ejemplo, la simple enumeración de "dos enunciados", sin otros modificadores, significa por lo menos dos enunciados, o dos o más enunciados). Además, en aquellos casos en los que se usa una convención análoga a "por lo menos uno de A, B y C, etc.", en general dicha construcción se entiende en el sentido en el que un experto en la técnica entendería la convención (por ejemplo, "un sistema que tenga por lo menos uno de A, B y C" incluiría, entre otros, sistemas que tengan A solo, B solo, C solo, A y B juntos, A y C juntos, B y C juntos, y/o A, B y C juntos, etc.). En aquellos casos en los que se usa una convención análoga a "por lo menos uno de A, B o C, etc.", en general dicha construcción se entiende en el sentido en el que un experto en la técnica entendería la convención (por ejemplo, "un sistema que tiene por lo menos uno de A, B o C" incluiría, pero no se limitaría a, sistemas que tienen A solo, B solo, C solo, A y B juntos, A y C juntos, B y C juntos, y/o A, B y C juntos, etc.). Los expertos en la técnica entenderán que prácticamente cualquier palabra y/o frase disyuntiva que presente dos o más términos alternativos, ya sea en la descripción, las reivindicaciones o los dibujos, debe entenderse que contempla las posibilidades de incluir uno de los términos, cualquiera de los términos, o ambos términos. Por ejemplo, se entenderá que la frase "A o B" incluye las posibilidades de "A" o "B" o "A y B".Those skilled in the art will understand that, in general, the terms used herein, and especially in the accompanying claims (e.g., the bodies of the attached claims) are understood to be "open" terms (e.g., the term "which includes" should be interpreted as "including but not limited to", the term "having" should be interpreted as "having at least", the term "includes" should be interpreted as "includes but not limited to", etc.) . Those skilled in the art will further understand that if a specific number of an entered claim is intended, such intention will be explicitly stated in the claim, and in the absence of such statement no such intention exists. For example, as an aid to understanding, the following appended claims may contain the use of the introductory phrases "at least one" and "one or more" to introduce the enumerations of the claims. However, the use of such phrases should not be construed to mean that the introduction of a claim statement by the indefinite articles "a" or "an" limits any particular claim containing such introduced claim statement to embodiments containing only one of said statements, even when the same claim includes the introductory phrases "one or more" or "at least one" and indefinite articles such as "a" or "an" (for example, "a" and/or "one" should be interpreted to mean "at least one" or "one or more"); The same goes for the use of definite articles used to introduce claims. Furthermore, even if a specific number of an introduced claim statement is explicitly recited, those skilled in the art will recognize that such statement must be interpreted as meaning at least the number stated (for example, the simple enumeration of "two statements", without other modifiers, means at least two statements, or two or more statements). Furthermore, in those cases in which a convention analogous to "at least one of A, B and C, etc." is used, such construction is generally understood in the sense in which a person skilled in the art would understand the convention (e.g., "a system having at least one of A, B, and C" would include, but is not limited to, systems having A alone, B alone, C alone, A and B together, A and C together, B and C together, and/or A, B and C together, etc.). In those cases in which a convention analogous to "at least one of A, B or C, etc." is used, such construction is generally understood in the sense in which a person skilled in the art would understand the convention (e.g. For example, "a system that has at least one of A, B, or C" would include, but would not be limited to, systems that have A alone, B alone, C alone, A and B together, A and C together, B and C together, and/or A, B and C together, etc.). Those skilled in the art will understand that virtually any word and/or disjunctive phrase that presents two or more alternative terms, whether in the description, claims or drawings, should be understood to contemplate the possibilities of including one of the terms, any of them. the terms, or both terms. For example, the phrase "A or B" will be understood to include the possibilities of "A" or "B" or "A and B."

Además, cuando las características o aspectos de la divulgación se describen en términos de grupos de Markush, los expertos en la técnica reconocerán que la divulgación también se describe en términos de cualquier miembro individual o subgrupo de miembros del grupo de Markush.Furthermore, where features or aspects of the disclosure are described in terms of Markush groups, those skilled in the art will recognize that the disclosure is also described in terms of any individual member or subgroup of members of the Markush group.

Como comprenderá un experto en la técnica, para todos y cada uno de los propósitos, como por ejemplo para proporcionar una descripción escrita, todos los intervalos divulgados en la presente abarcan también todos y cada uno de los posibles subintervalos y combinaciones de subintervalos de los mismos. Cualquier intervalo enumerado puede reconocerse fácilmente como suficientemente descriptivo y permite descomponer el mismo intervalo en mitades, tercios, cuartos, quintos, décimos, etc., por lo menos iguales. A modo de ejemplo no limitativo, cada intervalo descrito en la presente puede dividirse fácilmente en un tercio inferior, un tercio medio y un tercio superior, etc. Como también comprenderá un experto en la técnica, todos los términos como "hasta", "por lo menos" y similares incluyen el número mencionado y se refieren a intervalos que pueden dividirse posteriormente en subintervalos, como se ha analizado anteriormente. Por último, como comprenderá un experto en la técnica, un intervalo incluye a cada miembro individual. Así, por ejemplo, un grupo que tiene 1-3 células se refiere a grupos que tienen 1, 2 o 3 células. De manera similar, un grupo que tiene 1-5 células se refiere a grupos que tienen 1, 2, 3, 4, o 5 células, y demás. As one skilled in the art will understand, for any and all purposes, such as providing a written description, all ranges disclosed herein also encompass any and all possible subranges and combinations of subranges thereof. . Any enumerated interval can easily be recognized as sufficiently descriptive and allows the same interval to be decomposed into at least equal halves, thirds, fourths, fifths, tenths, etc. By way of non-limiting example, each interval described herein can be easily divided into a lower third, a middle third and an upper third, etc. As will also be understood by one skilled in the art, all terms such as "up to", "at least" and the like include the aforementioned number and refer to intervals that may be further divided into subintervals, as discussed above. Finally, as one skilled in the art will understand, a range includes each individual member. So, for example, a group that has 1-3 cells refers to groups that have 1, 2 or 3 cells. Similarly, a group that has 1-5 cells refers to groups that have 1, 2, 3, 4, or 5 cells, and so on.

Claims

1. A composition comprising at least 1000 unique oligonucleotide species, each unique oligonucleotide species comprising a barcode region and a uniform region, the barcode region comprising a molecular barcode comprising at least 7 nucleotides,

wherein the uniform region is 3' of the barcode region, the uniform region comprising a target-specific region 3' of the barcode region, the target-specific region comprising at least 10 nucleotides complementary to an acid target nucleic,

wherein the unique oligonucleotide species comprise different nucleic acid sequences in their barcode regions, and

where:

(a) the composition consists essentially of single oligonucleotide species where each molecular barcode has a G content of less than 50%; I

(b) the molecular barcodes of all single oligonucleotide species in the composition collectively have a G content of no more than 12.5%,

wherein the barcode region further comprises a sample barcode comprising at least 3 nucleotides.

2. The composition of claim 1, wherein the composition consists essentially of single oligonucleotide species wherein each molecular barcode has a G content of less than 50%.

3. The composition of claim 1 or 2, wherein the molecular barcodes of all unique oligonucleotide species of the composition collectively have a G content of no more than 12.5%.

4. The composition of any of claims 1-3, wherein the molecular barcodes of all unique oligonucleotide species in the composition collectively have a G content of 2.5%-12.5%, e.g. .5%-10%.

5. The composition of any of claims 1-4, wherein the unique oligonucleotide species are arranged in at least two spatially isolated groups, each group comprising at least 100 unique oligonucleotides of the unique oligonucleotide species,

wherein unique oligonucleotides from the same group comprise the same sample barcode sequence, and

wherein different unique oligonucleotides from the same group comprise different molecular barcode sequences.

6. The composition of any of claims 1-5, wherein for at least 95% of the unique oligonucleotide species, any G in the molecular barcode is not adjacent to another G.

7. The composition of any of claims 1-6, wherein the specific target region comprises an oligo dT sequence.

8. The composition of any of claims 1-7, wherein the composition comprises at least 6,500 unique oligonucleotide species.

9. The composition of any of claims 5-8, wherein the unique oligonucleotide species of each group are immobilized on a substrate, such that the sample barcodes but not the molecular barcodes are the same for the oligonucleotide species immobilized on each substrate.

10. The composition of any of claims 1-9, wherein the target-specific region comprises a sequence flanking an immune cell receptor or an immunoglobulin variable region coding sequence.

11. A method of specifically barcoding a plurality of nucleic acids from two or more samples, each sample comprising nucleic acids, comprising:

contacting each sample with a pool comprising at least 100 unique oligonucleotide species, wherein each sample is contacted in spatial isolation from the other samples,

each unique oligonucleotide species comprising a barcode region comprising:

a molecular barcode comprising at least 7 nucleotides;

a sample barcode comprising at least 3 nucleotides; and

a uniform region 3' of the barcode region, the uniform region comprising a target-specific region 3' of the barcode region, the target-specific region comprising at least 10 nucleotides complementary to a target nucleic acid,

wherein the unique polynucleotide species of each group comprise the same sample barcode and comprise different molecular barcodes, and

where:

(a) the single oligonucleotide species in contact with the sample essentially consist of single oligonucleotide species where each barcode molecule has a G content of less than 50%; I

(b) the molecular barcodes of all single oligonucleotide species collectively have a G content of no more than 12.5%;

hybridizing the target-specific regions of at least some oligonucleotides of the single oligonucleotide species with at least some of the nucleic acids of the sample; and

extend the hybridized oligonucleotides, thereby producing chains comprising an oligonucleotide of the single oligonucleotide species and a sequence complementary to the target, wherein for each sample, the chains comprise the same sample barcode and different molecular barcodes , and where for different samples, the molecular barcodes are different.

12. The method of claim 11, wherein the molecular barcodes of all single oligonucleotide species collectively have a G content of no more than 12.5%.

13. The method of any of claims 11-12, wherein the at least 100 unique oligonucleotide species of each group are immobilized on a substrate, such that the unique oligonucleotide species immobilized on a given substrate comprise the same sample barcode, and different single oligonucleotide species immobilized on the substrate comprise different molecular barcodes.

14. A method for making a composition comprising single oligonucleotides, the method comprising:

providing a plurality of different sample barcodes comprising at least 3 nucleotides each,

providing a plurality of different molecular barcodes comprising at least 7 nucleotides each;

synthesize a plurality of unique oligonucleotide species, each unique oligonucleotide species comprising a barcode region comprising:

a sample barcode and a molecular barcode; and

a uniform region 3' of the barcode region, the uniform region comprising a target-specific region 3' of the barcode region, the target-specific region comprising at least 10 nucleotides complementary to a target nucleic acid; and

arranging the unique oligonucleotide species in spatially isolated groups, where each group comprises multiple unique oligonucleotide species, such that the unique oligonucleotide species of the same group comprise the same sample barcode sequence, and wherein different species of unique oligonucleotides from the same group comprise different molecular barcode sequences,

wherein each group comprises at least 1000 species of unique oligonucleotides,

where for each group:

(a) single oligonucleotide species essentially consist of single oligonucleotide species in which each molecular barcode has a G content of less than 50%; I

(b) The molecular barcodes of all single oligonucleotide species collectively have a G content of no more than 12.5%.

15. A kit that includes:

a composition of any of claims 1-9, wherein the target-specific region comprises a sequence flanking an immune cell receptor or an immunoglobulin variable region coding sequence; and

a primer configured to hybridize on an opposite side of the variable region as the target-specific region, and to hybridize to a strand complementary to a strand hybridized by the target-specific region, and is therefore configured to amplify the variable region along with the specific target region.