ES2898644T3 - Adaptadores de ácido nucleico modulares - Google Patents

Adaptadores de ácido nucleico modulares Download PDF

Info

Publication number
ES2898644T3
ES2898644T3 ES18734550T ES18734550T ES2898644T3 ES 2898644 T3 ES2898644 T3 ES 2898644T3 ES 18734550 T ES18734550 T ES 18734550T ES 18734550 T ES18734550 T ES 18734550T ES 2898644 T3 ES2898644 T3 ES 2898644T3
Authority
ES
Spain
Prior art keywords
sequence
oligonucleotide
length
primer
kit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18734550T
Other languages
English (en)
Inventor
Daniel Klass
Alexander Lovejoy
Seyed Hamid Mirebrahim
Amrita Pati
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Application granted granted Critical
Publication of ES2898644T3 publication Critical patent/ES2898644T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Un kit para preparar una colección de ácidos nucleicos que tiene secuencias de adaptador para secuenciación, comprendiendo el kit: un primer oligonucleótido que tiene una primera secuencia de cola, una primera secuencia común, una primera secuencia de identificador único y un primera marca de puntuación de longitud variable; un segundo oligonucleótido que tiene una segunda secuencia de cola, una segunda secuencia común complementaria a la primera secuencia común, una segunda secuencia de identificador único complementaria a la primera secuencia de identificador único y una segunda marca de puntuación de longitud variable complementaria a la primera marca de puntuación de longitud variable; un primer cebador que tiene una primera secuencia de identificador de muestra y una primera secuencia de cebado en un extremo 3' del primer cebador, incluyendo la primera secuencia de cebado la primera secuencia de cola del primer oligonucleótido; y un segundo cebador que tiene una segunda secuencia de identificador de muestra y una segunda secuencia de cebado en un extremo 3' del segundo cebador, siendo la segunda secuencia de cebado complementaria a la segunda secuencia de cola del segundo oligonucleótido.

Description

DESCRIPCIÓN
Adaptadores de ácido nucleico modulares
Antecedentes
La divulgación se refiere, en general, al campo de preparación de muestras para secuenciación de nueva generación de ácidos nucleicos y, más en particular, a un sistema y procedimiento para el aislamiento y cualificación de ácidos nucleicos.
Los adaptadores de ácido nucleico bifurcados (también conocidos como adaptadores Y) para su uso con plataformas de secuenciación de nueva generación (SNG) (por ejemplo, plataformas de secuenciación por síntesis ILLUMINA) pueden incluir rasgos característicos tales como identificadores de muestra (SID) e identificadores únicos (UID) que posibilitan multiplexación de muestras, recuento molecular y similares. En consecuencia, los adaptadores bifurcados pueden posibilitar una preparación de colecciones de SNG eficaz por medio de procedimientos de fijación de adaptador, maximizando el número de moléculas que se pueden secuenciar de una manera con lectura desde ambos extremos, mientras que permiten un recuento correcto de moléculas y una reducción de errores con los UID. Sin embargo, existen una serie de dificultades que pueden surgir cuando se producen y usan adaptadores tales como estos.
En un aspecto, el coste de fabricación de oligonucleótidos es alto. Para un diseño de adaptador con 16 UID únicos, para crear adaptadores con 16 SID monocatenarios diferentes, se deben producir 274 secuencias de oligonucleótidos diferentes. Sin embargo, solo un pequeño número de fabricantes de oligonucleótidos pueden producir un número tan grande de oligonucleótidos diferentes con una pureza lo suficientemente alta en una escala lo suficientemente grande como para satisfacer estas especificaciones.
En otro aspecto, la adición de PhiX a las colecciones de secuenciación finales (que pueden comprender un 10­ 15 % de la concentración final de las moléculas de aporte en un experimento de SNG) reduce eficazmente el número de lecturas de secuenciación disponibles para las moléculas de ADN de la muestra. El ADN de PhiX se usa a menudo como un control enriquecido durante la preparación de colecciones como un control de calidad para experimentos de SNG o para añadir complejidad en el caso de muestras de ADN menos complejas. Por ejemplo, se puede usar PhiX si un 100 % de las bases en las posiciones 3 y 4 en las secuencias de la colección son G y T, ya que PhiX incrementa la complejidad en estas posiciones, lo que permite que el secuenciador ILLUMINA apropiadamente diferencie agrupaciones y clasifique las moléculas.
Aún en otro aspecto, con 16 UID de 2 bases (es decir, UID que tienen una longitud de 2 nucleótidos), cualquier error en el UID da como resultado un UID aceptable diferente. Esto podría dar lugar a un recuento excesivo de moléculas y a una reducción de errores menos eficaz que los UID que se pueden diferenciar mejor.
En otro aspecto, un fenómeno conocido que se observa a menudo en experimentos de SNG implica que el SID de una molécula de una muestra se une o se asocia de otro modo con una molécula de otra muestra. Esto puede dar como resultado la asignación de moléculas a la muestra incorrecta. Si el esquema de adaptador solo contiene un SID en un lado del adaptador, y el SID no está directamente unido a la molécula de interés, este efecto de cruce puede perturbar la designación de variantes, dando como resultado de este modo designaciones de variantes incorrectas. Tomado conjuntamente con las otras dificultades mencionadas anteriormente, está claro que queda margen de mejora de los adaptadores de ácido nucleico para experimentos de SNG.
En consecuencia, existe una necesidad de nuevos diseños para adaptadores de ácido nucleico que posibiliten menores costes de fabricación y mayor eficacia y exactitud en los experimentos de SNG.
El documento WO2008/093098 divulga procedimientos y kits para secuenciación de ácidos nucleicos con el uso de adaptadores bifurcados que se fijan a cada extremo del ácido nucleico diana, generando por tanto construcciones adaptador-diana-adaptador que a continuación se usan para la amplificación con cebadores que comprenden una secuencia de marca específica de muestra.
Aaron M. Newman et al: "Integrated digital error suppression for improved detection of circulating tumor DNA", NATURE BIOTECHNOLOGY, vol. 34, n.° 5, 28 de marzo de 2016, páginas 547-555, divulgan el uso de moléculas de ADN de marcado para secuenciación con identificadores únicos (UID).
Brant C. Faircloth et al: "Not All Sequence Tags Are Created Equal: Designing and Validating Sequence Identification Tags Robust to Indels ", PLOS ONE, vol. 7, n.° 8, 10 de agosto de 2012, página e42543, describen secuencias ideales para moléculas de adaptador y se refieren a las propiedades de los adaptadores como la distancia de edición por pares.
Sumario
La presente invención supera las desventajas mencionadas anteriormente al proporcionar un kit para preparar una colección de ácidos nucleicos que tiene secuencias de adaptador para secuenciación, comprendiendo el kit: un primer oligonucleótido que tiene una primera secuencia de cola, una primera secuencia común, una primera secuencia de identificador único y
una primera marca de puntuación de longitud variable;
un segundo oligonucleótido que tiene una segunda secuencia de cola, una segunda secuencia común complementaria a la primera secuencia común, una segunda secuencia de identificador único complementaria a la primera secuencia de identificador único y
una segunda marca de puntuación de longitud variable complementaria a la primera marca de puntuación de longitud variable;
un primer cebador que tiene una primera secuencia de identificador de muestra y una primera secuencia de cebado en un extremo 3' del primer cebador, incluyendo la primera secuencia de cebado la primera secuencia de cola del primer oligonucleótido; y
un segundo cebador que tiene una segunda secuencia de identificador de muestra y una segunda secuencia de cebado en un extremo 3' del segundo cebador, siendo la segunda secuencia de cebado complementaria a la segunda secuencia de cola del segundo oligonucleótido.
La primera secuencia de identificador de muestra y la segunda secuencia de identificador de muestra pueden tener una cartografía uno a uno.
La primera marca de puntuación de longitud variable puede tener una longitud de 2-4 nucleótidos.
La primera marca de puntuación de longitud variable puede incluir al menos uno de un nucleótido G y uno C. La primera secuencia de identificador único tiene una longitud de al menos 5 nucleótidos.
La primera secuencia de identificador único puede tener una distancia de edición por pares de al menos 3. La presente invención también proporciona un kit para preparar una colección de ácidos nucleicos que tiene secuencias de adaptador para secuenciación, comprendiendo el kit:
una pluralidad de pares de oligonucleótidos, incluyendo cada uno de los pares de oligonucleótidos:
un primer oligonucleótido que tiene una primera secuencia de cola, una primera secuencia común, una primera secuencia de identificador único y ii) un primera marca de puntuación de longitud variable, y un segundo oligonucleótido que tiene una segunda secuencia de cola, una segunda secuencia común complementaria a la primera secuencia común, una segunda secuencia de identificador único complementaria a la primera secuencia de identificador único y una segunda marca de puntuación de longitud variable complementaria a la primera marca de puntuación de longitud variable,
un primer cebador que tiene una primera secuencia de identificador de muestra y una primera secuencia de cebado en un extremo 3' del primer cebador, incluyendo la primera secuencia de cebado la primera secuencia de cola del primer oligonucleótido; y
un segundo cebador que tiene una segunda secuencia de identificador de muestra y una segunda secuencia de cebado en un extremo 3' del segundo cebador, siendo la segunda secuencia de cebado complementaria a la segunda secuencia de cola del segundo oligonucleótido.
Cada una de las primeras secuencias de identificador único de cada una de la pluralidad de pares de oligonucleótidos puede ser diferente.
Cada una de las primeras secuencias de cola de cada uno de la pluralidad de pares de oligonucleótidos puede ser la misma.
Cada una de las segundas secuencias de cola de cada uno de la pluralidad de pares de oligonucleótidos puede ser la misma.
La pluralidad de pares de oligonucleótidos se puede hibridar para formar un adaptador bifurcado.
La primera secuencia de identificador de muestra y la segunda secuencia de identificador de muestra pueden tener una cartografía uno a uno.
Las primeras marcas de puntuación de longitud variable pueden tener una longitud de 2-4 nucleótidos.
Cada una de las primeras marcas de puntuación de longitud variable puede incluir al menos uno de un nucleótido G y uno C.
Cada una de las primeras secuencias de identificador único puede tener una longitud de al menos 5 nucleótidos. Entonces, cada una de las primeras secuencias de identificador único tiene una distancia de edición por pares de al menos 3.
La presente invención también proporciona un procedimiento de preparación de una colección de moléculas de ácido nucleico, comprendiendo el procedimiento:
unir uno de una pluralidad de adaptadores oligonucleotídicos a cada extremo de un ácido nucleico diana para proporcionar una construcción adaptador-diana-adaptador, teniendo cada uno de la pluralidad de adaptadores oligonucleotídicos:
un primer oligonucleótido que tiene una primera secuencia de cola, una primera secuencia común, una primera secuencia de identificador único y un primera marca de puntuación de longitud variable, y un segundo oligonucleótido que tiene una segunda secuencia de cola, una segunda secuencia común complementaria a la primera secuencia común, una segunda secuencia de identificador único complementaria a la primera secuencia de identificador único y una segunda marca de puntuación de longitud variable complementaria a la primera marca de puntuación de longitud variable;
hibridar un primer cebador con la construcción adaptador-diana-adaptador, teniendo el primer cebador una primera secuencia de identificador de muestra y una primera secuencia de cebado en un extremo 3' del primer cebador, incluyendo la primera secuencia de cebado la primera secuencia de cola del primer oligonucleótido; y extender cada uno del primer cebador y el segundo cebador para formar productos de extensión complementarios a cada hebra de las construcciones adaptador-diana-adaptador.
Cada una de las primeras secuencias de identificador único de cada uno de la pluralidad de adaptadores oligonucleotídicos puede ser diferente.
Cada una de las primeras secuencias de cola de cada uno de la pluralidad de adaptadores oligonucleotídicos puede ser la misma.
Cada una de las segundas secuencias de cola de cada uno de la pluralidad de adaptadores oligonucleotídicos puede ser la misma.
La primera secuencia de identificador de muestra y la segunda secuencia de identificador de muestra pueden tener una cartografía uno a uno. Entonces, cada una de las primeras marcas de puntuación de longitud variable puede tener una longitud de 2-4 nucleótidos y/o cada una de las primeras marcas de puntuación de longitud variable puede incluir al menos uno de un nucleótido G y uno C.
Cada una de las primeras secuencias de identificador único tiene una longitud de al menos 5 nucleótidos. Entonces, cada una de las primeras secuencias de identificador único puede tener una distancia de edición por pares de al menos 3.
Breve descripción de los dibujos
La figura 1 es un diagrama esquemático que representa un modo de realización de los componentes de un adaptador de ácido nucleico modular de acuerdo con la presente divulgación.
La figura 2A es una ilustración esquemática de un procedimiento para preparar una colección de ácidos nucleicos con los adaptadores de ácido nucleico modulares de acuerdo con la presente divulgación. En una primera parte del procedimiento, se ilustra un esquema para ensamblar un agrupamiento de oligonucleótidos de adaptador, incluyendo el diseño de oligonucleótidos de adaptador que tienen códigos de barras moleculares (UID) predeterminados y cebadores directos e inversos que tienen SID para la amplificación de los oligonucleótidos de adaptador después de su fijación a fragmentos de colección de ácidos nucleicos de muestra. En el presente ejemplo, cada fragmento de ácido nucleico de muestra se fija en cada extremo a uno de los 16 adaptadores hibridados diferentes (teniendo cada uno de los adaptadores hibridados uno de 16 códigos de barras moleculares o UID predeterminados). Después de su fijación, cada fragmento de ácido nucleico en la muestra está asociado con uno de 256 pares posibles diferentes de secuencias de códigos de barras moleculares. La fig. 2A divulga las SEQ ID NOS 3,4, 3,4, 197 y 198, respectivamente, en el orden de su aparición.
La figura 2B es una continuación de la ilustración esquemática del procedimiento de la FIG. 2A. Después de la fijación de los adaptadores hibridados con las moléculas de ADN diana en la muestra de ácido nucleico, los cebadores que tienen SID ilustrados en la FIG. 2A se usan en la primera y segunda rondas de un experimento de reacción en cadena de la polimerasa (PCR) para incorporar secuencias específicas de plataforma de SNG y SID (por ejemplo, las secuencias p5 y p7 para secuenciadores ILLUMINA). La fig. 2B divulga las SEQ ID NOS 199­ 203, 198, 197 y 204-206, respectivamente, en el orden de su aparición.
La figura 2C es una continuación de la ilustración esquemática del procedimiento de las FIGS. 2A y 2B. Después de la amplificación por PCR, los productos de PCR ilustrados se someten a secuenciación. En el presente ejemplo, los sitios de cebado pertinentes para la secuenciación en una plataforma ILLUMINA (por ejemplo, la serie ILLUMINA HISEQ) se indican con subrayado para cada uno de los productos de PCR. La fig. 2C divulga las SEQ ID NOS 207-217, respectivamente, en el orden de su aparición.
Descripción detallada
I. Definiciones
En la presente solicitud, a menos que esté de otro modo claro a partir del contexto, (i) se puede entender que el término "un/a" significa "al menos uno/a"; (ii) se puede entender que el término "o" significa "y/o"; (iii) se puede entender que los términos "que comprende" y "que incluye" engloban componentes o etapas detallados, ya sea que se presenten por sí mismos o conjuntamente con uno o más componentes o etapas adicionales; y (iv) se puede entender que el término "aproximadamente" permite una variación estándar como se entendería por los expertos en la técnica; y (v) cuando se proporcionan intervalos, se incluyen los extremos.
Aproximadamente: como se usa en el presente documento, el término "aproximadamente", como se aplica a uno o más valores de interés, se refiere a un valor que es similar a un valor de referencia establecido. En determinados modos de realización, el término "aproximadamente" se refiere a un intervalo de valores que se encuentran dentro de un 25 %, 20 %, 19 %, 18 %, 17 %, 16 %, 15 %, 14 %, 13 %, 12 %, 11 %, 10 %, 9 %, 8 %, 7 %, 6 %, 5 %, 4 %, 3 %, 2 %, 1 % o menos en cualquier dirección (mayor o menor que) del valor de referencia establecido a menos que se establezca de otro modo o sea evidente de otro modo a partir del contexto (excepto cuando dicho número supere un 100 % de un valor posible).
Asociado con: dos acontecimientos o entidades están "asociados" entre sí, como se usa ese término en el presente documento, si la presencia, nivel y/o forma de uno está correlacionada con la del otro. Por ejemplo, se considera que una entidad particular (por ejemplo, un polipéptido, firma genética, metabolito, etc.) está asociada con una enfermedad, trastorno o afección particular, si su presencia, nivel y/o forma se correlaciona con la incidencia de y/o la susceptibilidad a la enfermedad, trastorno o afección (por ejemplo, en una población pertinente). En algunos modos de realización, dos o más entidades están físicamente "asociadas" entre sí si interactúan, directa o indirectamente, de modo que están y/o permanecen en proximidad física entre sí. En algunos modos de realización, dos o más entidades que están físicamente asociadas entre sí están unidas covalentemente entre sí; en algunos modos de realización, dos o más entidades que están físicamente asociadas entre sí no están unidas covalentemente entre sí, sino que están asociadas no covalentemente, por ejemplo, por medio de enlaces de hidrógeno, interacción de van der Waals, interacciones hidrófobas, magnetismo y combinaciones de los mismos. Muestra biológica: como se usa en el presente documento, el término "muestra biológica" se refiere típicamente a una muestra obtenida o derivada de una fuente biológica (por ejemplo, un tejido u organismo o cultivo celular) de interés, como se describe en el presente documento. En algunos modos de realización, una fuente de interés comprende o consiste en un organismo, tal como un animal o un ser humano. En algunos modos de realización, una muestra biológica comprende o consiste en tejido o líquido biológico. En algunos modos de realización, una muestra biológica puede ser o comprender médula ósea; sangre; glóbulos sanguíneos; ascitis; muestras de biopsia con aguja fina o de tejido; líquidos corporales que contienen células; ácidos nucleicos flotantes libres; esputo; saliva; orina; líquido cefalorraquídeo, líquido peritoneal; líquido pleural; heces; linfa; líquidos ginecológicos; hisopados de piel; hisopados vaginales; hisopados orales; hisopados nasales; irrigaciones o lavados tales como lavados ductales o lavados broncoalveolares; aspirados; raspados; muestras de médula ósea; muestras de biopsia de tejido; muestras quirúrgicas; otros líquidos corporales, secreciones y/o excreciones; y/o células de las mismos, etc. En algunos modos de realización, una muestra biológica comprende o consiste en células obtenidas de un individuo. En algunos modos de realización, las células obtenidas son o incluyen células de un individuo del que se obtiene la muestra. En algunos modos de realización, una muestra es una "muestra primaria" obtenida directamente de una fuente de interés por cualquier medio apropiado. Por ejemplo, en algunos modos de realización, una muestra biológica primaria se obtiene por procedimientos seleccionados del grupo que consiste en biopsia (por ejemplo, aspiración con aguja fina o biopsia de tejido), cirugía, recogida de líquidos corporales (por ejemplo, sangre, linfa, heces, etc.), etc. En algunos modos de realización, como quedará claro a partir del contexto, el término "muestra" se refiere a una preparación que se obtiene por procesamiento de (por ejemplo, retirando uno o más componentes de y/o añadiendo uno o más agentes a) una muestra primaria. Por ejemplo, filtrando usando una membrana semipermeable. Una "muestra procesada" de este tipo puede comprender, por ejemplo, ácidos nucleicos o proteínas extraídos de una muestra u obtenidos sometiendo una muestra primaria a técnicas tales como amplificación o retrotranscripción de ARNm, aislamiento y/o purificación de determinados componentes, etc.
Que comprende: una composición o procedimiento descrito en el presente documento como "que comprende" uno o más elementos o etapas nombrados es abierto, lo que significa que los elementos o etapas nombrados son esenciales, pero se pueden añadir otros elementos o etapas dentro del alcance de la composición o procedimiento. Se ha de entender que la composición o el procedimiento descrito como "que comprende" (o que "comprende") uno o más elementos o etapas nombrados también describe la composición o procedimiento correspondiente, más limitado "que consiste esencialmente en" (o que "consiste esencialmente en") los mismos elementos o etapas nombrados, lo que significa que la composición o el procedimiento incluye los elementos o etapas esenciales nombrados y también puede incluir elementos o etapas adicionales que no afecten materialmente a la(s) característica(s) básica(s) y novedosa(s) de la composición o procedimiento. También se entiende que cualquier composición o procedimiento descrito en el presente documento como "que comprende" o "que consiste esencialmente en" uno o más elementos o etapas nombrados también describe la composición o procedimiento correspondiente, más limitado y cerrado "que consiste en" (o "consiste en") los elementos o etapas nombrados con exclusión de cualquier otro elemento o etapa no nombrado. En cualquier composición o procedimiento divulgado en el presente documento, los equivalentes conocidos o divulgados de cualquier elemento o etapa esencial nombrado se pueden sustituir por ese elemento o etapa.
Diseñado: como se usa en el presente documento, el término "diseñado" se refiere a un agente (i) con una estructura que se selecciona o se seleccionó por la mano del hombre; (ii) que se produce por un procedimiento que requiere la mano del hombre; y/o (iii) que es distinto de las sustancias naturales y otros agentes conocidos.
Determinar: los expertos en la técnica que lean la presente memoria descriptiva apreciarán que "la determinación" se puede utilizar o lograr a través del uso de cualquiera de una variedad de técnicas disponibles para los expertos en la técnica, incluyendo, por ejemplo, técnicas específicas a las que se hace referencia explícitamente en el presente documento. En algunos modos de realización, la determinación implica la manipulación de una muestra física. En algunos modos de realización, la determinación implica la consideración y/o manipulación de datos o información, por ejemplo, utilizando un ordenador u otra unidad de procesamiento adaptada para realizar un análisis pertinente. En algunos modos de realización, la determinación implica recibir información y/o materiales pertinentes de una fuente. En algunos modos de realización, la determinación implica comparar uno o más rasgos característicos de una muestra o entidad con una referencia comparable.
Identidad: como se usa en el presente documento, el término "identidad" se refiere a la relación global entre moléculas poliméricas, por ejemplo, entre moléculas de ácido nucleico (por ejemplo, moléculas de ADN y/o moléculas de ARN) y/o entre moléculas de polipéptido. En algunos modos de realización, las moléculas poliméricas se consideran "sustancialmente idénticas" entre sí si sus secuencias son al menos un 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 99 % idénticas. El cálculo del porcentaje de identidad de dos secuencias de ácidos nucleicos o polipéptidos, por ejemplo, se puede realizar alineando las dos secuencias con propósitos de comparación óptima (por ejemplo, se pueden introducir espacios en una o ambas de una primera y una segunda secuencias para una alineación óptima y las secuencias no idénticas se pueden descartar para propósitos de comparación). En determinados modos de realización, la longitud de una secuencia alineada con propósitos de comparación es al menos un 30 %, al menos un 40 %, al menos un 50 %, al menos un 60 %, al menos un 70 %, al menos un 80 %, al menos un 90 %, al menos al menos un 95 % o sustancialmente un 100 % de la longitud de una secuencia de referencia. A continuación, se comparan los nucleótidos en las posiciones correspondientes. Cuando una posición en la primera secuencia está ocupada por el mismo residuo (por ejemplo, un nucleótido o aminoácido) que la posición correspondiente en la segunda secuencia, entonces las moléculas son idénticas en esa posición. El porcentaje de identidad entre las dos secuencias es una función del número de posiciones idénticas compartidas por las secuencias, teniendo en cuenta el número de espacios y la longitud de cada espacio, que se necesita introducir para una alineación óptima de las dos secuencias. La comparación de secuencias y la determinación del porcentaje de identidad entre dos secuencias se puede lograr usando un algoritmo matemático. Por ejemplo, el porcentaje de identidad entre dos secuencias de nucleótidos se puede determinar usando el algoritmo de Meyers y Miller (CABIOS, 1989, 4: 11-17), que se ha incorporado al programa ALIGN (versión 2.0). En algunos modos de realización ejemplares, las comparaciones de secuencias de ácido nucleico realizadas con el programa ALIGN usan una tabla de residuos de ponderación PAM120, una penalización por longitud de espacio de 12 y una penalización por espacio de 4. El porcentaje de identidad entre dos secuencias de nucleótidos se puede determinar, de forma alternativa, usando el programa GAP en el paquete de programa informático GCG usando una matriz NWSgapdna.CMP.
Muestra: como se usa en el presente documento, el término "muestra" se refiere a una sustancia que es o contiene una composición de interés para evaluación cualitativa y/o cuantitativa. En algunos modos de realización, una muestra es una muestra biológica (es decir, proviene de un ser vivo (por ejemplo, una célula u organismo). En algunos modos de realización, una muestra proviene de una fuente geológica, acuática, astronómica o agrícola.
En algunos modos de realización, una fuente de interés comprende o consiste en un organismo, tal como un animal o un ser humano. En algunos modos de realización, una muestra para análisis forense es o comprende tejido biológico, líquido biológico, materia orgánica o inorgánica tal como, por ejemplo, ropa, suciedad, plástico, agua. En algunos modos de realización, una muestra agrícola comprende o consiste en materia orgánica tal como hojas, pétalos, corteza, madera, semillas, plantas, frutas, etc.
Sustancialmente: como se usa en el presente documento, el término "sustancialmente" se refiere a la condición cualitativa de presentar una extensión o grado total o casi total de una característica o propiedad de interés. Un experto en la técnica biológica entenderá que los fenómenos biológicos y químicos rara vez, o nunca, llegan al final y/o avanzan hacia su finalización o logran o evitan un resultado absoluto. Por lo tanto, el término "sustancialmente" se usa en el presente documento para capturar la potencial falta de finalización inherente a muchos fenómenos biológicos y químicos.
Sintético: como se usa en el presente documento, la palabra "sintético" significa producido por la mano del hombre y, por lo tanto, en una forma que no existe en la naturaleza, porque tiene una estructura que no existe en la naturaleza, o bien porque está asociado con uno o más de otros componentes, con los que no está asociado en la naturaleza, o no asociado con uno o más de otros componentes con los que está asociado en la naturaleza.
Variante: como se usa en el presente documento, el término "variante" se refiere a una entidad que muestra una identidad estructural considerable con una entidad de referencia pero difiere estructuralmente de la entidad de referencia en la presencia o nivel de uno o más restos químicos en comparación con la entidad de referencia. En muchos modos de realización, una variante también difiere funcionalmente de su entidad de referencia. En general, si una entidad particular se considera apropiadamente que es una "variante" de una entidad de referencia se basa en su grado de identidad estructural con la entidad de referencia. Como apreciarán los expertos en la técnica, cualquier entidad de referencia biológica o química tiene determinados elementos estructurales característicos. Una variante, por definición, es una entidad química distinta que comparte uno o más de dichos elementos estructurales característicos. Para dar solo unos pocos ejemplos, una molécula pequeña puede tener un elemento estructural de núcleo característico (por ejemplo, un núcleo de macrociclo) y/o uno o más restos colgantes característicos de modo que una variante de la molécula pequeña es una que comparte el elemento estructural de núcleo y los restos colgantes característicos pero difiere en otros restos colgantes y/o en los tipos de enlaces presentes (simple frente a doble, E frente a Z, etc.) dentro del núcleo, un polipéptido puede tener un elemento de secuencia característico compuesto por una pluralidad de aminoácidos que tienen posiciones designadas entre sí en un espacio lineal o tridimensional y/o que contribuyen a una función biológica particular, un ácido nucleico puede tener un elemento de secuencia característico compuesto por una pluralidad de residuos nucleotídicos que tienen posiciones designadas con respecto a otro en un espacio lineal o tridimensional. Por ejemplo, un polipéptido variante puede diferir de un polipéptido de referencia como resultado de una o más diferencias en la secuencia de aminoácidos y/o una o más diferencias en restos químicos (por ejemplo, carbohidratos, lípidos, etc.) unidos covalentemente a la cadena principal del polipéptido. En algunos modos de realización, un polipéptido variante muestra una identidad de secuencia global con un polipéptido de referencia que es al menos un 85 %, 86 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. De forma alternativa o adicionalmente, en algunos modos de realización, un polipéptido variante no comparte al menos un elemento de secuencia característico con un polipéptido de referencia. En algunos modos de realización, el polipéptido de referencia tiene una o más actividades biológicas. En algunos modos de realización, un polipéptido variante comparte una o más de las actividades biológicas del polipéptido de referencia. En algunos modos de realización, un polipéptido variante carece de una o más de las actividades biológicas del polipéptido de referencia. En algunos modos de realización, un polipéptido variante muestra un nivel reducido de una o más actividades biológicas en comparación con el polipéptido de referencia. En muchos modos de realización, un polipéptido de interés se considera que es una "variante" de un polipéptido original o de referencia si el polipéptido de interés tiene una secuencia de aminoácidos que es idéntica a la del original salvo por un pequeño número de alteraciones de secuencia en posiciones particulares. Típicamente, menos de un 20 %, 15 %, 10 %, 9 %, 8 %, 7 %, 6 %, 5 %, 4 %, 3 %, 2 % de los residuos en la variante está sustituido en comparación con el original. En algunos modos de realización, una variante tiene 10, 9, 8, 7, 6 , 5, 4, 3, 2 o 1 residuo sustituido en comparación con un original. A menudo, una variante tiene un número muy pequeño (por ejemplo, menos de 5, 4, 3, 2 o 1) de residuos funcionales sustituidos (es decir, residuos que participan en una actividad biológica particular). Además, una variante típicamente no tiene más de 5, 4, 3, 2 o 1 adiciones o deleciones y, a menudo, no tiene ninguna adición o deleción, en comparación con el original. Además, cualquier adición o deleción es típicamente menos de aproximadamente 25, aproximadamente 20, aproximadamente 19, aproximadamente 18, aproximadamente 17, aproximadamente 16, aproximadamente 15, aproximadamente 14, aproximadamente 13, aproximadamente 10, aproximadamente 9, aproximadamente 8, aproximadamente 7, aproximadamente 6 y comúnmente es menos de aproximadamente 5, aproximadamente 4, aproximadamente 3 o aproximadamente 2 residuos. En algunos modos de realización, una variante también puede tener uno o más defectos funcionales y/o se puede considerar de otro modo un "mutante". En algunos modos de realización, el polipéptido original o de referencia es uno que se encuentra en la naturaleza. Como se entenderá por los expertos en la técnica, se pueden encontrar comúnmente en la naturaleza una pluralidad de variantes de un polipéptido particular de interés, en particular cuando el polipéptido de interés es un polipéptido de agente infeccioso.
II. Descripción detallada de determinados modos de realización
Como también se analiza anteriormente, en diversas situaciones puede ser útil proporcionar adaptadores para la preparación de colecciones de ácidos nucleicos para SNG o similares. Sin embargo, los diseños de adaptador actuales tienen varias desventajas con respecto al coste de fabricación, la eficacia de secuenciación y la exactitud de designación de bases en dirección 3', la identificación de muestras y similares.
Estas y otras dificultades se pueden superar con un adaptador de ácido nucleico modular de acuerdo con la presente divulgación. En un aspecto, se pueden implementar los adaptadores divulgados para superar las dificultades mencionadas anteriormente usando un esquema con lo que los UID y los SID se distribuyen en dos conjuntos separados de oligonucleótidos (FIG. 1). En consecuencia, en un modo de realización, se prepara un agrupamiento de adaptadores bifurcados, teniendo cada adaptador un UID seleccionado de un conjunto de dos o más secuencias de UID diferentes. Después de la fijación de los adaptadores bifurcados que contienen UID a los ácidos nucleicos diana, los productos de fijación resultantes se amplifican con cebadores que incluyen los SID y, opcionalmente, otra información de secuencia, tal como secuencias específicas de la plataforma de SNG. Los productos de amplificación resultantes incluyen tanto un par de UID de la etapa de fijación de adaptador inicial como un SID (o par de SID) de la etapa de amplificación. Especialmente, las variaciones del diseño modular mencionado anteriormente también están dentro del alcance de la presente divulgación. Por ejemplo, se puede intercambiar la localización de los UID y SID. Es decir, los UID de los adaptadores bifurcados se pueden sustituir por SID y los SID incluidos en los cebadores de amplificación se pueden sustituir por UID. Como resultado, los SID se incorporan por fijación y los UID se incorporan a través de amplificación por PCR. Aún otras variaciones de los adaptadores de ácido nucleico modulares divulgados resultarán evidentes a partir de la siguiente divulgación.
Una ventaja del diseño de adaptador de ácido nucleico modular divulgado es que en lugar de que cada adaptador tenga su propio SID, y a continuación se amplifique por un par de cebadores de PCR universal, el adaptador es universal (por ejemplo, los adaptadores con 16 UID diferentes se agrupan en un tubo de adaptador) y los cebadores de PCR contienen los SID. En este diseño, los UID y SID están desacoplados, lo que permite producir una reducción en el número de oligonucleótidos necesarios. Para un diseño de adaptador con 16 UID diferentes y 16 SID, se necesitan 64 oligonucleótidos diferentes, en lugar de 274. Además, estos oligonucleótidos son más cortos que los del diseño previo, lo que también reduce los costes de síntesis de oligonucleótidos y también puede incrementar la eficacia de la fijación (y por lo tanto la eficacia del ensayo). En un aspecto, el conjunto de UID diferentes incluye 2, 4, 8, 16, 32, 64, 128 o más secuencias de UID diferentes. En otro aspecto, el conjunto de SID diferentes incluye 2, 4, 8, 16, 32, 64, 128 o más secuencias de SID diferentes. Especialmente, el número de UID y SID seleccionados dependerá de la naturaleza del experimento, incluyendo el número deseado de muestras para multiplexación, la capacidad de la plataforma de SNG (es decir, el instrumento de secuenciación), la complejidad de la muestra de ácido nucleico que se va a analizar y similares.
En otro aspecto del diseño de adaptador de ácido nucleico modular divulgado, en lugar de tener un marca de puntuación de 2 bases invariable de GT en el extremo de cada adaptador, la marca de puntuación se sintetiza con una longitud variable. El uso de un marca de puntuación de longitud variable (FIG. 1) garantiza una complejidad adecuada en cada posición dentro de la lectura, por lo que no se necesita un control enriquecido con PhiX u otro similar o material de potenciación de la complejidad. En el un modo de realización, la marca de puntuación varía entre 2 y 4 bases. En esta implementación, la última base antes del saliente T se selecciona de un nucleótido C o un nucleótido G, permitiendo de este modo un enlace de hidrógeno más fuerte (es decir, una "pinza G-C"), que puede mostrar una eficacia de fijación mejorada. En otro modo de realización, la base terminal de la marca de puntuación se selecciona de cualquiera de cualquier nucleótido. En un aspecto, las marcas de puntuación se pueden diseñar de modo que ninguna posición en la lectura de secuenciación tenga más de un porcentaje seleccionado (por ejemplo, un 62,5 %) de cualquier base en la posición, eliminando la necesidad de adición de PhiX u otro agente similar cuando se usan los adaptadores divulgados. En las tablas 1 y 2 se muestra una lista de marcas de puntuación y el desglose del % de base en cada posición.
__________________ Tabla 1__________________
Marcas de puntuación i5 (con saliente T)
C
G
AAG
TCC
C
G
AGG
Marcas de puntuación i5 (con saliente T)
TAC C G TCG AGC C G TAC ACC
______________________ Tabla 2______________________
% de cada base por posición en la marca de puntuación*
Base Posición 1 Posición 2
A 25 % 18,75 %
C 25 % 18,75 %
G 25 % 12,50 %
T 25 % 50 %
*Suponiendo una muestra de ácido nucleico que tiene un 25 % de representación de cada base en cada posición
En otro aspecto de la presente divulgación, los UID se pueden diseñar de modo que, si se producen uno o múltiples errores en el UID, el UID no da como resultado la misma secuencia que otro UID en el agrupamiento seleccionado de secuencias de UID. De esta manera, se pueden corregir o retirar los UID con uno o múltiples errores de un análisis posterior. En la implementación adjunta, en lugar de los UID con una longitud de 2 nucleótidos, se usa un UID con una longitud de 5 nucleótidos con una distancia de edición por pares de al menos 3. Como se define en el presente documento, la distancia de edición por pares es una medida de la similitud entre dos cadenas de caracteres (por ejemplo, secuencias de nucleótidos) como se determina contando el número mínimo de operaciones requeridas para transformar una cadena en la otra. Como se usa en los ejemplos de la presente divulgación, la distancia de edición por pares se determina de acuerdo con la distancia de Levenshtein, en la que las operaciones se limitan a deleciones, inserciones y sustituciones; sin embargo, la distancia de edición por pares se puede calcular usando otros enfoques como se apreciará por un experto en la técnica. Con una distancia de edición por pares de 3, los UID que tienen un único error siempre se pueden identificar correctamente. Esto permite hasta 25 UID diferentes (véase, por ejemplo, Faircloth, et al. 2012. PLoS ONE 7(8): e42543). En la implementación adjunta (tabla 3), se usan 16 UID. También se pueden usar UID de longitud diferente (por ejemplo, diseños con UID tan cortos como 2 y tan largos como 10 bases de longitud). Con UID de 2 bases y el uso de una marca de puntuación variable como se describe en el presente documento, se pueden generar los UID marcas de puntuación con una distancia de Hamming por pares de 2; en esta implementación (tabla 4), un error de sustitución en el UID nunca dará como resultado una secuencia con UID marca de puntuación que sea idéntica a otro UID marca de puntuación en el conjunto. Como se define en el presente documento, la distancia de Hamming es la distancia de edición entre dos cadenas donde la única operación permitida es una sustitución. En las tablas 5 y 6 a continuación se muestran dos esquemas de UID adicionales.
Tabla 3 (esquema 1)
UID ci UID Punt. i5 Punt. i7
CAGAT ATCTG C G
GCTGA TCAGC G C
GTCAA TTGAC AAG CTT
GACGT ACGTC TCC GGA
AGGTG CACCT C G
GTACC GGTAC G C
CGCTT AAGCG AGG CCT
UID ci UID Punt. i5 Punt. i7 AACCG CGGTT TAC GTA ACTTC GAAGT C G TCGGT ACCGA G C CCTAG CTAGG TCG CGA CATCC GGATG AGC GCT TCATG CATGA C G ATGCA TGCAT G C GGAAT ATTCC TAC CTA TTGAC GTCAA ACC GGT
Tabla 4 (esquema 4)
UID ci UID Punt. i5 Punt. i7
AA TT TCC GGA
AC GT C G
AG CT AAG CTT
AT AT G C
CA TG G C
CC GG AGG CCT
CG CG C G
CT AG TAC GTA
GA TC AGC GCT
GC GC G C
GG CC TCG CGA
GT AC C G
TA TA C G
TC GA TAC CTA
TG CA G C
TT AA ACC GGT
Tabla 5 (esquema 2)
UID ci UID Punt. i5 Punt. i7
AA TT C G
AC GT G C
AG CT AAG CTT
AT AT TCC GGA
CA TG C G
CC GG G C
CG CG AGG CCT
CT AG TAC GTA
GA TC C G
GC GC G C
GG CC TCG CGA
GT AC AGC GCT
TA TA C G
TC GA G C
TG CA TAC CTA
TT AA ACC GGT Tabla 6 (esquema 3)
UID ci UID Punt. i5 Punt. i7
AA TT C G
AC GT G C
AG CT C G
AT AT G C
CA TG C G
CC GG G C
CG CG C G
CT AG G C
GA TC C G
GC GC G C
GG CC C G
GT AC G C
TA TA C G
TC GA G C
TG CA C G
TT AA G C
En referencia a los esquemas de adaptador ilustrados en las tablas 3-6, el UID y la marca de puntuación se pueden combinar con cualquier secuencia de adaptador adecuada. Por ejemplo, las secuencias de adaptador ¡5 e ¡7 ILLUMINA son T C T T T C C C T A C A C GACG CTCTTCCG ATCT (SEQ ID NO: 1) y A G A T C G G A A G A G C A C A C G T C T G A A C T C C A G T C A C (SEQ ID NO: 2), respectivamente. La secuencia de UID (UID) CAGAT y la marca de puntuación ¡5 (punt. ¡5) C en la primera fila de la tabla 3 se pueden combinar con la secuencia de adaptador ¡5 ILLUMINA para proporcionar la secuencia de oligonucleótidos TCT I I CCCTACACGACGCTCTTCCGATCTCAGATC’T (SEQ ID NO: 3), donde el asterisco (*) indica un enlace fosforotioato. De forma similar, el complemento inverso del UID (ci UID) ATCTG y la marca de puntuación i7 (punt. i7) G (el complemento inverso de la marca de puntuación i5 C) se pueden combinar con la secuencia de adaptador ¡7 ILLUMINA para proporcionar la secuencia de oligonucleótidos G A T C T G A G A T C G G A A G A G C A C A C G T C T G A A C T C C A G T C A C (SEQ ID NO: 4), donde la secuencia incluye un grupo 5'-fosfato. Cada una de las tablas 3-6 enumera un conjunto de 16 combinaciones de UID/marca de puntuación diferentes que se pueden usar para preparar un conjunto de 16 pares de oligonucleótidos.
Para la preparación de adaptadores, cada uno de los pares de oligonucleótidos se sintetiza, purifica e hibrida para proporcionar una población homogénea de adaptadores hibridados. A continuación, los 16 agrupamientos diferentes de adaptadores hibridados se combinan para crear un agrupamiento de adaptadores con 16 UID diferentes. Se apreciará que también se pueden preparar agrupamientos de adaptadores con más o menos de 16 UID diferentes usando el enfoque descrito.
En otro aspecto de la presente divulgación, en lugar de un SID en una sola lectura de secuenciación, se puede incorporar un SID en uno o ambos cebadores de PCR para la amplificación de productos resultantes de la fijación de ácidos nucleicos diana con adaptadores hibridados que tienen UID diferentes. Al usar cebadores que tienen SID incorporados en los mismos, ambas lecturas de índice resultantes de la secuenciación proporcionarán los SID. Dentro de un par de cebadores, los SID se pueden diseñar para tener una cartografía uno a uno de modo que cuando un SID de una lectura de índice es conocido, el s Id de la otra lectura (del extremo emparejado) es predecible. Esta cartografía uno a uno de los SID posibilita la retirada de lecturas en un SID cuando una molécula de una muestra asociada con un primer SID se une a una molécula de otra muestra asociada con un segundo SID. En la implementación mostrada en las tablas 7 y 8, los SID son inversos entre sí. Una secuencia se considera la "inversa" de otra secuencia cuando las dos secuencias comparten la misma secuencia de nucleótidos en el orden inverso. Por ejemplo, si un primer SID tiene la secuencia Aa CT, un segundo SID que tiene la secuencia TCAA sería el inverso del primer SID. Especialmente, la inversa de una secuencia es diferente del complemento inverso de una secuencia. Los SID tienen una distancia de edición por pares mínima de 3, por lo que con hasta 1 error, un SID siempre puede estar asociado apropiadamente con la secuencia de SID correcta. Los SID de ejemplo útiles con la presente divulgación se describen por Faircloth y colaboradores (Faircloth, et al. 2012. PLoS ONE 7(8): e42543). Si bien las secuencias de las tablas 7 y 8 incluyen 96 pares de SID, se apreciará que aún se pueden usar otras secuencias, combinaciones y números de SID en el contexto de la presente divulgación.
Tabla 7
Par Cebador directo (SEQ ID NO: 5-100)
AATGATACGGCGACCACCGAGATCTACACGTTAAGCGACACTCTTTCCCTACAC
1 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACGAGACCAAACACTCT TTCCC TACAC
2 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACAGCCGT AAACACT CTTTCCCTAC AC
3 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTTCGAAGCACACTCTTTCCCTACAC
4 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACATGACAGGACACTCTTTCCCTACAC
5 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTCGTGCATACACTCTTTCCCTACAC
6 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCGAAGTCAACACTCTTTCCCTACAC
7 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGAATCCGTACACTCTTTCCCTACAC
8 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGAAGTGCTACACTCTTTCCCTACAC
9 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGTCCTTGAACACTCTTTCCCTACAC
10 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACCAT GTGT GACACTCT TTCCC TAC AC
11 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACACCTCTTCACACTCTTTCCCTACAC
12 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTCCGATCAACACTCTTTCCCTACAC
13 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCGTATCTCACACTCTTTCCCTACAC
14 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTTGCAACGACACTCTTTCCCTACAC
15 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTGATAGGCACACTCTTTCCCTACAC
16 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACAACAGTCCACACTCTTTCCCTACAC
17 GACGCTCT
AAT GAT ACGGCGAC CACCGAGATCTACACAGGAACACACACTCT TTCCC TACAC
18 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTCCTCATGACACTCTTTCCCTACAC
19 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACAGAGCAGAACACTCTTTCCCTACAC
20 GACGCTCT
AAT GAT ACGGCGAC CACCGAGATCTACACGAACGAAGACACT CT TTCCC T ACAC
21 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTTGAGCTCACACTCTTTCCCTACAC
22 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACGCT GAAT CACACTCT TTCCC TAC AC
23 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACAGATTGCGACACTCTTTCCCTACAC
24 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCAACTTGGACACTCTTTCCCTACAC
25 GACGCTCT
Par Cebador directo (SEQ ID NO: 5-100)
AATGATACGGCGACCACCGAGATCTACACTTGGTGCAACACTCTTTCCCTACAC
26 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCTGTACCAACACTCTTTCCCTACAC
27 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACACT CTGAGACACTCT TTCCC TACAC
28 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCTCCTAGTACACTCTTTCCCTACAC
29 GACGCTCT
AATGATACGGCGAC CACCGAGATCTACACGCCAATACACACTCT TTCCC TACAC
30 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCCTCATCTACACTCTTTCCCTACAC
31 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTGAGCTGTACACTCTTTCCCTACAC
32 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGTCTCATCACACTCTTTCCCTACAC
33 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTAAGCGCAACACTCTTTCCCTACAC
34 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACAGCTACCAACACTCTTTCCCTACAC
35 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCTTCACTGACACTCTTTCCCTACAC
36 GACGCTCT
AATGATACGGCGAC CACCGAGATCTACACGAGAGTACACACTCT TTCCC TACAC
37 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGCGTTAGAACACTCTTTCCCTACAC
38 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACAGGCAAT GACACTCTTTCCCTACAC
39 GACGCTCT
AAT GAT ACGGCGAC CACCGAGATCTACACGCT ACAACACACT CT TTCCC T ACAC
40 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTCAGTAGGACACTCTTTCCCTACAC
41 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCTATGCCTACACTCTTTCCCTACAC
42 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTGCTGTGAACACTCTTTCCCTACAC
43 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCCGAAGATACACTCTTTCCCTACAC
44 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACAGACCTT GACACT CTTTCCCTACAC
45 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACACT GCTT GACACT CTTTCCCTACAC
46 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTAAGTGGCACACTCTTTCCCTACAC
47 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCGCAATGTACACTCTTTCCCTACAC
48 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTGACCGTTACACTCTTTCCCTACAC
49 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCCTCGAATACACTCTTTCCCTACAC
50 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTGCTCTACACACTCTTTCCCTACAC
51 GACGCTCT
Par Cebador directo (SEQ ID NO: 5-100)
AAT GAT ACGGCGACCACCGAGATCTACACGT CGTT ACACACT CTTTCCCTACAC
52 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACATAGTCGGACACTCTTTCCCTACAC
53 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACT AGCAGGAACACTCTTTCCCTACAC
54 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACT ACGGAAGACACT CTTTCCCTACAC
55 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACAGGTGTTGACACTCTTTCCCTACAC
56 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCCGATGTAACACTCTTTCCCTACAC
57 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCTCGACTTACACTCTTTCCCTACAC
58 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGTAGTACCACACTCTTTCCCTACAC
59 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACATTAGCCGACACTCTTTCCCTACAC
60 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTGGACCATACACTCTTTCCCTACAC
61 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCATCTGCTACACTCTTTCCCTACAC
62 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACGACTACGAACACTCTTTCCCTACAC
63 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGCTTCACAACACTCTTTCCCTACAC
64 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACAACGTAGCACACTCTTTCCCTACAC
65 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACACCATGT CACACTCTTTCCCTACAC
66 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCTGTGGTAACACTCTTTCCCTACAC
67 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGTTGGCATACACTCTTTCCCTACAC
68 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACGATACCT GACACTCTTTCCCTACAC
69 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGACGTCATACACTCTTTCCCTACAC
70 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCAGGATGTACACTCTTTCCCTACAC
71 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACACACCGATACACTCTTTCCCTACAC
72 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTGCTTGCTACACTCTTTCCCTACAC
73 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTGGAAGCAACACTCTTTCCCTACAC
74 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTATGACCGACACTCTTTCCCTACAC
75 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCCGCTTAAACACTCTTTCCCTACAC
76 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCCTCGTTAACACTCTTTCCCTACAC
77 GACGCTCT
Par Cebador directo (SEQ ID NO: 5-100)
AATGATACGGCGACCACCGAGATCTACACAGCTAAGCACACTCTTTCCCTACAC
78 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCTAAGACCACACTCTTTCCCTACAC
79 GACGCTCT
AAT GATACGGCGAC CACCGAGATCTACACTCACCTAGACACTCT TTCCC TAC AC
80 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGCATAACGACACTCTTTCCCTACAC
81 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACAGGTTCCTACACTCTTTCCCTACAC
82 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCGAGTTAGACACTCTTTCCCTACAC
83 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTCTTCGACACACTCTTTCCCTACAC
84 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTACTGCTCACACTCTTTCCCTACAC
85 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCTGCCATAACACTCTTTCCCTACAC
86 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACCCAAGTAGACACTCTTTCCCTACAC
87 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACGACCGAT AACACT CTTTCCCTACAC
88 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACCAT ACGGAACACTCTTTCCCTACAC
89 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACTCTAGTCCACACTCTTTCCCTACAC
90 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACAGTGACCTACACTCTTTCCCTACAC
91 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACACCTAGACACACT CTTTCCCTACAC
92 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGTGGTATGACACTCTTTCCCTACAC
93 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGTTATGGCACACTCTTTCCCTACAC
94 GACGCTCT
AAT GAT ACGGCGACCACCGAGATCTACACAACAGCGAACACTCTTTCCCTACAC
95 GACGCTCT
AATGATACGGCGACCACCGAGATCTACACGTCCTGTTACACTCTTTCCCTACAC
96 GACGCTCT
Tabla 8
Par Cebador inverso (SEQ ID NO: 1001-196)
CAAGCAGAAGACGGCATACGAGATGCGAATTGGTGACTGGAGTTCAGACGTGTG
1 C
CAAGCAGAAGACGGCATACGAGATAACCAGAGGTGACTGGAGTTCAGACGTGTG
2 C
CAAGCAGAAGACGGCATACGAGAT AAT GCCGAGT GACTGGAGTT CAGACGTGT G
3 C
CAAGCAGAAGACGGCATACGAGAT CGAAGCTT GT GACTGGAGTT CAGACGTGT G
4 C
CAAGCAGAAGACGGCATACGAGATGGACAGT AGT GACTGGAGTT CAGACGTGT G
5 C
CAAGCAGAAGACGGCATACGAGATTACGTGCTGTGACTGGAGTTCAGACGTGTG
6 C
Par Cebador inverso (SEQ ID NO: 1001-196)
CAAGCAGAAGACGGCATACGAGAT ACTGAAGCGT GACTGGAGTT CAGACGTGT G
7 C
CAAGCAGAAGACGGCATACGAGATTGCCTAAGGTGACTGGAGTTCAGACGTGTG
8 C
CAAGCAGAAGACGGCATACGAGATTCGTGAAGGTGACTGGAGTTCAGACGTGTG
9 C
CAAGCAGAAGACGGCATACGAGAT AGTT CCTGGT GACTGGAGTT CAGACGTGT G
10 C
CAAGCAGAAGACGGCATACGAGATGTGTGTACGT GACTGGAGTT CAGACGTGT G
11 C
CAAGCAGAAGACGGCATACGAGAT CTT CTCCAGT GACTGGAGTT CAGACGTGT G
12 C
CAAGCAGAAGACGGCATACGAGAT ACTAGCCT GT GACTGGAGTT CAGACGTGT G
13 C
CAAGCAGAAGACGGCATACGAGAT CTCTAT GCGT GACTGGAGTT CAGACGTGT G
14 C
CAAGCAGAAGACGGCATACGAGATGCAACGTT GT GACTGGAGTT CAGACGTGT G
15 C
CAAGCAGAAGACGGCATACGAGAT CGGATAGT GTGACTGGAGTTCAGACGTGTG
16 C
CAAGCAGAAGACGGCATACGAGAT CCTGACAAGT GACTGGAGTT CAGACGTGT G
17 C
CAAGCAGAAGACGGCATACGAGATCACAAGGAGTGACTGGAGTTCAGACGTGTG
18 C
CAAGCAGAAGACGGCATACGAGATGT ACTCCT GT GACTGGAGTT CAGACGTGT G
19 C
CAAGCAGAAGACGGCATACGAGAT AGACGAGAGT GACTGGAGTT CAGACGTGT G
20 C
CAAGCAGAAGACGGCATACGAGATGAAGCAAGGTGACTGGAGTTCAGACGTGTG
21 C
CAAGCAGAAGACGGCATACGAGAT CTCGAGTT GT GACTGGAGTT CAGACGTGT G
22 C
CAAGCAGAAGACGGCATACGAGAT CT AAGT CGGT GACTGGAGTT CAGACGTGT G
23 C
CAAGCAGAAGACGGCATACGAGATGCGTTAGAGTGACTGGAGTTCAGACGTGTG
24 C
CAAGCAGAAGACGGCATACGAGATGGTTCAACGTGACTGGAGTTCAGACGTGTG
25 C
CAAGCAGAAGACGGCATACGAGAT ACGTGGTT GT GACTGGAGTT CAGACGTGT G
26 C
CAAGCAGAAGACGGCATACGAGAT ACCATGTCGT GACTGGAGTT CAGACGTGT G
27 C
CAAGCAGAAGACGGCATACGAGATGAGT CT CAGT GACTGGAGTT CAGACGTGT G
28 C
CAAGCAGAAGACGGCATACGAGATTGATCC TC GTGAC TGGAGTTCAGACGTGTG
29 C
CAAGCAGAAGACGGCATACGAGATCATAACCGGTGACTGGAGTTCAGACGTGTG
30 C
CAAGCAGAAGACGGCATACGAGATTCTACT CCGT GACTGGAGTT CAGACGTGT G
31 C
CAAGCAGAAGACGGCATACGAGATTGTCGAGTGTGACTGGAGTTCAGACGTGTG
32 C
Par Cebador inverso (SEQ ID NO: 1001-196)
CAAGCAGAAGACGGCATACGAGAT CTACTCTGGT GACTGGAGTT CAGACGTGT G
33 C
CAAGCAGAAGACGGCATACGAGATACGCGAATGTGACTGGAGTTCAGACGTGTG
34 C
CAAGCAGAAGACGGCATACGAGAT ACCATCGAGT GACTGGAGTT CAGACGTGT G
35 C
CAAGCAGAAGACGGCATACGAGATGT CACTTCGT GACTGGAGTT CAGACGTGT G
36 C
CAAGCAGAAGACGGCATACGAGAT CAT GAGAGGT GACTGGAGTT CAGACGTGT G
37 C
CAAGCAGAAGACGGCATACGAGAT AGATTGCGGT GACTGGAGTT CAGACGTGT G
38 C
CAAGCAGAAGACGGCATACGAGATGT AACGGAGT GACTGGAGTT CAGACGTGT G
39 C
CAAGCAGAAGACGGCATACGAGATCAACATCGGTGACTGGAGTTCAGACGTGTG
40 C
CAAGCAGAAGACGGCATACGAGATGGAT GACT GT GACTGGAGTT CAGACGTGT G
41 C
CAAGCAGAAGACGGCATACGAGATTCCGTATCGT GACTGGAGTT CAGACGTGT G
42 C
CAAGCAGAAGACGGCATACGAGAT AGT GTCGT GT GACTGGAGTT CAGACGTGT G
43 C
CAAGCAGAAGACGGCATACGAGATTAGAAGCCGTGACTGGAGTTCAGACGTGTG
44 C
CAAGCAGAAGACGGCATACGAGATGTT CCAGAGT GACTGGAGTT CAGACGTGT G
45 C
CAAGCAGAAGACGGCATACGAGATGTT CGT CAGT GACTGGAGTT CAGACGTGT G
46 C
CAAGCAGAAGACGGCATACGAGATCGGTGAATGTGACTGGAGTTCAGACGTGTG
47 C
CAAGCAGAAGACGGCATACGAGATTGTAAC GC GTGAC TGGAGTTCAGACGTGTG
48 C
CAAGCAGAAGACGGCATACGAGATTTGCCAGT GT GACTGGAGTT CAGACGTGT G
49 C
CAAGCAGAAGACGGCATACGAGATTAAGCT CCGT GACTGGAGTT CAGACGTGT G
50 C
CAAGCAGAAGACGGCATACGAGAT CAT CTCGTGT GACTGGAGTT CAGACGTGT G
51 C
CAAGCAGAAGACGGCATACGAGAT CATTGCTGGT GACTGGAGTT CAGACGTGT G
52 C
CAAGCAGAAGACGGCATACGAGATGGCTGAT AGT GACTGGAGTT CAGACGTGT G
53 C
CAAGCAGAAGACGGCATACGAGAT AGGACGAT GTGACTGGAGTTCAGACGTGTG
54 C
CAAGCAGAAGACGGCATACGAGAT GAAGGCAT GTGAC TGGAGTTCAGACGTGTG
55 C
CAAGCAGAAGACGGCATACGAGATGTT GTGGAGT GACTGGAGTT CAGACGTGT G
56 C
CAAGCAGAAGACGGCATACGAGAT ATGTAGCCGT GACTGGAGTT CAGACGTGT G
57 C
CAAGCAGAAGACGGCATACGAGATTTCAGCTCGTGACTGGAGTTCAGACGTGTG
58 C
Par Cebador inverso (SEQ ID NO: 1001-196)
CAAGCAGAAGACGGCATACGAGAT CCAT GATGGT GACTGGAGTT CAGACGTGT G
59 C
CAAGCAGAAGACGGCATACGAGATGCCGATT AGT GACTGGAGTT CAGACGTGT G
60 C
CAAGCAGAAGACGGCATACGAGATTACCAGGTGTGACTGGAGTTCAGACGTGTG
61 C
CAAGCAGAAGACGGCATACGAGATTCGT CTACGT GACTGGAGTT CAGACGTGT G
62 C
CAAGCAGAAGACGGCATACGAGAT AGCATCAGGT GACTGGAGTT CAGACGTGT G
63 C
CAAGCAGAAGACGGCATACGAGAT ACACTT CGGT GACTGGAGTT CAGACGTGT G
64 C
CAAGCAGAAGACGGCATACGAGAT CGAT GCAAGT GACTGGAGTT CAGACGTGT G
65 C
CAAGCAGAAGACGGCATACGAGAT CTGTACCAGT GACTGGAGTT CAGACGTGT G
66 C
CAAGCAGAAGACGGCATACGAGAT ATGGTGTCGT GACTGGAGTT CAGACGTGT G
67 C
CAAGCAGAAGACGGCATACGAGATTACGGTTGGTGACTGGAGTTCAGACGTGTG
68 C
CAAGCAGAAGACGGCATACGAGATGTCCATAGGT GACTGGAGTT CAGACGTGT G
69 C
CAAGCAGAAGACGGCATACGAGATTACTGCAGGTGACTGGAGTTCAGACGTGTG
70 C
CAAGCAGAAGACGGCATACGAGATTGTAGGAC GTGAC TGGAGTTCAGACGTGTG
71 C
CAAGCAGAAGACGGCATACGAGATTAGCCACAGTGACTGGAGTTCAGACGTGTG
72 C
CAAGCAGAAGACGGCATACGAGATTCGTTCGT GT GACTGGAGTT CAGACGTGT G
73 C
CAAGCAGAAGACGGCATACGAGAT ACGAAGGT GT GACTGGAGTT CAGACGTGT G
74 C
CAAGCAGAAGACGGCATACGAGATGCCAGTAT GT GACTGGAGTT CAGACGTGT G
75 C
CAAGCAGAAGACGGCATACGAGAT AATT CGCCGT GACTGGAGTT CAGACGTGT G
76 C
CAAGCAGAAGACGGCATACGAGAT ATT GCT CCGT GACTGGAGTT CAGACGTGT G
77 C
CAAGCAGAAGACGGCATACGAGAT CGAATCGAGT GACTGGAGTT CAGACGTGT G
78 C
CAAGCAGAAGACGGCATACGAGAT CCAGAATCGT GACTGGAGTT CAGACGTGT G
79 C
CAAGCAGAAGACGGCATACGAGATGAT CCACT GT GACTGGAGTT CAGACGTGT G
80 C
CAAGCAGAAGACGGCATACGAGATGCAATACGGTGACTGGAGTTCAGACGTGTG
81 C
CAAGCAGAAGACGGCATACGAGATTCCTTGGAGT GACTGGAGTT CAGACGTGT G
82 C
CAAGCAGAAGACGGCATACGAGATGATTGAGCGTGACTGGAGTTCAGACGTGTG
83 C
CAAGCAGAAGACGGCATACGAGATCAGCTTCTGTGACTGGAGTTCAGACGTGTG
84 C
Par Cebador inverso (SEQ ID NO: 1001-196)
CAAGCAGAAGACGGCATACGAGAT CTCGTCAT GT GACTGGAGTT CAGACGTGT G
85 C
CAAGCAGAAGACGGCATACGAGAT AT ACCGTCGT GACTGGAGTT CAGACGTGT G
86 C
CAAGCAGAAGACGGCATACGAGATGAT GAACCGT GACTGGAGTT CAGACGTGT G
87 C
CAAGCAGAAGACGGCATACGAGAT AT AGCCAGGT GACTGGAGTT CAGACGTGT G
88 C
CAAGCAGAAGACGGCATACGAGAT AGGCATACGT GACTGGAGTT CAGACGTGT G
89 C
CAAGCAGAAGACGGCATACGAGAT CCTGAT CT GT GACTGGAGTT CAGACGTGT G
90 C
CAAGCAGAAGACGGCATACGAGATTCCAGT GAGT GACTGGAGTT CAGACGTGT G
91 C
CAAGCAGAAGACGGCATACGAGATCAGATCCAGTGACTGGAGTTCAGACGTGTG
92 C
CAAGCAGAAGACGGCATACGAGATGT AT GGTGGT GACTGGAGTT CAGACGTGT G
93 C
CAAGCAGAAGACGGCATACGAGATCGGTATTGGTGACTGGAGTTCAGACGTGTG
94 C
CAAGCAGAAGACGGCATACGAGAT AGCGACAAGT GACTGGAGTT CAGACGTGT G
95 C
CAAGCAGAAGACGGCATACGAGATTTGT CCTGGT GACTGGAGTT CAGACGTGT G
96 C
En un aspecto, se apreciará que los modos de realización de adaptadores de ácido nucleico modulares pueden incluir cualquier combinación de los rasgos característicos descritos en el presente documento. En un ejemplo, el esquema ilustrado en la tabla 5 contempla adaptadores que tienen UID con una longitud de 2 nucleótidos y marcas de puntuación de longitud variable, mientras que el esquema ilustrado en la tabla 6 contempla adaptadores que tienen UID con una longitud de 2 nucleótidos y marcas de puntuación de un único nucleótido (es decir, las marcas de puntuación no son de longitudes variables).

Claims (15)

REIVINDICACIONES
1. Un kit para preparar una colección de ácidos nucleicos que tiene secuencias de adaptador para secuenciación, comprendiendo el kit:
un primer oligonucleótido que tiene una primera secuencia de cola, una primera secuencia común, una primera secuencia de identificador único y un primera marca de puntuación de longitud variable;
un segundo oligonucleótido que tiene una segunda secuencia de cola, una segunda secuencia común complementaria a la primera secuencia común, una segunda secuencia de identificador único complementaria a la primera secuencia de identificador único y una segunda marca de puntuación de longitud variable complementaria a la primera marca de puntuación de longitud variable;
un primer cebador que tiene una primera secuencia de identificador de muestra y una primera secuencia de cebado en un extremo 3' del primer cebador, incluyendo la primera secuencia de cebado la primera secuencia de cola del primer oligonucleótido; y
un segundo cebador que tiene una segunda secuencia de identificador de muestra y una segunda secuencia de cebado en un extremo 3' del segundo cebador, siendo la segunda secuencia de cebado complementaria a la segunda secuencia de cola del segundo oligonucleótido.
2. El kit de la reivindicación 1, en el que la primera secuencia de identificador de muestra y la segunda secuencia de identificador de muestra tienen una cartografía uno a uno.
3. El kit de la reivindicación 2, en el que la primera marca de puntuación de longitud variable tiene una longitud de 2-4 nucleótidos.
4. El kit de la reivindicación 2, en el que la primera marca de puntuación de longitud variable incluye al menos uno de un nucleótido G y uno C.
5. El kit de la reivindicación 1, en el que la primera secuencia de identificador único tiene una longitud de al menos 5 nucleótidos.
6. El kit de la reivindicación 5, en el que la primera secuencia de identificador único tiene una distancia de edición por pares de al menos 3.
7. Un kit para preparar una colección de ácidos nucleicos que tiene secuencias de adaptador para secuenciación, comprendiendo el kit:
una pluralidad de pares de oligonucleótidos, incluyendo cada uno de los pares de oligonucleótidos:
un primer oligonucleótido que tiene una primera secuencia de cola, una primera secuencia común, una primera secuencia de identificador único y un primera marca de puntuación de longitud variable, y
un segundo oligonucleótido que tiene una segunda secuencia de cola, una segunda secuencia común complementaria a la primera secuencia común, una segunda secuencia de identificador único complementaria a la primera secuencia de identificador único y una segunda marca de puntuación de longitud variable complementaria a la primera marca de puntuación de longitud variable,
un primer cebador que tiene una primera secuencia de identificador de muestra y una primera secuencia de cebado en un extremo 3' del primer cebador, incluyendo la primera secuencia de cebado la primera secuencia de cola del primer oligonucleótido; y
un segundo cebador que tiene una segunda secuencia de identificador de muestra y una segunda secuencia de cebado en un extremo 3' del segundo cebador, siendo la segunda secuencia de cebado complementaria a la segunda secuencia de cola del segundo oligonucleótido.
8. El kit de la reivindicación 7, en el que cada una de las primeras secuencias de identificador único de cada uno de la pluralidad de pares de oligonucleótidos es diferente.
9. El kit de la reivindicación 7, en el que cada una de las primeras secuencias de cola de cada uno de la pluralidad de pares de oligonucleótidos es la misma.
10. El kit de la reivindicación 7, en el que cada una de las segundas secuencias de cola de cada uno de la pluralidad de pares de oligonucleótidos es la misma.
11. El kit de la reivindicación 7, en el que cada uno de la pluralidad de pares de oligonucleótidos se híbrida para formar un adaptador bifurcado.
12. El kit de la reivindicación 7, en el que la primera secuencia de identificador de muestra y la segunda secuencia de identificador de muestra tienen una cartografía uno a uno.
13. El kit de la reivindicación 7, en el que cada una de las primeras secuencias de identificador único tiene una longitud de al menos 5 nucleótidos.
14. El kit de la reivindicación 15, en el que cada una de las primeras secuencias de identificador único tiene una distancia de edición por pares de al menos 3.
15. Un procedimiento de preparación de una colección de moléculas de ácido nucleico, comprendiendo el procedimiento:
unir uno de una pluralidad de adaptadores oligonucleotídicos a cada extremo de un ácido nucleico diana para proporcionar una construcción adaptador-diana-adaptador, teniendo cada uno de la pluralidad de adaptadores oligonucleotídicos:
un primer oligonucleótido que tiene una primera secuencia de cola, una primera secuencia común, una primera secuencia de identificador único y un primera marca de puntuación de longitud variable, y
un segundo oligonucleótido que tiene una segunda secuencia de cola, una segunda secuencia común complementaria a la primera secuencia común, una segunda secuencia de identificador único complementaria a la primera secuencia de identificador único y una segunda marca de puntuación de longitud variable complementaria a la primera marca de puntuación de longitud variable;
hibridar un primer cebador con la construcción adaptador-diana-adaptador, teniendo el primer cebador una primera secuencia de identificador de muestra y una primera secuencia de cebado en un extremo 3' del primer cebador, incluyendo la primera secuencia de cebado la primera secuencia de cola del primer oligonucleótido; y
extender cada uno del primer cebador y el segundo cebador para formar productos de extensión complementarios a cada hebra de las construcciones adaptador-diana-adaptador.
ES18734550T 2017-06-27 2018-06-27 Adaptadores de ácido nucleico modulares Active ES2898644T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762525595P 2017-06-27 2017-06-27
PCT/EP2018/067246 WO2019002366A1 (en) 2017-06-27 2018-06-27 MODULAR ADAPTERS OF NUCLEIC ACID

Publications (1)

Publication Number Publication Date
ES2898644T3 true ES2898644T3 (es) 2022-03-08

Family

ID=62751007

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18734550T Active ES2898644T3 (es) 2017-06-27 2018-06-27 Adaptadores de ácido nucleico modulares

Country Status (8)

Country Link
US (2) US20200109397A1 (es)
EP (1) EP3645717B1 (es)
JP (1) JP7030857B2 (es)
CN (1) CN110785493B (es)
DK (1) DK3645717T3 (es)
ES (1) ES2898644T3 (es)
LT (1) LT3645717T (es)
WO (1) WO2019002366A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220220550A1 (en) * 2021-01-08 2022-07-14 Agilent Technologies, Inc. Sequencing an insert and an identifier without denaturation
JP2024513187A (ja) * 2021-03-29 2024-03-22 イルミナ インコーポレイテッド ライブラリー中のdna損傷を評価し、アンプリコンサイズバイアスを正規化するための組成物及び方法
WO2023107899A2 (en) 2021-12-07 2023-06-15 Caribou Biosciences, Inc. A method of capturing crispr endonuclease cleavage products

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2121983A2 (en) * 2007-02-02 2009-11-25 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
US9133510B2 (en) * 2012-10-15 2015-09-15 Life Technologies Corporation Compositions, methods, systems and kits for target nucleic acid enrichment
JP6714709B2 (ja) * 2016-01-29 2020-06-24 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 核酸配列決定のための新規アダプターおよび使用法

Also Published As

Publication number Publication date
WO2019002366A1 (en) 2019-01-03
US20230081899A1 (en) 2023-03-16
EP3645717B1 (en) 2021-08-11
US20200109397A1 (en) 2020-04-09
JP7030857B2 (ja) 2022-03-07
DK3645717T3 (da) 2021-11-08
JP2020529833A (ja) 2020-10-15
CN110785493B (zh) 2023-12-05
EP3645717A1 (en) 2020-05-06
LT3645717T (lt) 2021-12-10
CN110785493A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
ES2898644T3 (es) Adaptadores de ácido nucleico modulares
Tang et al. Mitochondrial phylogenomics of the Hymenoptera
ES2799074T3 (es) Supresión de errores en fragmentos de ADN secuenciados mediante el uso de lecturas redundantes con índices moleculares únicos (UMI)
US11332737B2 (en) Method for counting number of nucleic acid molecules
WO2017028752A1 (zh) 多重pcr引物及其应用
WO2017028753A1 (zh) 多重pcr引物及其应用
JP7051677B2 (ja) 次世代シークエンシングのための高分子量dnaサンプル追跡タグ
CN105861642A (zh) 一种鲟鱼性别差异性分子标记及其应用
CN106434866B (zh) 一种3’端可逆封闭的两核苷酸实时合成测序方法
KR101796306B1 (ko) 말전복 탐지용 마이크로새틀라이트 마커 및 이를 이용한 말전복 탐지 방법
KR20160053420A (ko) 고추의 적색소 연관 snp 분자마커 개발 및 이의 용도
US20230151356A1 (en) Floating Barcodes
CN110218813A (zh) 检测玉米蚜虫抗性基因的分子标记、引物、检测方法及应用
KR20190050129A (ko) 검역 식물바이러스인 바나나 타래 꼭지 바이러스를 특이적으로 검출하기 위한 프라이머 세트 및 이의 용도
KR20190050131A (ko) 검역 식물바이러스인 바나나 포엽 모자이크 바이러스를 특이적으로 검출하기 위한 프라이머 세트 및 이의 용도
ES2535577A2 (es) Método para el diagnóstico de verticilosis en el olivo
Bhattarai et al. A high-quality genome assembly and annotation of the European earwig Forficula auricularia
Romeu Probable human origin of the SARS-CoV-2 polybasic furin cleavage site
Çokoğlu COMPARISON OF METHYLATION PATTERNS IN ANCIENT HUNTER-GATHERERS AND FARMERS
KR20190050125A (ko) 검역 식물바이러스인 바나나 줄무늬 바이러스를 특이적으로 검출하기 위한 프라이머 세트 및 이의 용도
KR20190050133A (ko) 검역 식물바이러스인 오이 괴사 바이러스를 특이적으로 검출하기 위한 프라이머 세트 및 이의 용도
WO2023164505A2 (en) Methods and compositions for simultaneously sequencing a nucleic acid template sequence and copy sequence
CN112391452A (zh) 一种检测用试剂盒
Talwar et al. 30 Human Genome Project
Passier et al. Methods in molecular cardiology: in silico cloning