ES2880335T3 - Métodos y composiciones para la preparación rápida de bibliotecas de ácidos nucleicos - Google Patents

Métodos y composiciones para la preparación rápida de bibliotecas de ácidos nucleicos Download PDF

Info

Publication number
ES2880335T3
ES2880335T3 ES15766717T ES15766717T ES2880335T3 ES 2880335 T3 ES2880335 T3 ES 2880335T3 ES 15766717 T ES15766717 T ES 15766717T ES 15766717 T ES15766717 T ES 15766717T ES 2880335 T3 ES2880335 T3 ES 2880335T3
Authority
ES
Spain
Prior art keywords
sequence
nucleic acid
cases
acid molecule
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15766717T
Other languages
English (en)
Inventor
Keith Brown
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iGenomx International Genomics Corp
Original Assignee
iGenomx International Genomics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iGenomx International Genomics Corp filed Critical iGenomx International Genomics Corp
Application granted granted Critical
Publication of ES2880335T3 publication Critical patent/ES2880335T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Un método de generación de un conjunto de datos almacenados en ordenador que comprende una población de secuencias de moléculas de ácido nucleico marcadas por afinidad no idénticas, que comprenden cada una un subconjunto de secuencias de una muestra de ácido nucleico, comprendiendo el método: a) almacenar en un ordenador una primera secuencia de molécula de ácido nucleico que comprenda una primera secuencia de marcador molecular en posición 5' y una primera secuencia de inserción que tiene una primera longitud de dicha muestra de ácido nucleico, en donde el método comprende obtener dicha primera secuencia de ácido nucleico a través de (i) poner en contacto un primer cebador que comprende una primera secuencia de marcador molecular de una primera población de oligonucleótidos aleatorios con una primera molécula de ácido nucleico de dicha muestra de ácido nucleico; (ii) realizar la prolongación de ácido nucleico que comprende poner en contacto dicha primera molécula de ácido nucleico y dicho primer cebador con una polimerasa de ácido nucleico que incorpora un ddNTP marcado por afinidad en una cadena de ácido nucleico de prolongación para producir un primer producto de prolongación de una población de primeros productos de prolongación que tienen cada uno un número indeterminado de bases complementarias con dicha muestra de ácido nucleico; (iii) poner en contacto dicho primer producto de prolongación de dicha población de primeros productos de prolongación con un segundo cebador que comprende una segunda secuencia de marcador molecular de una población de oligonucleótidos aleatorios; (iv) realizar la prolongación de ácido nucleico para producir una primera molécula de ácido nucleico bicatenario de una población de moléculas de ácido nucleico bicatenario que comprende dicha primera secuencia de marcador molecular, una primera secuencia de molécula de ácido nucleico que tiene una primera longitud, y dicha segunda secuencia de marcador molecular; y (v) secuenciar la primera molécula de ácido nucleico para obtener dicha primera secuencia de molécula de ácido nucleico; b) almacenar en dicho ordenador una segunda secuencia de molécula de ácido nucleico que comprende una tercera secuencia de marcador molecular, una segunda secuencia de molécula de ácido nucleico que tiene una segunda longitud, y una cuarta secuencia de marcador molecular; c) excluir dicha segunda secuencia de molécula de ácido nucleico del conjunto de datos cuando: dicha tercera secuencia de marcador molecular es idéntica a dicha primera secuencia de marcador molecular; dicha cuarta secuencia de marcador molecular es idéntica a dicha segunda secuencia de marcador molecular; dicha segunda secuencia de molécula de ácido nucleico es idéntica a dicha primera secuencia de molécula de ácido nucleico; y dicha segunda longitud de secuencia de molécula de ácido nucleico es idéntica a dicha primera longitud de secuencia de molécula de ácido nucleico; d) incluir la segunda secuencia de molécula de ácido nucleico en el conjunto de datos cuando: dicha tercera secuencia de marcador molecular es diferente de dicha primera secuencia de marcador molecular; dicha cuarta secuencia de marcador molecular es diferente de dicha segunda secuencia de marcador molecular; dicha segunda secuencia de molécula de ácido nucleico es diferente de dicha primera secuencia de molécula de ácido nucleico; o dicha segunda longitud de secuencia de molécula de ácido nucleico es diferente de dicha primera longitud de secuencia de molécula de ácido nucleico, generando de este modo dicho conjunto de datos almacenados en ordenador que comprende dicha población de moléculas de ácido nucleico marcadas no idénticas que comprenden cada una un subconjunto de secuencia de dicha muestra de ácido nucleico.

Description

DESCRIPCIÓN
Métodos y composiciones para la preparación rápida de bibliotecas de ácidos nucleicos
Antecedentes
Un componente crítico en el uso de información de secuencias es aislar y amplificar genes que provocan enfermedades. Sin embargo, estos genes causantes de enfermedades son "complejos" e incluyen grandes inserciones/supresiones, translocaciones u otros cambios cromosómicos que alteran la longitud y que no pueden detectarse por PCR o capturarse sin conocimiento previo (por ejemplo, un genoma de referencia). Varias aplicaciones biológicas implican la secuenciación de ácidos nucleicos, incluyendo la secuenciación de nueva generación. La secuenciación de nueva generación puede amplificar errores clonales, conduciendo a la incapacidad para distinguir entre la abundancia natural de una molécula y la abundancia resultante de la amplificación clonal diferencial.
Sumario de la invención
La invención se define por las reivindicaciones adjuntas.
Se desvelan procesos y composiciones para añadir códigos de síntesis a una secuencia derivada de muestra existente sin cambiar la función del código. Esta "Refactorización Molecular" actúa de forma similar a la refactorización de código en software y, a través de los códigos de síntesis, hace que un código derivado de muestra sea más fácil de analizar.
A través de los métodos y composiciones del presente documento, se usa una muestra de ácido nucleico para generar una biblioteca de secuenciación que comprende moléculas marcadas, superpuestas y de fragmentos, cada una de las cuales es única en la biblioteca. Como resultado, las bibliotecas generadas por la presente no son vulnerables a la propagación de errores resultado de la generación de bibliotecas sin filtrar a partir de la amplificación exponencial de fragmentos de muestras e intermedios de bibliotecas. Cada componente de la biblioteca es identificable de forma única por su longitud de inserto, su marcador en posición 5' aleatorio y su marcador en posición 3' aleatorio. Se identifican y se retiran fácilmente duplicados que tienen marcadores idénticos en cada extremo y una secuencia de inserto idéntica según el punto de inicio, el punto final y el contenido, para eliminar el riesgo de que el sesgo de amplificación influya en el análisis de la biblioteca. Las mutaciones en la generación de bibliotecas se identifican fácilmente como raras y únicas para los componentes de una sola biblioteca, mientras que las mutaciones que distinguen diversos alelos en una muestra diploide se identifican fácilmente por el hecho de que aparecen repetidamente en componentes de bibliotecas generados independientemente y marcados independientemente. El resultado es una biblioteca que permite el reconocimiento y la eliminación fáciles de errores artefactuales en la generación de bibliotecas, lo que facilita una secuenciación de ácidos nucleicos sustancialmente más precisa.
Un elemento beneficioso de algunos métodos y composiciones del presente documento es el uso de didesoxinucleótidos en la terminación de cadena de primera cadena de biblioteca. Los didesoxinucleótidos no soportan la prolongación de cadena impulsada por ADN polimerasa. Como resultado, los intermedios de bibliotecas que incorporan un didesoxinucleótido en su extremo 3' no pueden servir como cebadores para una prolongación de cadena adicional en rondas posteriores de generación de bibliotecas. Este rasgo beneficioso evita la generación de componentes de bibliotecas quiméricos a través de la hibridación de un intermedio de biblioteca con una región aleatoria o repetida de un genoma y la prolongación dirigida por polimerasa desde esa región dando como resultado un componente de biblioteca quimérico. Como resultado, los métodos que se desvelan en el presente documento son mucho más capaces que muchas técnicas de la técnica de generar con precisión bibliotecas a partir de muestras de ácido nucleico que tienen regiones de repetición, tales como aquellas que se sabe que son tan comunes en el genoma humano.
Por lo tanto, las bibliotecas de secuenciación generadas por la presente, y la secuencia generada a partir de las mismas, son mejores que algunas bibliotecas comparables en al menos dos aspectos. En primer lugar, a través del uso del triple marcaje de los componentes de biblioteca, las moléculas de la biblioteca duplicadas que comparten los tres marcadores se identifican y se descartan fácilmente y, por lo tanto, las mutaciones introducidas en el proceso de generación de biblioteca que condujeron a los duplicados se distinguen fácilmente de las mutaciones que reflejan la muestra subyacente. Esto se deba a que las mutaciones que reflejan la muestra subyacente ocurrirán múltiples veces independientemente en la biblioteca generada, mientras que es más probable que los artefactos sean únicos de una molécula de la biblioteca dada y sus duplicados. Si uno no puede identificar los duplicados, entonces las mutaciones artefactuales, debido al sesgo de amplificación, pueden llegar a ser lo suficientemente abundantes para confundir el análisis corriente abajo.
En segundo lugar, a través del uso de didesoxinucleótidos en la generación de bibliotecas, existe una posibilidad mucho menor de generar una molécula de biblioteca quimérica que pueda confundirse con eventos de translocación o inserción en el análisis de secuencia de la biblioteca. La generación de moléculas de bibliotecas quiméricas es un gran obstáculo para el análisis de secuencias o el ensamblaje cóntigo, especialmente cuando se analiza una muestra heterogénea que puede comprender eventos de translocación o transposición raros, tales como una muestra de ADN de cáncer. Minimizando la posibilidad de formación de quimeras artefactuales, las bibliotecas generadas por la presente son más fáciles de secuenciar y ensamblar.
Otra ventaja de algunos métodos de generación de bibliotecas en el presente documento es la facilidad con la que se ejecutan. En particular, se realizan múltiples etapas en un solo tubo, o en un solo pocillo o en una sola cámara, sin fraccionamiento de tamaño o purificación en columna o gel, de manera que las bibliotecas se generan con un mínimo de tiempo o de procesamiento.
Algunas realizaciones se refieren a métodos de generación de una población de moléculas de ácido nucleico marcadas no idénticas, cada una de las cuales comprende un subconjunto de secuencia de una muestra de ácido nucleico objetivo. Algunos aspectos de estas realizaciones se refieren a métodos de generación de una población de moléculas de ácido nucleico marcadas no idénticas, cada una de las cuales comprende un subconjunto de secuencia de una muestra de ácido nucleico objetivo, comprendiendo los métodos obtener una primera molécula de ácido nucleico que comprende una primera secuencia de marcador molecular y una primera secuencia objetivo que tiene una primera longitud de dicha muestra de ácido nucleico objetivo; hibridar un oligonucleótido que comprende una segunda secuencia de marcador molecular con dicha primera molécula de ácido nucleico; prolongar dicho oligonucleótido para obtener una primera molécula de ácido nucleico bicatenario que comprende una primera secuencia de marcador molecular, una primera secuencia objetivo que tiene una primera longitud y una segunda secuencia de marcador molecular; obtener una segunda molécula de ácido nucleico bicatenario que comprende una tercera secuencia de marcador molecular, una segunda secuencia objetivo que tiene una segunda longitud y una cuarta secuencia de marcador molecular; y descartar dicha segunda molécula de ácido nucleico bicatenario si dicha tercera secuencia de marcador molecular es idéntica a dicha primera secuencia de marcador molecular; dicha cuarta secuencia de marcador molecular es idéntica a dicha segunda secuencia de marcador molecular; dicha segunda secuencia objetivo es idéntica a dicha primera secuencia objetivo; y dicha segunda longitud de secuencia objetivo es idéntica a dicha primera longitud de secuencia objetivo. Algunos aspectos de estas realizaciones se refieren a métodos de generación de una población de moléculas de ácido nucleico marcadas no idénticas, cada una de las cuales comprende un subconjunto de secuencia de una muestra de ácido nucleico objetivo, comprendiendo los métodos obtener una primera molécula de ácido nucleico que comprende una primera secuencia de marcador molecular y una primera secuencia objetivo que tiene una primera longitud de dicha muestra de ácido nucleico objetivo; hibridar un oligonucleótido que comprende una segunda secuencia de marcador molecular con dicha primera molécula de ácido nucleico; prolongar dicho oligonucleótido para obtener una primera molécula de ácido nucleico bicatenario que comprende una primera secuencia de marcador molecular, una primera secuencia objetivo que tiene una primera longitud y una segunda secuencia de marcador molecular; obtener una segunda molécula de ácido nucleico bicatenario que comprende una tercera secuencia de marcador molecular, una segunda secuencia objetivo que tiene una segunda longitud y una cuarta secuencia de marcador molecular; descartar dicha segunda molécula de ácido nucleico bicatenario si dicha tercera secuencia de marcador molecular es idéntica a dicha primera secuencia de marcador molecular; dicha cuarta secuencia de marcador molecular es idéntica a dicha segunda secuencia de marcador molecular; dicha segunda secuencia objetivo es idéntica a dicha primera secuencia objetivo; y dicha segunda longitud de secuencia objetivo es idéntica a dicha primera longitud de secuencia objetivo; y conservar dicha segunda molécula de ácido nucleico bicatenario si dicha tercera secuencia de marcador molecular es diferente de dicha primera secuencia de marcador molecular; dicha cuarta secuencia de marcador molecular es diferente de dicha segunda secuencia de marcador molecular; dicha segunda secuencia objetivo es diferente de dicha primera secuencia objetivo; o dicha segunda longitud de secuencia objetivo es diferente de dicha primera longitud de secuencia objetivo, generando de este modo una población de moléculas de ácido nucleico marcadas no idénticas, cada una de las cuales comprende un subconjunto de secuencia de una muestra de ácido nucleico objetivo. En algunos aspectos, dicha primera molécula de ácido nucleico se obtiene poniendo en contacto un primer cebador que comprende una primera secuencia de oligonucleótidos aleatorios con una muestra de ácido nucleico objetivo. En algunos aspectos, dicha puesta en contacto de un primer cebador comprende hibridar dicho primer cebador con un ácido nucleico de dicha muestra de ácido nucleico objetivo. En algunos aspectos, dicha primera molécula de ácido nucleico comprende un ligando molecular. En algunos aspectos, dicho ligando molecular comprende biotina. En algunos aspectos, dicha segunda molécula de ácido nucleico se genera poniendo en contacto un segundo cebador que comprende una segunda secuencia de oligonucleótidos aleatorios con dicha primera molécula de ácido nucleico. En algunos aspectos, dicha primera secuencia de oligonucleótidos aleatorios de dicha primera molécula de ácido nucleico consiste en un número de bases de ácido nucleico seleccionadas de la lista que consiste en 6, 7, 8, 9 y 10 bases de nucleótidos. En algunos aspectos, dicha primera molécula de ácido nucleico comprende una secuencia de adaptador ubicada en posición 5' con respecto a dicha primera secuencia de oligonucleótidos aleatorios. En algunos aspectos, dichos métodos comprenden poner en contacto dicho primer ácido nucleico y dicho primer cebador con una polimerasa de ácido nucleico y un nucleótido trifosfato. En algunos aspectos, dicho nucleótido trifosfato es seleccionado por dicha polimerasa de ácido nucleico de un conjunto que comprende desoxinucleótidos trifosfato y didesoxinucleótidos trifosfato. En algunos aspectos, dicho conjunto comprende didesoxinucleótidos trifosfato en una cantidad que varía del 0,01 % al 5 %. En algunos aspectos, dicho conjunto comprende didesoxinucleótidos trifosfato en una cantidad que varía entre el 0,05 % y el 1,0 %. En algunos aspectos, dicho nucleótido es añadido por una enzima polimerasa de ácido nucleico que tiene actividad de desplazamiento de cadena. En algunos aspectos, dicho conjunto comprende al menos uno de dichos didesoxinucleótidos trifosfato unidos a un ligando molecular. En algunos aspectos, dicho ligando molecular comprende biotina. En algunos aspectos, dichos métodos comprenden poner en contacto una molécula que comprende dicho oligonucleótido que comprende una segunda secuencia de marcador molecular hibridada con dicha primera molécula de ácido nucleico con un agente de unión a ligando. En algunos aspectos, dicho agente de unión a ligando es avidina.
En algunos aspectos, dicho agente de unión a ligando es estreptavidina. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios se selecciona para reflejar el contenido de GC de la primera secuencia objetivo. En algunos aspectos, al menos uno de dichos ácidos nucleicos es un ácido desoxirribonucleico. En algunos aspectos, al menos uno de dichos ácidos nucleicos es un ácido ribonucleico. En algunos aspectos, dicha muestra de ácido nucleico objetivo es ácido ribonucleico. En algunos aspectos, dicha primera molécula de ácido nucleico es una molécula de ácido desoxirribonucleico complementario generada a partir de dicho ácido ribonucleico. En algunos aspectos, dicha polimerasa de ácido nucleico es una ADN polimerasa dependiente de ARN. En algunos aspectos, dicho nucleótido es añadido por una enzima polimerasa de ácido nucleico que carece de actividad de desplazamiento de cadena. En algunos aspectos, dicha primera molécula de ácido nucleico es una molécula de ácido desoxirribonucleico complementario generada poniendo en contacto un primer cebador que comprende una secuencia de oligo(dT) con dicha muestra de ácido nucleico objetivo. En algunos aspectos, dicho ácido desoxirribonucleico se fragmenta en fragmentos mayores de 10 kilobases. En algunos aspectos, dichos métodos comprenden asignar todas las secuencias de un cóntigo dado que tienen el mismo marcador molecular a un cromosoma homólogo específico. En algunos aspectos, dicha segunda molécula de ácido nucleico se genera poniendo en contacto un segundo cebador que comprende una secuencia de oligonucleótidos específica de locus y una segunda secuencia de marcador molecular con dicha primera molécula de ácido nucleico.
Algunas realizaciones se refieren a composiciones. Algunos aspectos de estas realizaciones se refieren a composiciones que comprenden: una primera molécula de ácido nucleico que comprende una primera secuencia de marcador molecular y una primera secuencia objetivo que tiene una primera longitud; y un oligonucleótido que comprende una segunda secuencia de marcador molecular. En algunos aspectos, dicha primera molécula de ácido nucleico comprende un desoxinucleótido en posición 3'. En algunos aspectos, dicho desoxinucleótido en posición 3' es un didesoxinucleótido. En algunos aspectos, dicha primera molécula de ácido nucleico comprende una secuencia de adaptador ubicada en posición 5' con respecto a dicha primera secuencia de marcador molecular. En algunos aspectos, dicho primer adaptador comprende la SEQ ID NO: 1. En algunos aspectos, dicha primera molécula de ácido nucleico comprende un ligando molecular. En algunos aspectos, dicho ligando molecular comprende biotina. En algunos aspectos, dicha composición comprende un agente de unión a ligando. En algunos aspectos, dicho agente de unión a ligando comprende avidina. En algunos aspectos, dicho agente de unión a ligando comprende estreptavidina. En algunos aspectos, dichas composiciones comprenden nucleótidos no incorporados. En algunos aspectos, dichas composiciones comprenden desoxinucleótidos no incorporados. En algunos aspectos, dichas composiciones comprenden didesoxinucleótidos no incorporados. En algunos aspectos, dicha primera molécula de ácido nucleico se hibrida con dicho oligonucleótido que comprende una segunda secuencia de marcador molecular. En algunos aspectos, dicha primera molécula de ácido nucleico se hibrida totalmente con dicha segunda secuencia de marcador molecular de dicho oligonucleótido. En algunos aspectos, dicha primera molécula de ácido nucleico no se hibrida totalmente con dicha segunda secuencia de marcador molecular de dicho oligonucleótido. En algunos aspectos, dichas composiciones comprenden un tampón de lavado de agente de unión ligando-ligando. En algunos aspectos, dichas composiciones comprenden un tampón de lavado de biotina.
Algunas realizaciones se refieren a composiciones que comprenden una población de moléculas de ácido nucleico. Algunos aspectos de estas realizaciones se refieren a composiciones que comprenden una población de moléculas de ácido nucleico, en donde cada molécula de dicha población comprende independientemente: una primera cadena que comprende una primera secuencia de adaptador, una secuencia de marcador molecular y una secuencia objetivo independiente, en donde dicha secuencia objetivo independiente comprende un subconjunto de una secuencia de ácido nucleico de muestra y en donde al menos una primera molécula de dicha población comprende una secuencia objetivo independiente que comprende un primer subconjunto de dicha secuencia de ácido nucleico de muestra, y en donde al menos una segunda molécula de dicha población comprende una secuencia objetivo independiente que comprende un segundo subconjunto de dicha secuencia de ácido nucleico de muestra. En algunos aspectos, dicho adaptador de cada primera cadena de dicha población es idéntico. En algunos aspectos, dicha secuencia de marcador molecular de cada molécula de dicha población comprende al menos 6 bases de nucleótidos. En algunos aspectos, un primer miembro de dicha población y un segundo miembro de dicha población comprenden secuencias de marcadores moleculares no idénticas. En algunos aspectos, cada primera cadena comprende una base de 3'-desoxinucleótido en su extremo 3'. En algunos aspectos, cada primera cadena comprende un ligando molecular en su extremo 5'. En algunos aspectos, cada primera cadena comprende un ligando molecular unido en una posición no terminal. En algunos aspectos, cada primera cadena comprende un ligando molecular en su extremo 3'. En algunos aspectos, dicho ligando molecular es biotina. En algunos aspectos, cada molécula de dicha población comprende una segunda cadena que comprende: una segunda secuencia de adaptador y una segunda secuencia de marcador molecular. En algunos aspectos, dicha segunda cadena de al menos una molécula de dicha población se hibrida con una primera cadena a través del apareamiento de bases al menos parcial de una segunda secuencia de marcador molecular de dicha segunda cadena con la secuencia objetivo independiente de dicha primera cadena. En algunos aspectos, dicho adaptador de cada segunda cadena de dicha población es idéntico. En algunos aspectos, al menos una molécula de dicha población se une a un agente de unión a ligando molecular. En algunos aspectos, dicho agente de unión a ligando molecular comprende avidina. En algunos aspectos, dicho agente de unión a ligando molecular comprende estreptavidina. En algunos aspectos, dicha composición comprende trifosfatos de ácidos nucleicos no incorporados. En algunos aspectos, dicha composición comprende un tampón de lavado de agente de unión a ligando molecular. En algunos aspectos, dicha composición comprende un tampón de prolongación por polimerasa. En algunos aspectos, dicha composición comprende una polimerasa de ácido nucleico. En algunos aspectos, dicha composición comprende una polimerasa de ácido nucleico que posee actividad de helicasa de ácido nucleico. En algunos aspectos, dicha composición comprende una polimerasa de ácido nucleico que posee actividad de desplazamiento de cadena de ácido nucleico. En algunos aspectos, dicha composición comprende ácido nucleico que comprende la SEQ ID NO: 1 y la SEQ ID NO: 2.
Algunas realizaciones se refieren a bibliotecas de oligonucleótidos. Algunos aspectos de estas realizaciones se refieren a bibliotecas de oligonucleótidos que comprenden una pluralidad de moléculas de oligonucleótidos, en donde cada molécula de oligonucleótido comprende un sitio de unión de cebador donador ubicado en posición 5' con respecto a una secuencia de oligonucleótidos aleatorios y en donde dicha secuencia de oligonucleótidos aleatorios está ubicada en posición 3' con respecto al resto de la secuencia de dicha molécula de oligonucleótido. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 6 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 7 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 8 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 9 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 10 bases de nucleótidos. En algunos aspectos, dicho sitio de unión a cebador donador y dicha secuencia de oligonucleótidos aleatorios están separados por una secuencia de oligonucleótidos que comprende una etiqueta molecular. En algunos aspectos, dicha pluralidad de moléculas de oligonucleótidos comprende una primera molécula de oligonucleótido que tiene una primera secuencia de oligonucleótidos aleatorios y una segunda molécula de oligonucleótido que tiene una segunda secuencia de oligonucleótidos aleatorios. En algunos aspectos, para cada secuencia de oligonucleótidos aleatorios que comprende al menos una categoría de bases seleccionadas de la lista de las bases de ácidos nucleicos A, T, G y C, dicha pluralidad de moléculas de oligonucleótidos comprende al menos una molécula de oligonucleótido que tiene dicho octámero aleatorio. En algunos aspectos, todas las secuencias aleatorias se representan por al menos una molécula de oligonucleótido. En algunos aspectos, dicha biblioteca comprende oligonucleótidos. En algunos aspectos, cada molécula de oligonucleótido comprende una secuencia de etiqueta molecular. En algunos aspectos, dicha secuencia de etiqueta molecular se ubica entre dicho sitio de unión de cebador donador y dicha secuencia de oligonucleótidos aleatorios.
Algunas realizaciones se refieren a moléculas de polinucleótidos. Algunos aspectos de estas realizaciones se refieren a moléculas de polinucleótidos que comprenden un sitio de unión a cebador donador, una secuencia de oligonucleótidos aleatorios y una secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde. En algunos aspectos, dicha secuencia molde es una secuencia objetivo de secuenciación. En algunos aspectos, dicha secuencia molde es una secuencia de muestra humana. En algunos aspectos, dicha molécula de polinucleótido no se hibrida con dicha secuencia molde. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 6 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 7 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 8 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 9 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 10 bases de nucleótidos. En algunos aspectos, dicha secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde comprende un resto de didesoxi nucleótido ribosa 3' en su posición terminal 3'. En algunos aspectos, dicha posición terminal 3' comprende un marcador de biotina. En algunos aspectos, dicha secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde comprende un marcador de biotina. En algunos aspectos, dicho marcador de biotina se ubica en el extremo 3' de dicha molécula. En algunos aspectos, dicha molécula se una a estreptavidina. En algunos aspectos, dicha secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde comprende al menos 500 bases. En algunos aspectos, dicha secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde comprende al menos 100 bases. En algunos aspectos, dicho polinucleótido se suspende en un tampón de elución de biotina-estreptavidina.
Algunas realizaciones se refieren a moléculas de ácido nucleico. Algunos aspectos de estas realizaciones se refieren a moléculas de ácido nucleico que comprenden, de 5' a 3', una primera secuencia de adaptador específica del secuenciador, una secuencia de oligonucleótidos aleatorios, una secuencia objetivo, una primera secuencia de código de barras molecular y una segunda secuencia de adaptador específica del secuenciador. En algunos aspectos, dichas moléculas comprenden una segunda secuencia de código de barras molecular. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 6 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 7 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 8 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 9 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 10 bases de nucleótidos. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la pirosecuenciación. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la secuenciación por ligadura. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la síntesis usando nucleótidos modificados. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la secuenciación por tecnología de detección de iones. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la secuenciación por tecnología de nanobolas de ADN. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la tecnología de secuenciación basada en nanoporos.
Algunas realizaciones se refieren a métodos de identificación de secuencias de ácido nucleico amplificadas clonalmente. Algunos aspectos de estas realizaciones se refieren a métodos de identificación de secuencias de ácido nucleico amplificadas clonalmente, que comprenden las etapas de obtener una primera secuencia de ácido nucleico que comprende una primera secuencia de marcador molecular y una primera secuencia objetivo que tiene una primera longitud; obtener una segunda secuencia de ácido nucleico que comprenda una segunda secuencia de marcador molecular y una segunda secuencia objetivo que tiene una segunda longitud; y descartar dicha segunda secuencia de ácido nucleico si dicha segunda secuencia de ácido nucleico comprende una segunda secuencia de marcador molecular que es idéntica a dicha primera secuencia de marcador molecular, dicha segunda secuencia objetivo es idéntica a dicha primera secuencia objetivo y dicha segunda longitud de secuencia objetivo es idéntica a dicha primera longitud de secuencia objetivo. En algunos aspectos, dicha segunda secuencia de ácido nucleico comprende una segunda secuencia de marcador molecular que es idéntica a dicha primera secuencia de marcador molecular, dicha segunda secuencia objetivo es idéntica a dicha primera secuencia objetivo y dicha segunda longitud de secuencia objetivo es idéntica a dicha primera longitud de secuencia objetivo, entonces dicha segunda secuencia de ácido nucleico y dicha primera secuencia de ácido nucleico se relacionan por amplificación clonal. En algunos aspectos, dicha primera secuencia de ácido nucleico se genera a través de la hibridación de un primer cebador que comprende una primera secuencia de oligonucleótidos aleatorios. En algunos aspectos, dicha segunda secuencia de ácido nucleico se genera a través de la hibridación de un segundo cebador que comprende una segunda secuencia de oligonucleótidos aleatorios. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 6 bases de nucleótidos. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 7 bases de nucleótidos. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 8 bases de nucleótidos. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 9 bases de nucleótidos. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 10 bases de nucleótidos. En algunos aspectos, dicha primera secuencia objetivo se genera a través de un proceso que da como resultado una secuencia de longitud variable. En algunos aspectos, dicha primera secuencia objetivo se genera a través de la adición de al menos un nucleótido a dicha primera secuencia de oligonucleótidos aleatorios. En algunos aspectos, dicho nucleótido se selecciona de un conjunto que comprende desoxinucleótidos trifosfato y didesoxinucleótidos trifosfato. En algunos aspectos, dicho nucleótido es añadido por una enzima ADN polimerasa que carece de actividad de desplazamiento de cadena.
Algunas realizaciones se refieren a bibliotecas de oligonucleótidos. Algunos aspectos de estas realizaciones se refieren a bibliotecas de oligonucleótidos que comprenden una pluralidad de moléculas de oligonucleótidos, en donde cada molécula de oligonucleótido comprende un sitio de unión de cebador donador ubicado en posición 5' con respecto a una secuencia de oligonucleótidos aleatorios y en donde dicha secuencia de oligonucleótidos aleatorios está ubicada en posición 3' con respecto al resto de la secuencia de dicha molécula de oligonucleótido. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 6 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 7 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 8 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 9 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 10 bases de nucleótidos. En algunos aspectos, dicho sitio de unión a cebador donador y dicha secuencia de oligonucleótidos aleatorios están separados por una secuencia de oligonucleótidos que comprende una etiqueta molecular. En algunos aspectos, dicha pluralidad de moléculas de oligonucleótidos comprende una primera molécula de oligonucleótido que tiene una primera secuencia de oligonucleótidos aleatorios y una segunda molécula de oligonucleótido que tiene una segunda secuencia de oligonucleótidos aleatorios. En algunos aspectos, para cada secuencia de oligonucleótidos aleatorios que comprende al menos una categoría de bases seleccionadas de la lista de las bases de ácidos nucleicos A, T, G y C, dicha pluralidad de moléculas de oligonucleótidos comprende al menos una molécula de oligonucleótido que tiene dicho octámero aleatorio. En algunos aspectos, todas las secuencias aleatorias se representan por al menos una molécula de oligonucleótido. En algunos aspectos, dicha biblioteca comprende oligonucleótidos. En algunos aspectos, cada molécula de oligonucleótido comprende una secuencia de etiqueta molecular. En algunos aspectos, dicha secuencia de etiqueta molecular se ubica entre dicho sitio de unión de cebador donador y dicha secuencia de oligonucleótidos aleatorios.
Algunas realizaciones se refieren a moléculas de polinucleótidos. Algunos aspectos de estas realizaciones se refieren a moléculas de polinucleótidos que comprenden un sitio de unión a cebador donador, una secuencia de oligonucleótidos aleatorios y una secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde. En algunos aspectos, dicha secuencia molde es una secuencia objetivo de secuenciación. En algunos aspectos, dicha secuencia molde es una secuencia de muestra humana. En algunos aspectos, dicha molécula de polinucleótido no se hibrida con dicha secuencia molde. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 6 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 7 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 8 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 9 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 10 bases de nucleótidos. En algunos aspectos, dicha secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde comprende un resto de didesoxi nucleótido ribosa 3' en su posición terminal 3'. En algunos aspectos, dicha posición terminal 3' comprende un marcador de biotina. En algunos aspectos, dicha secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde comprende un marcador de biotina. En algunos aspectos, dicho marcador de biotina se ubica en el extremo 3' de dicha molécula. En algunos aspectos, dicha molécula se una a estreptavidina. En algunos aspectos, dicha secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde comprende al menos 500 bases. En algunos aspectos, dicha secuencia de polinucleótidos que es inversa-complementaria a una secuencia molde comprende al menos 100 bases. En algunos aspectos, dicho polinucleótido se suspende en un tampón de elución de biotina-estreptavidina.
Algunas realizaciones se refieren a moléculas de ácido nucleico. Algunos aspectos de estas realizaciones se refieren a moléculas de ácido nucleico que comprenden, de 5' a 3', una primera secuencia de adaptador específica del secuenciador, una secuencia de oligonucleótidos aleatorios, una secuencia objetivo, una primera secuencia de código de barras molecular y una segunda secuencia de adaptador específica del secuenciador. En algunos aspectos, dichas moléculas comprenden una segunda secuencia de código de barras molecular. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 6 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 7 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 8 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 9 bases de nucleótidos. En algunos aspectos, dicha secuencia de oligonucleótidos aleatorios consiste en 10 bases de nucleótidos. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la pirosecuenciación. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la secuenciación por ligadura. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la síntesis usando nucleótidos modificados. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la secuenciación por tecnología de detección de iones. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la secuenciación por tecnología de nanobolas de ADN. En algunos aspectos, dicha primera secuencia de adaptador específica del secuenciador y dicha segunda secuencia de adaptador específica del secuenciador son compatibles con la tecnología de secuenciación basada en nanoporos.
Algunas realizaciones se refieren a métodos de identificación de una secuencia de ácido nucleico amplificada clonalmente. Algunos aspectos de estas realizaciones se refieren a métodos de identificación de una secuencia de ácido nucleico amplificada clonalmente, que comprenden las etapas de obtener una primera secuencia de ácido nucleico que comprende una primera secuencia de marcador molecular y una primera secuencia objetivo que tiene una primera longitud; obtener una segunda secuencia de ácido nucleico que comprenda una segunda secuencia de marcador molecular y una segunda secuencia objetivo que tiene una segunda longitud; y descartar dicha segunda secuencia de ácido nucleico si dicha segunda secuencia de ácido nucleico comprende una segunda secuencia de marcador molecular que es idéntica a dicha primera secuencia de marcador molecular, dicha segunda secuencia objetivo es idéntica a dicha primera secuencia objetivo y dicha segunda longitud de secuencia objetivo es idéntica a dicha primera longitud de secuencia objetivo. En algunos aspectos, si dicha segunda secuencia de ácido nucleico comprende una segunda secuencia de marcador molecular que es idéntica a dicha primera secuencia de marcador molecular, dicha segunda secuencia objetivo es idéntica a dicha primera secuencia objetivo y dicha segunda longitud de secuencia objetivo es idéntica a dicha primera longitud de secuencia objetivo, entonces dicha segunda secuencia de ácido nucleico y dicha primera secuencia de ácido nucleico se relacionan por amplificación clonal. En algunos aspectos, dicha primera secuencia de ácido nucleico se genera a través de la hibridación de un primer cebador que comprende una primera secuencia de oligonucleótidos aleatorios. En algunos aspectos, dicha segunda secuencia de ácido nucleico se genera a través de la hibridación de un segundo cebador que comprende una segunda secuencia de oligonucleótidos aleatorios. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 6 bases de nucleótidos. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 7 bases de nucleótidos. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 8 bases de nucleótidos. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 9 bases de nucleótidos. En algunos aspectos, cada una de dicha primera secuencia de oligonucleótidos aleatorios y dicha segunda secuencia de oligonucleótidos aleatorios consiste en 10 bases de nucleótidos. En algunos aspectos, dicha primera secuencia objetivo se genera a través de un proceso que da como resultado una secuencia de longitud variable. En algunos aspectos, dicha primera secuencia objetivo se genera a través de la adición de al menos un nucleótido a dicha primera secuencia de oligonucleótidos aleatorios. En algunos aspectos, dicho nucleótido se selecciona de un conjunto que comprende desoxinucleótidos trifosfato y didesoxinucleótidos trifosfato. En algunos aspectos, dicho nucleótido es añadido por una enzima ADN polimerasa que carece de actividad de desplazamiento de cadena.
Algunas realizaciones que se desvelan en el presente documento comprenden una biblioteca de ácidos nucleicos. En algunos casos, una biblioteca de ácidos nucleicos comprende al menos 100 ácidos nucleicos de biblioteca, comprendiendo cada ácido nucleico de biblioteca una primera región de marcador que comprende una primera secuencia de marcador idéntica a una primera secuencia en una población de oligonucleótidos de secuencia de marcador, una región de inserto de muestra que tiene una longitud determinada independientemente y una secuencia de inserto de muestra que corresponde a un subconjunto contiguo de una secuencia de ácido nucleico de muestra; una segunda región de marcador que comprende una segunda secuencia de marcador idéntica a una segunda secuencia en una población de oligonucleótidos de secuencia de marcador, en donde la primera secuencia de marcador, la longitud de la región de inserción de muestra y la segunda secuencia de marcador varían independientemente entre cada ácido nucleico de biblioteca de dicha biblioteca. En algunos casos, cada primera región de marcador comprende al menos 6, 7, 8, 9 o 10 ácidos nucleicos. En algunos casos, cada segunda región de marcador comprende al menos 6, 7, 8, 9 o 10 ácidos nucleicos. En algunos casos, cada ácido nucleico de biblioteca comprende un primer adaptador de secuenciación y un segundo adaptador de secuenciación. En algunas realizaciones, la secuencia de ácido nucleico de muestra comprende una secuencia genómica humana, eucariota, procariota o vírica. En algunos casos, la secuencia de ácido nucleico de muestra comprende una secuencia de transcrito de ADNc. En algunos casos, la secuencia de ácido nucleico de muestra comprende la secuencia genómica de un paciente sospechoso de albergar una enfermedad codificada genómicamente, tal como una enfermedad codificada genómicamente asociada a la variación de longitud de la región de repetición genómica, una enfermedad codificada genómicamente asociada a la duplicación de una región genómica, una enfermedad codificada genómicamente asociada a la supresión de una región genómica, una enfermedad codificada genómicamente asociada a una mutación puntual o una enfermedad codificada genómicamente asociada a una variación de longitud de la región de repetición genómica. En algunos casos, la biblioteca de ácidos nucleicos comprende al menos 1.000 ácidos nucleicos de biblioteca, al menos 10.000 ácidos nucleicos de biblioteca, al menos 100.000 ácidos nucleicos de biblioteca o al menos 1.000.000 de ácidos nucleicos de biblioteca. En algunos casos, la biblioteca de ácidos nucleicos comprende el 100 %, el 99 %, el 98 %, el 97 %, el 96 %, el 95 %, el 94 %, el 93 %, el 92 %, el 91 %, el 90 %, el 85 %, el 80 % o el 75 % de una secuencia de ácido nucleico de muestra distribuida en la secuencia de inserción de muestra de los ácidos nucleicos de biblioteca de la biblioteca. En algunos casos, la biblioteca de ácidos nucleicos se secuencia. En algunos casos, la biblioteca está contenida en un solo volumen, está contenida en un solo tubo o está contenida en un solo pocillo.
Algunas realizaciones que se desvelan en el presente documento comprenden una biblioteca de ácidos nucleicos representativa de una secuencia de ácido nucleico de muestra. En algunos casos, esta biblioteca de ácidos nucleicos representativa de una secuencia de ácido nucleico de muestra es una biblioteca que comprende una pluralidad de ácidos nucleicos de biblioteca, comprendiendo cada ácido nucleico de biblioteca una primera región de marcador que comprende una primera secuencia de marcador, una región de inserto de muestra que tiene una longitud determinada independientemente y una secuencia de inserto de muestra que corresponde a un fragmento de una secuencia de ácido nucleico de muestra, y una segunda región de marcador que comprende una segunda secuencia de marcador, en donde la primera secuencia de marcador y la longitud de la región de inserto de muestra varían independientemente entre dichos ácidos nucleicos de biblioteca, y en donde la primera secuencia de marcador no aparece adyacente a la región de inserto de muestra en la secuencia de muestra objetivo. En algunos casos, la segunda secuencia de marcador no aparece adyacente a la región de secuencia objetivo en la secuencia de muestra objetivo. En algunos casos, la segunda secuencia de marcador varía independientemente entre dichos ácidos nucleicos de biblioteca. En algunos casos, la segunda secuencia de marcador comprende una secuencia de ácido nucleico adyacente a una región de interés. En algunos casos, cada segunda región de marcador comprende al menos 20 bases. En algunos casos, cada segunda región de marcador comprende al menos 225 bases. En algunos casos, cada primera región de marcador comprende al menos 6, 7, 8, 9 o 10 ácidos nucleicos. En algunos casos, cada segunda región de marcador comprende al menos 6, 7, 8, 9 o 10 ácidos nucleicos. En algunos casos, cada ácido nucleico de biblioteca comprende un primer adaptador de secuenciación y un segundo adaptador de secuenciación. En algunas realizaciones, la secuencia de ácido nucleico de muestra comprende una secuencia genómica humana, eucariota, procariota o vírica. En algunos casos, la secuencia de ácido nucleico de muestra comprende una secuencia de transcrito de ADNc. En algunos casos, la secuencia de ácido nucleico de muestra comprende la secuencia genómica de un paciente sospechoso de albergar una enfermedad codificada genómicamente, tal como una enfermedad codificada genómicamente asociada a la variación de longitud de la región de repetición genómica, una enfermedad codificada genómicamente asociada a la duplicación de una región genómica, una enfermedad codificada genómicamente asociada a la supresión de una región genómica, una enfermedad codificada genómicamente asociada a una mutación puntual o una enfermedad codificada genómicamente asociada a una variación de longitud de la región de repetición genómica. En algunos casos, la biblioteca de ácidos nucleicos comprende al menos 1.000 ácidos nucleicos de biblioteca, al menos 10.000 ácidos nucleicos de biblioteca, al menos 100.000 ácidos nucleicos de biblioteca o al menos 1.000.000 de ácidos nucleicos de biblioteca. En algunos casos, la biblioteca de ácidos nucleicos comprende el 100 %, el 99 %, el 98 %, el 97 %, el 96 %, el 95 %, el 94 %, el 93 %, el 92 %, el 91 %, el 90 %, el 85 %, el 80 % o el 75 % de una secuencia de ácido nucleico de muestra distribuida en la secuencia de inserción de muestra de los ácidos nucleicos de biblioteca de la biblioteca. En algunos casos, la biblioteca de ácidos nucleicos se secuencia. En algunos casos, la biblioteca está contenida en un solo volumen, está contenida en un solo tubo o está contenida en un solo pocillo.
Algunas realizaciones que se desvelan en el presente documento comprenden una composición que comprende una primera cadena de ácido nucleico que comprende una secuencia en posición 5' que comprende al menos 6 bases de secuencia indeterminada, una secuencia 3' que comprende un fragmento de una secuencia de muestra de ácido nucleico, un extremo terminal 3' que no puede soportar la prolongación de cadena y al menos un marcador de afinidad, una segunda cadena de ácido nucleico que comprende un oligo de segunda cadena de secuencia intermedia, en donde la segunda cadena de ácido nucleico se hibrida con la primera cadena de ácido nucleico. En algunos casos, la secuencia de la primera cadena nucleica no está presente en la secuencia de muestra de ácido nucleico. En algunos casos, la secuencia de la primera cadena de ácido nucleico comprende una secuencia en posición 5' de al menos 8 bases de secuencia indeterminada. En algunos casos, la secuencia de la segunda cadena de ácido nucleico no está presente en la secuencia de muestra de ácido nucleico. En algunos casos, la secuencia de la segunda cadena de ácido nucleico está presente en la secuencia de muestra de ácido nucleico. En algunos casos, el marcador de afinidad se une en la posición terminal 3' de la primera cadena de ácido nucleico. En algunos casos, el marcador de afinidad comprende biotina. En algunos casos, el marcador de afinidad comprende biotina y el marcador de afinidad se une a la posición terminal 3' de la primera cadena de ácido nucleico. En algunos casos, la primera cadena de ácido nucleico comprende un di-desoxi nucleósido 3'. En algunos casos, la primera cadena de ácido nucleico se termina por la incorporación de un ddNTP en la posición terminal 3' tal como un ddNTP marcado con biotina en la posición terminal 3'. En algunos casos, la composición comprende un agente de unión unido al marcador de afinidad. En algunos casos, la composición comprende un resto de estreptavidina unido al marcador de afinidad. En algunos casos, el marcador de afinidad comprende biotina unida a un resto didesoxi en el extremo 3' de la primera cadena de ácido nucleico, en donde la biotina se une a un resto de estreptavidina. En algunos casos, la composición comprende una mezcla de prolongación de ácido nucleico. En algunos casos, la composición comprende una ADN polimerasa que tiene actividad de desplazamiento de cadena, una ADN polimerasa que tiene actividad termoestable hasta al menos 95 °C o una ADN polimerasa capaz de incorporar un ddNTP etiquetado con biotina en el extremo 3' de un ácido nucleico de prolongación. En algunos casos, la composición comprende SEQUENASE (Amersham Biosciences) o THERMOSEQUENASE (Amersham Biosciences).
Una biblioteca de ácidos nucleicos marcados puede obtenerse mediante métodos coherentes con la divulgación. En algunos casos, un método de generación de una biblioteca de ácidos nucleicos marcados comprende las etapas de hibridar una primera población de oligos con un molde de biblioteca, realizar la prolongación de ácido nucleico dirigida por molde de biblioteca a partir de la primera población de oligos hibridados, marcar por afinidad los primeros productos de prolongación, terminar la prolongación de ácido nucleico dirigida por molde de biblioteca para producir una población de primeros productos de prolongación de longitud indeterminada, añadir una segunda secuencia de oligos cerca del extremo 3' del primer producto de prolongación, de manera que se genere una biblioteca marcada de moléculas de ácido nucleico que comprenda ácidos nucleicos que comprenda cada uno independientemente una primera secuencia de oligos, una secuencia de ácido nucleico derivada de molde de longitud indeterminada y una segunda secuencia de oligos. En algunos casos, el primer oligo proviene de una primera población de oligos aleatorios. En algunos casos, el segundo oligo proviene de una segunda población de oligos aleatorios. En algunos casos, la prolongación de ácido nucleico dirigida por molde de biblioteca comprende la incorporación de un marcador de afinidad en dicho primer producto de prolongación. En algunos casos, la terminación de la prolongación de ácido nucleico dirigida por molde de biblioteca comprende la incorporación de un ddNTP, la incorporación de un ddNTP que comprende un marcador de afinidad o la incorporación de un ddNTP marcado con biotina. En algunos casos, el primer producto de prolongación se purifica por afinidad. En algunos casos, la adición de una segunda secuencia de oligos cerca del extremo 3' del primer producto de prolongación comprende hibridar una población de oligos que comprenden dicha segunda secuencia de oligos con dicho primer producto de prolongación y poner en contacto la composición con un cóctel de prolongación de ácido nucleico que comprende una ADN polimerasa que tiene actividad de desplazamiento de cadena para formar un segundo producto de prolongación hibridado con el primer producto de prolongación. En algunos casos, la ADN polimerasa tiene una actividad termoestable de hasta al menos 95 °C. En algunos casos, la adición de una segunda prolongación de secuencia de oligos se realiza en un primer producto de prolongación unido a un marcador de afinidad para formar un segundo producto de prolongación. En algunos casos, los métodos comprenden lavar el complejo unido al marcador de afinidad que comprende el primer producto de prolongación y el segundo producto de prolongación. En algunos casos, el método se realiza en un solo tubo y se completa en 7 horas, en 2 horas o en 1 hora. En algunos casos, los métodos comprenden secuenciar al menos un miembro de la biblioteca etiquetada. En algunos casos, el molde de biblioteca comprende ADN genómico o ARN mensajero. En algunos casos, los métodos comprenden secuenciar la biblioteca.
Una biblioteca de ácidos nucleicos etiquetados puede obtenerse mediante métodos coherentes con la divulgación. En algunos casos, un método de generación de una biblioteca de ácidos nucleicos etiquetados comprende las etapas de poner en contacto un molde de biblioteca desnaturalizado con una primera población de oligos, una mezcla de prolongación que comprende dNTP y ddNTP etiquetado con biotina, y una a Dn polimerasa termoestable de baja procesabilidad para formar una composición de primera cadena, incubar la composición de primera cadena en una incubadora de gradiente de temperatura, de manera que dicha composición de primera cadena se someta a una rampa de temperatura de una temperatura de hibridación a una temperatura de desnaturalización de la primera población de oligos, poner en contacto dicha composición de primera cadena con al menos un resto de estreptavidina, poner en contacto dicha composición de primera cadena unida con una segunda población de oligos, una mezcla de prolongación que comprende dNTP y una ADN polimerasa de desplazamiento de cadena, para formar una segunda composición de cadena, incubar dicha segunda composición de cadena a una temperatura de hibridación, incubar dicha segunda composición de cadena a una temperatura de prolongación, poner en contacto dicha segunda composición de cadena con una composición de amplificación de PCR que comprende un primer cebador que comprende una primera secuencia de adaptador de secuenciación y una secuencia complementaria a una región de dicha primera población de oligos aleatorios, un segundo cebador que comprende una segunda secuencia de adaptador de secuenciación y una secuencia complementaria a una región de dicha segunda población de oligos aleatorios para formar una composición de PCR, y someter la composición de amplificación de PCR y la segunda composición de cadena a las condiciones de termociclado de amplificación de PCR. En algunos casos, la ADN polimerasa es capaz de incorporar un ddNTP etiquetado con biotina en el extremo 3' de un ácido nucleico de prolongación. En algunos casos, la temperatura de hibridación y la temperatura de prolongación son diferentes. En algunos casos, la temperatura de hibridación y la temperatura de prolongación son iguales. En algunos casos, la primera población de oligos comprende oligonucleótidos que tienen secuencias determinadas aleatoriamente. En algunos casos, la segunda población de oligos comprende oligonucleótidos que tienen secuencias determinadas aleatoriamente. En algunos casos, la segunda población de oligos comprende oligonucleótidos que tienen determinadas secuencias seleccionadas para hibridarse son una secuencia objetivo. En algunos casos, el método se realiza en un solo tubo. En algunos casos, el método se completa en 7 horas, en 2 horas o en 1 hora. En algunos casos, el método comprende secuenciar al menos un miembro de la biblioteca de ácidos nucleicos etiquetados.
Una muestra de ácido nucleico puede fragmentarse en componentes de biblioteca mediante métodos coherentes con la presente divulgación. En algunos casos, un método de fragmentación de una muestra de ácido nucleico en componentes de biblioteca adecuados para la secuenciación comprende las etapas de poner en contacto la muestra de ácido nucleico con una población de oligonucleótidos, una ADN polimerasa, dNTP, un tampón adecuado para la prolongación de ácido nucleico, un marcador de afinidad y un resto de terminación de prolongación de cadena de ácido nucleico, proporcionar condiciones adecuadas para la hibridación y la prolongación de ácido nucleico, poner en contacto la muestra de ácido nucleico con un resto de unión al marcador de afinidad y separar los componentes unidos de los no unidos, en donde los componentes unidos comprenden constituyentes de biblioteca adecuados para la secuenciación. En algunos casos, el marcador de afinidad es un NTP marcado con biotina, un dNTP marcado con biotina o un ddNTP marcado con biotina. En algunos casos, el resto de terminación de prolongación de cadena de ácido nucleico es un ddNTP marcado con biotina. En algunos casos, la ADN polimerasa tiene actividad de desplazamiento de cadena. En algunos casos, la ADN polimerasa tiene una actividad termoestable de hasta al menos 95 °C. En algunos casos, la ADN polimerasa es capaz de incorporar un ddNTP etiquetado con biotina en el extremo 3' de un ácido nucleico de prolongación. En algunos casos, la ADN polimerasa es SEQUENASE (Amersham Biosciences) o THERMOSEQUENASE (Amersham Biosciences). En algunos casos, la muestra de ácido nucleico no se somete a condiciones suficientes para romper una cantidad sustancial de enlaces covalentes en la muestra. En algunos casos, los componentes de biblioteca se aíslan sin fraccionamiento por tamaño, electroforesis o purificación en columna. En algunos casos, la prolongación de ácido nucleico comprende la incorporación de al menos 100 bases o al menos 200 bases. En algunos casos, la prolongación de ácido nucleico comprende la incorporación de hasta 4 kb o hasta 5 kb. En algunos casos, el método se completa en un solo tubo. En algunos casos, el método se completa en 7 horas, en 2 horas o en 1 hora. En algunos casos, el 100 % de la muestra de ácido nucleico está representado en la secuencia de los componentes de biblioteca. En algunos casos, el 99 %, el 98 %, el 97 %, el 96 %, el 95 %, el 94 %, el 93 %, el 92 %, el 91 %, el 90 %, el 85 %, el 80 % o el 75 % de la muestra de ácido nucleico está representado en la secuencia de los componentes de biblioteca. En algunos casos, el método comprende secuenciar al menos uno de los componentes de biblioteca.
Pueden generarse fragmentos marcados de una muestra de ácido nucleico de forma coherente con los métodos desvelados. En algunos casos, un método de generación de fragmentos marcados de una muestra de ácido nucleico comprende las etapas de poner en contacto la muestra de ácido nucleico con una biblioteca de oligonucleótidos que comprende un oligonucleótido que tiene una secuencia no idéntica a ninguna secuencia de la muestra de ácido nucleico y una composición de prolongación de ácido nucleico que comprende dNTP, un marcador de afinidad y una ADN polimerasa, para formar fragmentos marcados con oligos y marcados por afinidad de la muestra de ácido nucleico y purificar por afinidad los fragmentos marcados con oligos y marcados por afinidad de la muestra de ácido nucleico. En algunos casos, no se altera sustancialmente ningún enlace covalente de la muestra de ácido nucleico. En algunos casos, los fragmentos marcados con oligos y marcados por afinidad de la muestra de ácido nucleico no se someten a purificación en columna. En algunos casos, la composición de prolongación comprende al menos una especie de ddNTP. En algunos casos, la composición comprende solo una especie de ddNTP, tal como solo ddATP, solo ddGTP, solo ddCTP o solo ddGTP. Como alternativa, en algunos casos, la composición comprende una combinación de dos, tres o cuatro especies de ddNTP. En algunos casos, la composición comprende un ddNTP que comprende una base distinta de A, T, G o C, tal como ddUTP (uracilo), ddITP (inosina) u otra base. En algunos casos, la composición de prolongación comprende un dNTP marcado por afinidad o un ddNTP marcado por afinidad. En algunos casos, el método comprende poner en contacto los fragmentos marcados con oligos y marcados por afinidad de la muestra de ácido nucleico con al menos una perla de estreptavidina. En algunos casos, la ADN polimerasa tiene una actividad termoestable de desplazamiento de cadena de hasta al menos 95 °C o es capaz de incorporar un ddNTP etiquetado con biotina en el extremo 3' de un ácido nucleico de prolongación. En algunos casos, la ADN polimerasa es SEQUENASE (Amersham Biosciences) o THERMOSEQUENASE (Amersham Biosciences). En algunos casos, la prolongación de ácido nucleico comprende la incorporación de al menos 100 bases o al menos 200 bases. En algunos casos, la prolongación de ácido nucleico comprende la incorporación de hasta 4 kb o hasta 5 kb. En algunos casos, el método se completa en un solo tubo. En algunos casos, el método se completa en 7 horas, en 2 horas o en 1 hora. En algunos casos, el 100 % de la muestra de ácido nucleico está representado en la secuencia de los componentes de biblioteca. En algunos casos, el 99 %, el 98 %, el 97 %, el 96 %, el 95 %, el 94 %, el 93 %, el 92 %, el 91 %, el 90 %, el 85 %, el 80 % o el 75 % de la muestra de ácido nucleico está representado en la secuencia de los componentes de biblioteca. En algunos casos, el método comprende secuenciar al menos uno de los fragmentos marcados.
Puede generarse de forma coherente con los métodos desvelados un conjunto de datos que comprende secuencias de moléculas de ácido nucleico marcadas no idénticas que comprenden cada una un subconjunto de secuencias de una muestra de ácido nucleico. En algunos casos, un método de generación de un conjunto de datos almacenado en ordenador que comprende al menos 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10.000, 20.000, 30.000, 40.000, 50.000, 60.000, 70.000, 80.000, 90.000, 100.000 o más de 100.000 secuencias de moléculas de ácido nucleico marcadas no idénticas que comprenden cada una un subconjunto de secuencias de una muestra de ácido nucleico, comprende almacenar en un ordenador una primera secuencia de moléculas de ácido nucleico que comprende una primera secuencia de marcador molecular en posición 5', una primera secuencia de inserción que tiene una primera longitud de dicha muestra de ácido nucleico y una primera secuencia de marcador molecular en posición 3', almacenar en un ordenador una segunda secuencia de molécula de ácido nucleico que comprende una segunda secuencia de marcador molecular en posición 5', una segunda secuencia de inserción que tiene una segunda longitud y una segunda secuencia de marcador molecular en posición 3', y excluir de dicho conjunto de datos dicha segunda secuencia de molécula de ácido nucleico bicatenario si: dicha primera secuencia de marcador molecular en posición 5' es idéntica a dicha segunda secuencia de marcador molecular en posición 5'; dicha primera secuencia de marcador molecular en posición 3' es idéntica a dicha segunda secuencia de marcador molecular en posición 3'; dicha segunda secuencia de inserción es idéntica a dicha primera secuencia de inserción; y dicha segunda longitud de secuencia objetivo es idéntica a dicha primera longitud de secuencia objetivo. En algunos casos, el método comprende descartar la segunda molécula de ácido nucleico bicatenario si la segunda secuencia objetivo difiere de la primera secuencia en no más de cinco bases. En algunos casos, el método comprende descartar la segunda molécula de ácido nucleico bicatenario si la segunda secuencia objetivo difiere de la primera secuencia en no más de una base por cada cien bases de inserción. En algunos casos, el método comprende descartar la segunda molécula de ácido nucleico bicatenario si la segunda secuencia objetivo difiere de la primera secuencia por la presencia de una supresión y la segunda secuencia objetivo es más corta que la primera longitud de secuencia objetivo en la longitud de la supresión. En algunos casos, el método comprende descartar la segunda molécula de ácido nucleico bicatenario si la segunda secuencia objetivo difiere de la primera secuencia por la presencia de una inserción y la segunda secuencia objetivo es más larga que la primera secuencia objetivo en la longitud de la inserción.
Una muestra de ácido nucleico puede incluirse en una biblioteca de forma coherente con los métodos desvelados. En algunos casos, un método de inclusión en biblioteca de una muestra de ácido nucleico comprende las etapas de poner en contacto una primera población de oligos con la muestra de ácido nucleico en condiciones suficientes para permitir la hibridación de al menos algunos miembros de la primera población de oligos con la muestra de ácido nucleico, realizar una primera prolongación de ácido nucleico dirigida por la muestra a partir de miembros hibridados de la primera población de oligos para producir una población de primeros productos de prolongación que tienen un número indeterminado de bases complementarias con dicho molde incorporado en la misma, marcar por afinidad la población de productos de primera prolongación, terminar la prolongación de ácido nucleico dirigida por molde de muestra para formar una biblioteca de primera cadena y purificar por afinidad la biblioteca de primera cadena. En algunos casos, las condiciones suficientes para permitir la hibridación de al menos algunos miembros de la primera población de oligos con la muestra de ácido nucleico son suficientes para permitir una hibridación no específica sustancial. En algunos casos, las condiciones suficientes para impedir la hibridación de al menos algunos miembros de la primera población de oligos con la muestra de ácido nucleico son suficientes para prohibir una hibridación no específica sustancial. En algunos casos, la realización de una primera prolongación de ácido nucleico dirigida por la muestra de ácido nucleico comprende el contacto con una enzima polimerizadora de nucleótidos capaz de incorporar ddNTP o un ddNTP marcado por afinidad en una cadena de ácido nucleico de prolongación. En algunos casos, el marcador de afinidad es biotina. En algunos casos, la realización de una primera prolongación de ácido nucleico dirigida por la muestra de ácido nucleico comprende el contacto con una enzima polimerizadora de nucleótidos capaz de un ddNTP marcado por afinidad en una cadena de ácido nucleico de prolongación. En algunos casos, la realización de una primera prolongación de ácido nucleico dirigida por la muestra de ácido nucleico comprende el contacto con una enzima polimerizadora de nucleótidos capaz de un ddNTP marcado con biotina en una cadena de ácido nucleico de prolongación. En algunos casos, el método comprende poner en contacto la biblioteca de primera cadena con una segunda población de oligos en condiciones suficientes para permitir la hibridación aleatoria de al menos algunos miembros de la segunda población de oligos con la biblioteca de primera cadena y realizar una segunda prolongación de ácido nucleico dirigida por la primera cadena a partir de miembros hibridados de la segunda población de oligos para producir una biblioteca de moléculas de ácido nucleico que comprenda una primera región de oligos, una región de longitud indeterminada que comprende la secuencia de la muestra de ácido nucleico y una segunda región de oligos. En algunos casos, el método comprende añadir un cebador de secuenciación a cada extremo de al menos algunas moléculas de la biblioteca de moléculas de ácido nucleico. En algunos casos, el método comprende secuenciar la biblioteca de moléculas de ácido nucleico para formar un conjunto de datos de secuencia de biblioteca. En algunos casos, el método comprende excluir del conjunto de datos una secuencia cualquiera de un par de secuencias de moléculas de biblioteca que comparten una primera secuencia de oligos idénticos, una segunda secuencia de oligos idénticos y una secuencia de muestra de ácido nucleico de longitud idéntica. En algunos casos, el número de moléculas de biblioteca secuenciadas que tienen una primera secuencia de muestra de ácido nucleico corresponde al número de moléculas que tienen la primera secuencia de ácido nucleico en la muestra de ácido nucleico. En algunos casos, la muestra de ácido nucleico comprende una secuencia de ARN o una secuencia de ARN mensajero. En algunos casos, la muestra de ácido nucleico se obtiene de una población de 100 células, 50 células, 20 células, 10 células, 5 células o una sola célula. En algunos casos, la muestra de ácido nucleico comprende una secuencia repetitiva. En algunos casos, el método comprende poner en contacto la biblioteca de primera cadena con una segunda población de oligos en condiciones suficientes para permitir la hibridación de cualesquier miembros de la segunda población de oligos con la biblioteca de primera cadena solo si los oligos son complementos inversos de la biblioteca de primera cadena en las bases hibridadas y realizar una segunda prolongación de ácido nucleico dirigida por la primera cadena a partir de miembros hibridados de la segunda población de oligos para producir una primera biblioteca de moléculas de ácido nucleico que comprenden una primera región de oligos y una región de longitud indeterminada que comprende la secuencia de la muestra de ácido nucleico. En algunos casos, el método comprende poner en contacto la primera biblioteca de moléculas de ácido nucleico con una tercera población de oligos que comprende una secuencia idéntica a una región de adaptador en posición 3' de la primera población de oligos y una cuarta población de oligos que comprende una secuencia idéntica a la primera secuencia de biblioteca interior con respecto a un segundo sitio de hibridación de cebador, en condiciones suficientes para permitir la hibridación de cualesquiera miembros de la cuarta población de oligos con la biblioteca de primera cadena solo si los oligos son complementos inversos de la biblioteca de primera cadena en las bases hibridadas. En algunos casos, el método comprende someter la tercera población de oligonucleótidos, la cuarta población de oligonucleótidos y la primera biblioteca a amplificación por reacción en cadena de la polimerasa para formar una segunda biblioteca. En algunos casos, el método comprende secuenciar la segunda biblioteca.
Breve descripción de los dibujos
Las nuevas características de la invención se exponen con particularidad en las reivindicaciones adjuntas. Se obtendrá una mejor comprensión de las características y ventajas de la presente invención haciendo referencia a la siguiente descripción detallada que expone realizaciones ilustrativas, en las que se usan los principios de la invención, y a los dibujos adjuntos de los cuales:
Las FIG. 1A-1G representan un esquema de la Preparación rápida de bibliotecas usando ADN genómico como la muestra de ácido nucleico objetivo. La FIG. 1A representa la Etapa 1, la FIG. 1B representa la Etapa 2, la FIG. 1C representa la Etapa 3, la FIG. 1D y la FIG. 1E representan la Etapa 4, la FIG. 1F representa la Etapa 5 y la FIG.
1G representa la molécula de biblioteca resultante lista para la secuenciación.
La FIG.2 representa una representación de la estructura de biblioteca de una molécula de ácido nucleico marcada que comprende un subconjunto de secuencia de una muestra de ácido nucleico objetivo.
Las FIG. 3A-D ilustran una vista general de la preparación de bibliotecas usando una diversidad de métodos. La FIG. 3A ilustra una Preparación rápida de bibliotecas (RLP, por sus siglas en inglés), la FIG. 3B ilustra una Preparación rápida de bibliotecas de ARN (R RLP), la FIG. 3C ilustra una Preparación rápida de bibliotecas de lectura larga (L_RLP) y la FIG. 3D ilustra una Preparación rápida de bibliotecas dirigida (T_RLP).
Las FIG. 4A-4B representan una comparación de la estructura de biblioteca de una molécula de ácido nucleico marcada de una diversidad de bibliotecas. La FIG. 4A representa una Preparación rápida de bibliotecas (RLP), la FIG. 4B representa una Preparación rápida de bibliotecas de ARN (R_RLP), la FIG. 4C representa una Preparación rápida de bibliotecas de lectura larga (L RLP) y la FIG. 4D representa una Preparación rápida de bibliotecas dirigida (T RLP).
Las FIG.5A-B ilustran una comparación de la uniformidad y el sesgo de guanina-citosina (GC) para dos bibliotecas. La FIG. 5A muestra una biblioteca de NEXTERA (lado izquierdo) y la FIG. 5B muestra una biblioteca de Preparación rápida de bibliotecas (lado derecho).
Las FIG. 6A-6B ilustran una comparación de la calidad de secuencia para dos bibliotecas. La FIG. 6A muestra una biblioteca de NEXTERA (lado izquierdo) y la FIG. 6B muestra una biblioteca de Preparación rápida de bibliotecas (lado derecho). La entrada fue de 1 ng de ADN con 12 ciclos de PCR para NEXTERA y 15 ciclos para la Preparación rápida de bibliotecas.
Las FIG. 7A-7B ilustran una comparación del contenido de guanina-citosina (GC) para dos bibliotecas. La FIG. 7A muestra una biblioteca de NEXTERA (lado izquierdo) y la FIG. 7B muestra una biblioteca de Preparación rápida de bibliotecas (lado derecho). La entrada fue de 1 ng de ADN con 12 ciclos de PCR para NEXTERA y 15 ciclos para la Preparación rápida de bibliotecas.
Las FIG. 8A-8B ilustran una comparación de la contribución de nucleótidos para dos bibliotecas. La FIG. 8A muestra una biblioteca de NEXTERa (lado izquierdo) y la FIG. 8B muestra una biblioteca de Preparación rápida de bibliotecas (lado derecho). La entrada fue de 1 ng de ADN con 12 ciclos de PCR para NEXTERA y 15 ciclos para la Preparación rápida de bibliotecas.
Las FIG. 9A-9E ilustran el efecto del número de ciclos usando 50 ng de ADN genómico humano (ADNg). La FIG.
9A muestra un aumento del número de fragmentos pequeños a medida que el número de ciclos aumenta a 15 ciclos de PCR. La FIG. 9B muestra la cantidad de producto de amplificación de calidad alta después de 6 ciclos de PCR. La FIG. 9C muestra la cantidad de producto de amplificación de calidad alta después de 9 ciclos de PCR. La FIG. 9D muestra la cantidad de producto de amplificación de calidad alta después de 12 ciclos de PCR. La FIG.
9E muestra la cantidad de producto de amplificación de calidad alta después de 15 ciclos de PCR.
Las FIG. 10A-10C ilustran la calidad de la amplificación para 250 células de una estirpe celular humana. La FIG 10A muestra la distribución de bases (panel izquierdo), la FIG. 10B muestra la calidad por ciclo (centro) y la FIG.
10C muestra el sesgo de GC (panel derecho).
La FIG. 11 ilustra el efecto de la concentración de ddNTP sobre la longitud del fragmento y el sesgo de AT. Las FIG. 12A-12F ilustran el efecto de la concentración de ddNTP sobre el rendimiento.
La FIG. 13 ilustra la posición de lectura para moléculas seleccionadas por tamaño (>750 pb - panel superior; >500 pb - panel central; >350 pb - panel inferior).
Las FIG. 14A-14B representan recuentos de lectura apareadas con una etiqueta dada con cero y un desapareamientos permitidos para 250 células y moléculas de 20 kb. La FIG. 14A muestra recuentos de lectura con 0 desapareamientos. La FIG. 14B muestra recuentos de lecturas con 1 desapareamiento.
Las FIG. 15A-15C muestran recuentos de lectura apareadas con una etiqueta dada con cero, uno y dos desapareamientos permitidos para 400 pg de entrada. La FIG. 15A muestra recuentos de lectura con 0 desapareamientos. La FIG. 15B muestra recuentos de lecturas con 1 desapareamiento. La FIG. 15C muestra recuentos de lecturas con 2 desapareamientos.
Las FIG. 16A-16B representan una secuenciación dirigida sensible a variantes de complejo.
Las FIG. 17A-17C representan un enfoque de PCR de cebado inverso. La FIG. 17A representa una pluralidad de moldes de primera cadena con o sin cebadores hibridados con ellos. La FIG. 17B representa dos cebadores hibridados con dos moldes de primera cadena, respectivamente. La FIG. 17C muestra una pluralidad de cebadores.
Las FIG. 18A-18B representan una reacción de PCR hemiespecífica, cebadores y producto. La FIG. 18A representa dos cebadores hibridados con un molde. La FIG. 18B muestra el producto de PCR amplificado.
La FIG. 19 proporciona un panel de riesgo de cáncer.
La FIG. 20 ilustra diversos componentes de un sistema informático de ejemplo de acuerdo con diversas realizaciones de la presente divulgación.
La FIG. 21 es un diagrama de bloques que ilustra la arquitectura de un sistema informático de ejemplo que se usa en relación con diversas realizaciones de la presente divulgación.
La FIG. 22 es un diagrama que ilustra una red informática de ejemplo que se usa en relación con diversas realizaciones de la presente divulgación.
La FIG. 23 es un diagrama de bloques que ilustra la arquitectura de otro sistema informático de ejemplo que se usa con respecto a diversas realizaciones de la presente divulgación.
La FIG.24 es una distribución de tamaños de inserto para una biblioteca generada contra una muestra de genoma humano.
La FIG. 25 es un gráfico de cobertura de bases para una biblioteca generada contra una muestra de genoma humano.
La FIG.26 es una distribución de tamaños de inserto para una biblioteca secundaria generada contra una muestra de genoma humano.
La FIG. 27 es un gráfico de cobertura de bases para una biblioteca secundaria generada contra una muestra de genoma humano.
Descripción detallada de la invención
La presente tecnología se refiere a métodos para secuenciar polímeros tales como ácidos nucleicos. En el presente documento se describen métodos y composiciones para generar una población de moléculas de ácido nucleico marcadas no idénticas, que comprenden, cada una, un subconjunto de secuencias de una muestra de ácido nucleico objetivo. Estos métodos y composiciones pueden permitir la secuenciación dirigida de moléculas de ácido nucleico, así como métodos de preparación y análisis de muestras para la secuenciación de novo para el ensamblaje de genomas y la expresión génica cuantitativa.
Definiciones
Una lista parcial de definiciones relevantes es la siguiente.
"Ácido nucleico amplificado" o "polinucleótido amplificado" es cualquier molécula de ácido nucleico o polinucleótido cuya cantidad ha aumentado al menos dos veces mediante cualquier método de amplificación o replicación de ácidos nucleicos realizado in vitro en comparación con su cantidad de partida. Por ejemplo, se obtiene un ácido nucleico amplificado a partir de una reacción en cadena de la polimerasa (PCR) que, en algunos casos, puede amplificar el ADN de manera exponencial (por ejemplo, amplificación a 2n copias en n ciclos). También puede obtenerse ácido nucleico amplificado a partir de una amplificación lineal.
"Producto de amplificación" puede referirse a un producto resultante de una reacción de amplificación tal como una reacción en cadena de la polimerasa.
Un "amplicón" es un polinucleótido o ácido nucleico que es la fuente y/o el producto de eventos de amplificación o replicación naturales o artificiales.
La expresión "muestra biológica" o "muestra" se refiere en general a una muestra o parte aislada de una entidad biológica. La muestra biológica puede mostrar la naturaleza del conjunto y los ejemplos incluyen, sin limitación, fluidos corporales, muestras de ensayo tumorales disociadas, células cultivadas y cualquier combinación de los mismos. Las muestras biológicas pueden proceder de uno o más individuos. Una o más muestras biológicas pueden proceder del mismo individuo. Un ejemplo no limitante sería si una muestra procediera de la sangre de un individuo y una segunda muestra procediera de la biopsia de un tumor de un individuo. Los ejemplos de muestras biológicas pueden incluir, pero sin limitación, sangre, suero, plasma, hisopo nasal o lavado nasofaríngeo, saliva, orina, fluido gástrico, líquido espinal, lágrimas, heces, mucosidad, sudor, cerumen, aceite, secreción glandular, líquido cefalorraquídeo, tejido, semen, fluido vaginal, fluidos intersticiales, incluyendo los fluidos intersticiales derivados del tejido tumoral, líquidos oculares, líquido espinal, frotis faríngeo, aire espirado, pelo, uñas de los dedos, piel, biopsia, líquido placentario, líquido amniótico, sangre del cordón umbilical, líquidos enfáticos, líquidos de cavidades, esputo, pus, microbiota, meconio, leche materna y/u otras excreciones. Las muestras pueden incluir un lavado nasofaríngeo. Los ejemplos de muestras de tejido del sujeto pueden incluir, pero sin limitación, tejido conectivo, tejido muscular, tejido nervioso, tejido epitelial, cartílago, muestra cancerosa o tumoral, o hueso. La muestra puede provenir de un ser humano o de un animal. La muestra puede provenir de un mamífero, que incluyen los vertebrados, tales como murinos, simios, seres humanos, animales de granja, animales de deporte o mascotas. La muestra puede recogerse de un sujeto vivo o muerto. La muestra puede recogerse en fresco de un sujeto o puede haber sido experimentado algún tipo de preprocesamiento, almacenamiento o transporte.
"Fluido corporal" en general puede describir un fluido o secreción que se origina en el cuerpo de un sujeto. En algunos casos, los fluidos corporales son una mezcla de más de un tipo de fluido corporal mezclados entre sí. Algunos ejemplos no limitantes de fluidos corporales son: sangre, orina, médula ósea, líquido espinal, líquido pleural, líquido linfático, líquido amniótico, ascitis, esputo o una combinación de los mismos.
"Complemento" o "complementariedad" pueden referirse a moléculas de ácido nucleico que están relacionadas por apareamiento de bases. Los nucleótidos complementarios son, generalmente, A y T (o A y U), o C y G (o G y U). Se dice que dos moléculas de ARN o ADN monocatenario son sustancialmente complementarias cuando los nucleótidos de una cadena, óptimamente alineados y con inserciones o supresiones de nucleótidos adecuadas, se aparean con una complementariedad de al menos aproximadamente el 90 % a aproximadamente el 95 %, y más preferentemente de aproximadamente el 98 % a aproximadamente el 100 %, y aún más preferentemente con una complementariedad del 100 %. Como alternativa, existe una complementariedad sustancial cuando una cadena de ARN o ADN se hibrida en condiciones de hibridación selectiva con su complemento. Las condiciones de hibridación selectiva incluyen, pero sin limitación, condiciones de hibridación estrictas. Las temperaturas de hibridación son en general de al menos aproximadamente 2 °C a aproximadamente 6 °C más bajas que las temperaturas de fusión (Tf).
Un "código de barras" o "código de barras molecular" es un material para el etiquetado. El código de barras puede etiquetar una molécula tal como un ácido nucleico o un polipéptido. El material para el etiquetado se asocia a información. Un código de barras se denomina identificador de secuencia (es decir, un código de barras basado en secuencia o índice de secuencia). Un código de barras es una secuencia de nucleótidos particular. Un código de barras se usa como identificador. Un código de barras es una molécula de diferente tamaño o diferentes puntos finales de la misma molécula. Los códigos de barras pueden incluir una secuencia específica dentro de la molécula y una secuencia final diferente. Por ejemplo, una molécula que se amplifica a partir del mismo cebador y tiene 25 posiciones de nucleótidos es diferente de una molécula que se amplifica y tiene 27 posiciones de nucleótidos. Las posiciones de adición en la secuencia de 27-meros se considera un código de barras. Un código de barras se incorpora en un polinucleótido. Un código de barras se incorpora en un polinucleótido mediante muchos métodos. Algunos métodos no limitantes para incorporar un código de barras pueden incluir métodos de biología molecular. Algunos ejemplos no limitantes de métodos de biología molecular para incorporar un código de barras son a través de cebadores (por ejemplo, elongación de cebadores de cola), sondas (es decir, elongación con ligadura a una sonda) o ligadura (es decir, ligadura de una secuencia conocida a una molécula).
Un código de barras se incorpora en cualquier región de un polinucleótido. La región es conocida. La región es desconocida. El código de barras se añade a cualquier posición a lo largo del polinucleótido. El código de barras se añade al extremo 5' de un polinucleótido. El código de barras se añade al extremo 3' del polinucleótido. El código de barras se añade entre los extremos 5' y 3' de un polinucleótido. Un código de barras se añade con una o más de otras secuencias conocidas. Un ejemplo no limitante es la adición de un código de barras con un adaptador de secuencia.
Los códigos de barras se asocian a información. Algunos ejemplos no limitantes del tipo de información a la que se asocia un código de barras incluyen: la fuente de una muestra; la orientación de una muestra; la región o el recipiente en el que se procesó una muestra; el polinucleótido adyacente; o cualquier combinación de los mismos.
En algunos casos, el código de barras se fabrica a partir de combinaciones de secuencias (diferente de la formación combinatoria de códigos de barras) y se usa para identificar una muestra o una coordenada genómica y una molécula de molde diferente o una sola cadena de las que se obtuvieron la etiqueta molecular y la copia de la cadena. En algunos casos, un identificador de muestra, una coordenada genómica y una etiqueta específica para cada molécula biológica pueden amplificarse entre sí. Los códigos de barras, los códigos de síntesis o la información de etiqueta también pueden obtenerse a partir del contexto de secuencia del código (lo que permite corregir errores), la longitud del código, la orientación del código, la posición del código dentro de la molécula y en combinación con otros códigos naturales o de síntesis.
Los códigos de barras se añaden antes de agrupar las muestras. Cuando se determinan las secuencias de las muestras agrupadas, el código de barras se secuencia junto con el resto del polinucleótido. El código de barras se usa para asociar el fragmento secuenciado con la fuente de la muestra.
También pueden usarse códigos de barras para identificar el encadenamiento de una muestra. Se usan uno o más códigos de barras juntos. Dos o más códigos de barras son adyacentes entre sí, no adyacentes entre sí o cualquier combinación de los mismos.
Se usan códigos de barras para el etiquetado combinatorio.
El "etiquetado combinado" es un método mediante el cual se usan dos o más códigos de barras para etiquetar. Los dos o más códigos de barras pueden etiquetar un polinucleótido. Los códigos de barras solos, cada uno, se asocian a información. La combinación de los códigos de barras entre sí se asocia a información. En algunos casos se usa una combinación de códigos de barras para determinar en una molécula amplificada aleatoriamente que la amplificación se produjo a partir del molde de muestra original y no de una copia de síntesis de ese molde. En algunos casos, la longitud de un código de barras en combinación con la secuencia de otro código de barras se usa para etiquetar un polinucleótido. En algunos casos, la longitud de un código de barras en combinación con la orientación de otro código de barras se usa para etiquetar un polinucleótido. En otros casos, la secuencia de un código de barras se usa con la orientación de otro código de barras para etiquetar un polinucleótido. En algunos casos, la secuencia de un primer y un segundo código de barras, en combinación con la distancia en nucleótidos entre ellos, se usa para etiquetar o para identificar un polinucleótido.
"Degenerado" puede referirse a un ácido nucleico o a una región de ácido nucleico que se compone de bases aleatorias. Los términos "degenerado" y "aleatorio" se usan indistintamente cuando se refieren a secuencias de ácidos nucleicos (por ejemplo, "cebadores degenerados" o "cebadores aleatorios" o "sondas degeneradas" o "sondas aleatorias"). La región degenerada es de longitud variable. La región degenerada puede comprender alguna porción del ácido nucleico completo (por ejemplo, un cebador semidegenerado). La región degenerada puede comprender el ácido nucleico completo (por ejemplo, un "cebador degenerado"). Una mezcla de ácidos nucleicos degenerados o una mezcla de ácidos nucleicos semidegenerados puede componerse de todas las combinaciones posibles de pares de bases, menos de todas las combinaciones posibles de pares de bases o alguna combinación de pares de bases, unas pocas combinaciones de pares de bases o una sola combinación de pares de bases. Una mezcla de cebadores degenerados o una mezcla de cebadores semidegenerados puede comprender mezclas de cebadores similares pero no idénticos.
"Bicatenario" puede referirse a dos cadenas de polinucleótidos que se han hibridado a través de apareamiento de bases complementarias.
"Secuencia de oligonucleótidos conocida" o "oligonucleótido conocido" o "secuencia conocida" pueden referirse a una secuencia de polinucleótidos que se conoce. Una secuencia de oligonucleótidos conocida puede corresponder a un oligonucleótido que se ha diseñado, por ejemplo, un cebador universal para plataformas de secuenciación de nueva generación (por ejemplo, Illumina, 454), una sonda, un adaptador, un marcador, un cebador, una secuencia de código de barras molecular, un identificador. Una secuencia conocida puede comprender parte de un cebador. Un usuario particular puede no conocer realmente una secuencia de oligonucleótidos conocida, pero puede conocerla constructivamente, por ejemplo, por su almacenamiento como datos a los que se puede acceder mediante un ordenador. Una secuencia conocida también puede ser un secreto comercial que en realidad es desconocido o un secreto para uno o más usuarios, pero puede ser conocido por la entidad que ha diseñado un componente particular del experimento, kit, aparato o software que el usuario está usando.
"Biblioteca" puede referirse a una colección de ácidos nucleicos. Una biblioteca puede contener uno o más fragmentos objetivo. En algunos casos, los fragmentos objetivo son ácidos nucleicos amplificados. En otros casos, los fragmentos objetivo son un ácido nucleico que no se amplifica. Una biblioteca puede contener un ácido nucleico que tenga una o más secuencias de oligonucleótidos conocidas añadidas al extremo 3', el extremo 5' o ambos extremos 3' y 5'. La biblioteca puede prepararse de manera que los fragmentos puedan contener una secuencia de oligonucleótidos conocida que identifique la fuente de la biblioteca (por ejemplo, un código de barras de identificación molecular que identifique a un paciente o una fuente de ADN). En algunos casos, se agrupan dos o más bibliotecas para crear un conjunto de bibliotecas. Las bibliotecas también pueden generarse con otros kits y técnicas tales como el etiquetado mediado por transposones o "marcaje-fragmentación (tagmentation)" como se conoce en la técnica. Los kits pueden estar disponibles en el mercado, tales como el kit Illumina NEXTERA (Illumina, San Diego, CA).
"Locus específico" o "loci específicos" pueden referirse a uno o más loci correspondientes a una ubicación en una molécula de ácido nucleico (por ejemplo, una ubicación dentro de un cromosoma o genoma). En algunos casos, un locus se asocia al genotipo. En algunos casos, los loci pueden aislarse y enriquecerse directamente de la muestra, por ejemplo, basándose en la hibridación y/u otras técnicas basadas en secuencia, o pueden amplificarse selectivamente usando la muestra como molde antes de la detección de la secuencia. En algunos casos, los loci pueden seleccionarse sobre la base de la variación del nivel de ADN entre individuos, basándose en la especificidad para un cromosoma particular, basándose en el contenido de CG y/o las condiciones de amplificación necesarias de los loci seleccionados, u otras características que serán evidentes para un experto en la materia tras leer la presente divulgación. Un locus también puede referirse a una coordenada o ubicación genómica específica en un genoma, como se indica en la secuencia de referencia de ese genoma.
"Ácido nucleico largo" puede referirse a un polinucleótido de más de 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 kilobases.
La expresión "temperatura de fusión" o "Tf" se refiere habitualmente a la temperatura a la que una población de moléculas de ácido nucleico bicatenario se disocia a la mitad en cadenas simples. Las ecuaciones para calcular la Tf de ácidos nucleicos son bien conocidas en la técnica. Una ecuación que proporciona una estimación simple del valor de Tf es como se indica a continuación: Tf=81,5+16,6(log 10[Na+])0,4l(%[G+C])-675/n-1,0m, cuando un ácido nucleico está en una solución acuosa que tiene concentraciones de cationes de 0,5 M o menos, el contenido de (G+C) es de entre el 30 % y el 70 %, n es el número de bases y m es el porcentaje de desapareamientos de pares de bases (véase, por ejemplo, Sambrook J et al., Molecular Cloning, A Laboratory Manual, 3a ed., Cold Spring Harbor Laboratory Press (2001)). Otras referencias pueden incluir cálculos más sofisticados, que tienen en cuenta las características estructurales y de secuencia para el cálculo de Tf.
"Nucleótido" puede referirse a una combinación base-azúcar-fosfato. Los nucleótidos son unidades monoméricas de una secuencia de ácido nucleico (por ejemplo, ADN y ARN). El término nucleótido incluye los ribonucleósidos trifosfato de origen natural y no natural ATP, TTP, UTP, CTG, GTP e ITP, por ejemplo, y desoxirribonucleósidos trifosfato tales como dATP, dCTP, dITP, dUTP, dGTP, dTTP o derivados de los mismos. Dichos derivados pueden incluir, por ejemplo, [aS]dATP, 7-desaza-dGTP y 7-desaza-dATP, y, por ejemplo, derivados de nucleótidos que confieren resistencia a las nucleasas a la molécula de ácido nucleico que los contiene. El término nucleótido, como se usa en el presente documento, también se refiere a didesoxirribonucleósidos trifosfato (ddNTP) y sus derivados. Los ejemplos ilustrativos de didesoxirribonucleósidos trifosfato incluyen, ddATP, ddCTP, ddGTP, ddITP, ddUTP, ddTTP, por ejemplo. Se contemplan otros ddNTP y son coherentes con la divulgación del presente documento, tales como la dd (2-6 diamino) purina.
"Polimerasa" puede referirse a una enzima que une nucleótidos individuales en una cadena, usando otra cadena como molde.
"Reacción en cadena de la polimerasa" o "PCR" puede referirse a una técnica para replicar un trozo específico de ADN seleccionado in vitro, incluso en presencia de ADN no específico en exceso. Se añaden cebadores al ADN seleccionado, donde los cebadores inician la copia del ADN seleccionado usando nucleótidos y, normalmente, Taq polimerasa o similar. Mediante el ciclado de temperatura, el ADN seleccionado se desnaturaliza y se copia repetidamente. Una sola copia del ADN seleccionado, incluso si está mezclada con otro ADN aleatorio, se amplifica para obtener miles, millones o miles de millones de réplicas. La reacción en cadena de la polimerasa se usa para detectar y medir cantidades muy pequeñas de ADN y para crear trozos de ADN personalizados.
Los términos "polinucleótidos" y "oligonucleótidos" pueden incluir, pero sin limitación, diversas moléculas de ADN, ARN, derivados o combinaciones de las mismas. Éstas pueden incluir especies tales como dNTP, ddNTP, 2-metil NTP, ADN, ARN, ácidos nucleicos peptídicos, ADNc, ADNbc, ADNmc, ADN plasmídico, ADN cosmídico, ADN cromosómico, ADN genómico, ADN vírico, ADN bacteriano, ADNmt (ADN mitocondrial), ARNm, ARNr, ARNt, ARNn, ARNip, ARNnp, RNAnop, ARNpp, microARN, ARNbc, ribozima, ribointerruptor y ARN vírico. Los "oligonucleótidos", generalmente, son polinucleótidos de una longitud adecuada para su uso como cebadores, en general, de aproximadamente 6-50 bases, pero sin ser infrecuentes las excepciones, particularmente más largas.
Un "cebador" se refiere en general a un oligonucleótido utilizado para cebar la prolongación, la ligadura y/o la síntesis de nucleótidos, tal como en la etapa de síntesis de la reacción en cadena de la polimerasa o en las técnicas de prolongación de cebadores utilizadas en determinadas reacciones de secuenciación. También puede usarse un cebador en técnicas de hibridación como medio para proporcionar complementariedad de un locus con un oligonucleótido de captura para la detección de una región de ácido nucleico específica.
"Producto de prolongación de cebadores" se refiere en general al producto resultante de una reacción de prolongación de cebador usando un polinucleótido contiguo como molde y un cebador complementario o parcialmente complementario con la secuencia contigua.
"Secuenciación", "determinación de la secuencia" y similares se refieren en general a todos y cada uno de los métodos bioquímicos que pueden usarse para determinar el orden de las bases de nucleótidos en un ácido nucleico.
Una "secuencia", como se usa en el presente documento, se refiere a una serie de bases de ácido nucleico ordenadas que refleja el orden relativo de las bases de ácido nucleico adyacentes en una molécula de ácido nucleico, y que puede identificarse fácilmente de forma específica, aunque no necesariamente de forma única, con esa molécula de ácido nucleico. En general, aunque no en todos los casos, una secuencia requiere una pluralidad de bases de ácido nucleico, tal como 5 o más bases, para ser informativa, aunque este número puede variar según el contexto. Por lo tanto, puede decirse que una endonucleasa de restricción tiene una "secuencia" que identifica y escinde específicamente, incluso si esta secuencia solo tiene cuatro bases. No es necesario que una secuencia "cartografíe de forma única" un fragmento de una muestra. Sin embargo, en la mayoría de los casos, una secuencia debe contener suficiente información para ser informativa en cuanto a su fuente molecular.
Como se usa en el presente documento, una secuencia "no aparece" en una muestra si esa secuencia no está presente de forma contigua en toda la secuencia de la muestra. La secuencia que no aparece en una muestra no es una secuencia de origen natural en esa muestra.
Como se usa en el presente documento, una biblioteca se describe como "representativa de una muestra" si la biblioteca comprende una secuencia informativa de la muestra. En algunos casos, una secuencia informativa comprende aproximadamente el 5 %, el 10 %, el 15 %, el 20 %, el 25 %, el 30 %, el 35 %, el 40 %, el 45 %, el 50 %, el 55 %, el 60 %, el 65 %, el 70 %, el 75 %, el 80 %, el 85 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 %, el 99 % o el 100 % de una secuencia de muestra. En algunos casos, una secuencia informativa comprende aproximadamente el 90 %, el 90 % o más del 90 % de una secuencia de muestra.
Como se usa en el presente documento, una secuencia o longitud de secuencia se describe como "determinada independientemente" si la secuencia o longitud de secuencia no está determinada por una segunda secuencia o longitud de secuencia o es una función de la misma. Los eventos aleatorios, tales como la incorporación de una base ddNTP de terminación o la hibridación inespecífica o no exacta de un oligo con un molde, son en general eventos que se determinan independientemente, de manera que una biblioteca de moléculas resultantes de dichos eventos comprende una variación sustancial en la secuencia o en la longitud de secuencia.
Como se usa en el presente documento, una secuencia se describe como "indeterminada" si no se determina mediante síntesis mediada por molde. Por lo tanto, una molécula de ácido nucleico que se origina a partir de la síntesis a partir de un molde cebado por hibridación con el molde de un oligómero aleatorio puede comprender una región de secuencia dirigida por molde resultante de la prolongación de ácido nucleico impulsada por molde, y una "secuencia indeterminada" correspondiente a la secuencia de oligómeros que proporciona el grupo OH en posición 3' a partir de la que se construye la reacción de prolongación impulsada por molde. En algunos casos, la hibridación de oligonucleótidos es imperfecta, de manera que la secuencia de oligómeros no es el complemento inverso exacto de la molécula a la que se une.
"Subdivisión", como se usa en el presente documento en el contexto de una secuencia de muestra, se refiere a romper una secuencia en subsecuencias, cada una de las cuales sigue siendo una secuencia como se define en el presente documento. En algunos casos, subdivisión y fraccionamiento se usan indistintamente.
Un "cóntigo" se refiere a una secuencia de nucleótidos que se ensambla a partir de dos o más secuencias de nucleótidos constituyentes que comparten regiones comunes o superpuestas de homología de secuencia. Por ejemplo, las secuencias de nucleótidos de dos o más fragmentos de ácido nucleico se comparan y alinean para identificar secuencias comunes o superpuestas. Cuando existen secuencias comunes o superpuestas entre dos o más fragmentos de ácido nucleico, las secuencias (y, por lo tanto, sus correspondientes fragmentos de ácido nucleico) se ensamblan en una sola secuencia de nucleótidos contiguos.
El término "biotina" como se usa en el presente documento, tiene por objeto referirse a la biotina (ácido 5-[(3aS,4S,6aR)-2-oxohexahidro-1H-tieno[3,4-d]imidazol-4-il]pentanoico) y a cualesquier derivados y análogos de biotina. Dichos derivados y análogos son sustancias que forman un complejo con el bolsillo de unión a biotina de la estreptavidina o la avidina nativas o modificadas. Dichos compuestos incluyen, por ejemplo, iminobiotina, destiobiotina y péptidos de afinidad a estreptavidina, y también incluyen biotina-. épsilon.-N-lisina, hidrazida de biocitina, derivados de amino o sulfhidrilo de 2-iminobiotina y éster de N-hidroxisuccinimida del ácido biotinil-£-aminocaproico, sulfosuccinimida-iminobiotina, biotinbromoacetilhidrazida, p-diazobenzoil biocitina, 3-(N-maleimidopropionil) biocitina. "Estreptavidina" puede referirse a una proteína o péptido que puede unirse a la biotina y puede incluir: avidina nativa de clara de huevo, avidina recombinante, formas desglicosiladas de avidina, estreptavidina bacteriana, estreptavidina recombinante, estreptavidina truncada y/o cualquier derivado de las mismas.
Un "sujeto" en general se refiere a un organismo que está actualmente vivo o a un organismo que en algún momento estuvo vivo o a una entidad con un genoma que puede replicarse. Los métodos, kits y/o composiciones de la divulgación se aplican a uno o más sujetos unicelulares o multicelulares, incluyendo, pero sin limitación, microorganismos tales como bacterias y levaduras; insectos incluyendo, pero sin limitación, moscas, escarabajos y abejas; plantas incluyendo, pero sin limitación, maíz, trigo, algas marinas o algas; y animales incluyendo, pero sin limitación: seres humanos; animales de laboratorio tales como ratones, ratas, monos y chimpancés; animales domésticos tales como perros y gatos; animales agrícolas tales como vacas, caballos, cerdos, ovejas, cabras; y animales salvajes tales como pandas, leones, tigres, osos, leopardos, elefantes, cebras, jirafas, gorilas, delfines y ballenas. Los métodos de la presente divulgación también pueden aplicarse a gérmenes o agentes infecciosos, tales como virus o partículas víricas o una o más células que han sido infectadas por uno o más virus.
Un "soporte" es sólido, semisólido, una perla, una superficie. El soporte es móvil en una solución o es inmóvil.
La expresión "identificador único" puede incluir, pero sin limitación, un código de barras molecular o un porcentaje de un ácido nucleico en una mezcla, tal como dUTP.
"Secuencia repetitiva", como se usa en el presente documento, se refiere a una secuencia que no cartografía únicamente una sola posición en un conjunto de datos de secuencia de ácido nucleico. Algunas secuencias repetitivas se conceptualizan como múltiplos enteros o fraccionarios de una unidad de repetición de una secuencia de un tamaño dado y exacta o aproximada.
Un "cebador", como se usa en el presente documento, se refiere a un oligonucleótido que se hibrida con una molécula molde y proporciona un grupo OH en posición 3' a partir del cual puede producirse la síntesis de ácido nucleico dirigida por molde. Los cebadores comprenden ácidos desoxinucleicos no modificados en muchos casos, pero en algunos casos comprenden ácidos nucleicos alternativos tales como ácidos ribonucleicos o ácidos nucleicos modificados tales como ácidos 2' metil ribonucleicos.
Como se usa en el presente documento, un ácido nucleico es bicatenario si comprende apareamientos de bases unidos por enlaces de hidrógeno. No es necesario que todas las bases de la molécula estén apareadas para que la molécula se denomine bicatenaria.
El término "aproximadamente", como se usa en el presente documento en referencia a un número, se refiere a ese número más o menos hasta el 10 % de ese número. El término utilizado en referencia a un intervalo se refiere a un intervalo que tiene un límite inferior hasta un 10 % por debajo del límite inferior establecido, y un número superior hasta un 10 % por encima del límite establecido.
Métodos y composiciones
La secuenciación de nueva generación (NGS, del inglés Next Generation Sequencing) o secuenciación masiva en paralelo, ha reducido drásticamente el coste de la secuenciación de ADN y ha permitido una nueva utilidad clínica de ensayos de diagnóstico basados en ácidos nucleicos. Las tecnologías comerciales actuales producen miles de millones de secuencias de lectura corta y han desplazado la atención hacia métodos de preparación de muestras y análisis de datos para superar algunos de los modos de error comunes con la salida de datos que por lo demás es de calidad alta. Algunos ejemplos de modos de error comunes incluyen: tramos de polinucleótidos; cartografiado de elementos de repetición; variación de complejo; mosaicismo; sesgo de cobertura; y artefactos de estructura secundaria.
Los métodos actuales para la preparación de bibliotecas comienzan con la fragmentación del ADN. Esto se consigue a través de fragmentación química, enzimática o física. Se necesita una cantidad relativamente grande de material de partida para producir suficientes fragmentos aleatorios del tamaño adecuado para secuenciadores de NGS (200­ 500 pb en promedio). Los fragmentos deben repararse en sus extremos y limpiarse para retirar las enzimas utilizadas en la fragmentación y/o reparación de extremos. Tanto la fragmentación como la reparación de extremos tienen sesgos específicos de secuencia y necesitan una atención muy precisa a los protocolos para conseguir resultados coherentes. Después de purificar estas moléculas reparadas, se añaden adaptadores a los extremos a través de un proceso denominado ligadura. Con frecuencia es necesaria una etapa adicional para añadir colas A de una sola base o salientes a los extremos de las moléculas antes de la ligadura de adaptadores. Las enzimas ligasas son extremadamente caras y están sujetas a sesgos específicos de secuencia que dan como resultado una cobertura baja de determinadas regiones del genoma. Las moléculas resultantes consisten en secuencias de adaptador conocidas que flanquean la secuencia de muestra desconocida. Esto se conoce como una BIBLIOTECA de ADN. También es necesario purificar la biblioteca de ADN para retirar enzimas y se necesita una selección por tamaño precisa para estas moléculas. Después de la selección por tamaño, la biblioteca se amplifica de nuevo por PCR para producir suficiente material para diluirlo en la célula de flujo del secuenciador. Entonces el proceso para la preparación de bibliotecas incluye fragmentación, reparación de extremos, limpieza, generación de cola A o saliente, ligadura de adaptadores, limpieza, amplificación, limpieza, selección por tamaño, PCR, limpieza y después adición a una célula de flujo para secuenciar en algunos aspectos.
En el presente documento se describe una preparación de bibliotecas que incorpora la adición de un primer adaptador, la fragmentación y la purificación por afinidad en una sola etapa. Esto puede conseguirse usando el proceso de cebado aleatorio isotérmico de ADN molde. Este proceso se usa para amplificar cantidades pequeñas de ADN con secuencia desconocida. Se producen oligómeros aleatorios en un número de longitudes que funcionarán con el contexto genómico y las temperaturas pertinentes para la reacción. En algunos casos, se producen cebadores octaméricos con todas las combinaciones posibles de nucleótidos. El extremo 3' del cebador puede ser aleatorio y el extremo 5' puede contener la primera secuencia de adaptador. Durante la prolongación de cebadores, puede incorporarse una pequeña cantidad de ddNTP biotinilados. La relación de ddNTP con respecto a dNTP nativo permite un control preciso sobre la fragmentación de las moléculas de biblioteca. La incorporación de biotina permite el uso de perlas magnéticas recubiertas con estreptavidina para aislar y purificar las moléculas copiadas en una etapa simple y automatizada. La segunda secuencia de adaptador puede añadirse mediante una segunda reacción de cebado aleatorio. El uso de una polimerasa con desplazamiento de cadena puede permitir que solo se prolongue el cebador aleatorio en posición 5' más distal, desplazando todas las demás secuencias aleatorias y permaneciendo unido por enlaces de hidrógeno a las perlas magnéticas recubiertas con estreptavidina. Una etapa de lavado simple puede purificar las moléculas unidas, seguida de una reacción de PCR de ciclo bajo y purificación. Este protocolo requiere pocas etapas de procesamiento, elimina aspectos costosos y engorrosos del flujo de trabajo de generación de bibliotecas y se realiza a bajo coste.
En la FIG. 1A-1G se muestra una vista general de una realización de este protocolo. En la FIG. 3A-3D se muestra una molécula de ácido nucleico de ejemplo de una biblioteca de secuencias realizada. En la FIG. 2 y en la FIG. 4A-4D se muestran comparaciones de diversas realizaciones de los métodos y composiciones que se describen en el presente documento.
Con una longitud de lectura dada, por ejemplo, de 100 pares de bases (pb), una estructura de lectura ideal de un genoma tendría una lectura que cubriría de la base 1 a la base 100, otra que cubriría de la base 2 a la base 101, etc. Un método de preparación de bibliotecas que produce este nivel de "complejidad" con un sesgo mínimo es ideal. Un "pliegue" en el molde utilizado para métodos de secuenciación por síntesis (SBS, por sus siglas en inglés) de un polinucleótido C-C-C se prolonga a lo largo de la lectura y la diferenciación entre un C-C-C y un C-G-C se obtiene empíricamente. La forma en que este artefacto está representado en los datos es diferente cuando se encuentra al principio de una lectura del secuenciador cerca de la superficie sólida de una célula de flujo que cuando se encuentra al final de una lectura.
Las variaciones de complejo que provocan enfermedades son, por definición, diferentes de las de un genoma sano. Una translocación o inserción grande pueden pasar desapercibidas por el cartografiado y el ensamblaje basados en referencias. El problema es aún más difícil de resolver cuando se usan métodos de secuenciación dirigida que reducen la cantidad de secuenciación necesaria o especifican los loci causantes de enfermedades conocidas para su secuenciación. La secuenciación dirigida con la mayoría de los métodos basados en PCR requiere que se conozca la mutación causante de enfermedad para poder capturarla en el ensayo.
En el presente documento se describen métodos de preparación y análisis de muestras para aplicaciones de secuenciación del genoma completo, secuenciación de a Rn o ADNc, secuenciación dirigida y secuenciación de lectura larga para la puesta en fase y/o el ensamblaje de novo.
En algunas realizaciones, la preparación de una biblioteca se realiza como se detalla en las FIG. 1A-1G. Como se observa en la etapa 1 (FIG. 1A), una secuencia de ácido nucleico objetivo que comprende ADN genómico se une por múltiples cebadores de oligonucleótidos aleatorios ("Octámero aleatorio") que contienen colas de adaptador de secuenciación en posición 5' ("adaptadores A"). Un conjunto de nucleótidos que contiene una relación de desoxi NTP (dNTP) con respecto a didesoxi n Tp biotinilados (ddNTP), tampón de reacción, y a esta mezcla se le añade agua sin nucleasas. Se añade una ADN polimerasa que tiene actividad de desplazamiento de cadena y capacidad de incorporación de ddNTP/biotina y la prolongación progresa desde el OH en posición 3' de los oligonucleótidos aleatorios hasta que se incorpora un ddNTP biotinilado ("Biotina-ddNTP"), momento en el que termina la prolongación, como se muestra en la etapa 2 (FIG. 1B). Después, se añaden perlas magnéticas recubiertas con estreptavidina para aislar el producto de prolongación de primera cadena marcado. Un segundo conjunto de cebadores de oligonucleótidos aleatorios ("Octámero aleatorio") que contiene colas de adaptador de secuenciación en posición 5' ("adaptadores B") se combina con el producto de prolongación de primera cadena aislado, un conjunto de dNTP, tampón de reacción y una ADN polimerasa que tiene actividad de desplazamiento de cadena. Se genera una segunda cadena complementaria que forma una molécula bicatenaria como se muestra en la etapa 3 (FIG. 1C). El producto bicatenario se lava y el producto desplazado se retira como se muestra en la etapa 4 (FIG. 1D y FIG. 1E). En algunos casos, el marcador de biotina se retira en esta etapa. Se añaden secuencias de adaptador de longitud completa a través de amplificación por PCR como se muestra en la etapa 5 (FIG. 1F) y la molécula resultante en la FIG. 1G es adecuada para la secuenciación a través de cualquiera de los métodos de secuenciación que se describen en el presente documento.
La FIG. 2 representa una representación de una molécula de ejemplo obtenida a través de los métodos que se describen en el presente documento. Como se muestra en la FIG. 2, una molécula de ejemplo contiene (de izquierda a derecha), un anclaje de célula de flujo 1, un sitio de unión para un primer cebador 1, una etiqueta estocástica 1, una secuencia de inserto que puede ajustarse a la preferencia del secuenciador, una etiqueta natural, una etiqueta estocástica 2, un sitio de unión para un segundo cebador 2, un código de barras de ejemplo, un sitio de unión para un tercer cebador 3 y un anclaje de célula de flujo 2. Las etiquetas estocásticas corresponden a los oligonucleótidos aleatorios (tales como octámeros) que se describen en el presente documento. La etiqueta natural corresponde a una posición final diferente en una lectura duplicada y representa un muestreo independiente de la molécula de molde. Como alternativa, la etiqueta natural puede concebirse como la distancia de la primera etiqueta a la segunda en una molécula dada. Esta distancia "etiqueta" la molécula como única porque diferirá en algunas realizaciones incluso entre moléculas que tienen etiquetas primera y segunda idénticas como una indicación de las moléculas resultantes de eventos de síntesis independientes.
La FIG. 3 ilustra diversas realizaciones de los métodos y composiciones que se describen en el presente documento. En la FIG. 3A, el panel RLP, representa la preparación de una biblioteca similar a la representada en las FIG. 1A-1G. En la FIG. 3B, el panel R_RLP, representa la preparación de una biblioteca a partir de una secuencia de ácido nucleico objetivo que comprende ADNc. En la FIG. 3C, el panel L_RLP, representa la preparación de una biblioteca a partir de una secuencia de ácido nucleico objetivo que comprende moléculas de 20 kb aisladas con la adición de 1544 etiquetas en el producto de prolongación de primera cadena marcado. En la FIG. 3D, el panel T_RLP, representa la preparación de una biblioteca similar a la representada en las FIG. 1A-1G, pero con la inclusión de una secuencia de adaptador B en posición 5' en una secuencia específica de locus. Un intermedio bicatenario que comprende un producto de prolongación de primera cadena que termina en un ddNTP que incorpora un marcador (se representa biotina, pero como se desvela en el presente documento también se contemplan marcadores alternos), con el que se hibrida un oligo de síntesis de segunda cadena, y a partir de la cual se sintetiza una segunda cadena del intermedio.
Las FIG. 4A-4D representan una representación de moléculas de ejemplo obtenidas a través de los métodos descritos en las FIG. 3A-3D. Como se muestra en las FIG. 4A-4D, las moléculas incluyen (de arriba a abajo), la FIG. 4A muestra una molécula de "RLP" similar a la representada en la FIG. 2; la FIG. 4B muestra una molécula de "R RLP" tal como la que podría obtenerse a partir de una secuencia de ácido nucleico objetivo que comprende ADNc y que contiene etiquetas estocásticas que permiten la cuantificación de moléculas de ARN; La FIG. 4c muestra una molécula de "L_RLP" tal como la que podría obtenerse a partir de la secuencia de ácido nucleico objetivo que comprende moléculas de 20 kb aisladas y que contiene "etiquetas de gotita" que permiten la puesta en fase de moléculas de 20 kb; y la FIG.
4D muestra una molécula de "T RLP" tal como la que podría obtenerse a partir de la inclusión de una secuencia de adaptador B en posición 5' en una secuencia específica de locus y que contiene etiquetas específicas de locus que permiten el ensamblaje de novo asistido.
Las FIG. 5A-5B representan gráficos de cobertura normalizada con el porcentaje del genoma cubierto ("% de bases cubiertas") representado frente a la fracción de la media ("Factor de cobertura de la media") donde 1 es igual a la media para una biblioteca NEXTERA (lado izquierdo) en la FIG. 5A y una biblioteca obtenida a través de los métodos que se describen en el presente documento ("Preparación rápida de bibliotecas", lado derecho) en la FIG 5B. La pendiente de la curva y el área bajo la curva en los gráficos superior izquierdo y superior derecho indican que la biblioteca de preparación rápida de bibliotecas supera a una biblioteca comparable, particularmente a un factor de cobertura de la media menor, en términos de cobertura de bases.
Las FIG. 6A-6B comparan la calidad de secuencia para una biblioteca NEXTERA en la FIG. 6A y una biblioteca obtenida a través de los métodos que se describen en el presente documento ("Preparación rápida de bibliotecas") en la FIG. 6B. Como se observa en las FIG. 6A-6B, los métodos producen bibliotecas de calidad comparable, como indica este ensayo.
Las FIG. 7A-7B comparan el contenido de guanina-citosina (GC) para una biblioteca NEXTERA en la FIG. 7A y una biblioteca obtenida a través de los métodos que se describen en el presente documento ("Preparación rápida de bibliotecas") en la FIG. 7B. Como se observa en las FIG. 7A-7B, los métodos que se describen en el presente documento obtienen más secuencias con un contenido de % de GC inferior al de una biblioteca comparable cuando se secuencia un genoma de Escherichia coli con un contenido de % de GC de aproximadamente el 50 %.
Las FIG. 8A-8B comparan la contribución de nucleótidos para una biblioteca NEXTERA (lado izquierdo) en la FIG. 8A y una biblioteca obtenida a través de los métodos que se describen en el presente documento ("Preparación rápida de bibliotecas", lado derecho) en la FIG. 8B. Como se observa en las FIG. 8A-8B, los gráficos de contribuciones de nucleótidos indican un sesgo en las posiciones de bases más tardías en la incorporación de nucleótidos usando métodos comparables. Dicho sesgo no está presente en la biblioteca preparada como se desvela en el presente documento.
Las FIG. 9A-9E ilustran el efecto del número de ciclos usando 50 ng de ADN genómico humano. Como se observa en la FIG. 9B, la amplificación realizada sobre una biblioteca producida como se desvela en el presente documento a través de solo seis ciclos produce una cantidad medible de producto de amplificación de calidad alta (lado derecho) comparable a la producida a través de la duplicación del número de ciclos a 12 (FIG. 9D). Cuando se aumenta el número de ciclos de PCR a 15, la abundancia de fragmentos pequeños aumenta (lado izquierdo) en la FIG. 9A.
Las FIG. 10A-10C ilustran la distribución de bases (panel izquierdo, FIG. 10A), la calidad por ciclo (panel central, FIG.
10B) y el sesgo de GC (panel derecho, FIG. 10C) para 250 células de una estirpe celular humana. Como se muestra en la Fig. 10A, la distribución de bases de PCT-A se superpone con la distribución de bases de PCT-T, mientras que la distribución de bases de PCT-C se superpone con la distribución de bases de PCT-G. Como se observa en las FIG.
10A-10C, la calidad media es uniformemente alta en todos los ciclos, la fracción o cobertura normalizada está constantemente por encima de la fracción de GC en todas las fracciones de GC enumeradas y la calidad de bases es alta independientemente del % de GC.
La FIG. 11 ilustra el efecto de la concentración de ddNTP sobre la longitud del fragmento y el sesgo de AT. Como se observa en la FIG. 11, la disminución de la concentración de ddNTP da como resultado una longitud mayor del fragmento N50, como se indica por la columna final de la tabla, a medida que aumenta la relación AT/GC, el valor de N50 aumenta independientemente de la concentración de ddNTP. Los pares de líneas (continuas y discontinuas) en la parte inferior de la FIG. 11 representan las longitudes de los fragmentos N50 para concentraciones de ddNTP del 0,8 %, el 0,4 %, el 0,2 %, el 0,1 % y el 0,05 %. El recuadro dibujado alrededor de las longitudes de bases de aproximadamente 350 bases a 1000 bases representa una longitud de fragmento óptima de algunas realizaciones. Como se demuestra por la FIG. 11, el tamaño del inserto de biblioteca (es decir, la secuencia objetivo) se optimiza variando el % de ddNTP, permitiendo la selección de componentes de biblioteca de un tamaño específico, como se indica por el recuadro que abarca fragmentos de tamaños de 350 pb a 1000 pb.
Las FIG. 12A-12F ilustran el efecto de la concentración de ddNTP sobre el rendimiento. Las Figuras 12A-12F ilustran los tamaños de producto en forma de picos. En la Fig. 12A y la Fig. 12D, el pico de más a la izquierda representa un producto de 35 pb, mientras que el pico más a la derecha representa un producto de 10380 pb. Esto también se refleja en la leyenda de la derecha de la Fig. 12D, en donde la línea superior representa un producto de 10380 pb y la línea inferior representa un producto de 35 pb. El sombreado entre las líneas superior e inferior corresponde a tamaños de producto de entre 35 pb y 10380 pb.
La FIG. 13 ilustra que a través de la posición de lectura para moléculas seleccionadas por tamaño (>750 pb - panel superior; >500 pb - panel central; >350 pb - panel inferior), las lecturas no demuestran un sesgo sustancial para ninguna base o combinación de pares de bases particulares. A medida que aumenta la longitud del inserto de lectura, aumenta el sesgo.
Las FIG. 14A-14B representan recuentos de lectura apareada con una etiqueta dada con cero (FIG. 14A) y un desapareamientos (FIG. 14B) permitidos para 250 células y moléculas de 20 kb. Como se observa en las FIG. 14A-14B, la gran mayoría de las lecturas no demuestran un desapareamiento.
Las FIG. 15A-15C representan recuentos de lectura apareada con una etiqueta dada con cero (FIG. 15A), uno (FIG.
15B) y dos desapareamientos (FIG. 15C) permitidos para 400 pg de entrada. Como se observa en las FIG. 15A-15C, la gran mayoría de las lecturas no demuestran un desapareamiento.
Las FIG. 16A-16B representan la secuenciación objetivo sensible a variantes de complejo, de manera que se cartografía la fase de variante. Como se observa en las FIG. 16A-16B, los métodos y composiciones que se describen en el presente documento permiten identificar si las variantes de los polimorfismos cartografían una sola molécula física (es decir, están "en fase").
La FIG. 17 representa un enfoque de PCR de cebado inverso. La síntesis de bibliotecas da como resultado un exceso molar de molde, de manera que se necesita un menor número de ciclos, y una menor concentración de cebadores, para generar una cantidad suficiente de molde para aplicaciones corriente abajo. Los moldes de primera cadena se indican con un esquema de dos tonos que tienen un marcador circular (FIG. 17A y FIG. 17B). Como se observa en la FIG. 17B y la FIG. 17C, los cebadores en exceso molar del molde se unirán potencialmente en sitios no específicos o entre sí.
Las FIG. 18A-18B representan la PCR hemiespecífica o la generación dirigida de secuencias de segunda cadena. Una primera cadena (FIG. 18A), parte superior, se sintetiza usando un cebador no específico prolongado hasta la terminación tras la incorporación de un ddNTP, indicado por el óvalo de la derecha. El cebador no específico (que señala hacia la derecha en la figura) se añade en combinación con un cebador que se une específicamente a una región de interés (que señala hacia la izquierda en la figura). Se realiza un termociclado, para dar como resultado amplicones como se representan en la parte inferior (FIG. 18B) que comprenden la secuencia adyacente al cebador específico añadido a la reacción. Descrito de otra manera, la reacción de síntesis de primera cadena consiste en un cebador aleatorio con cola de adaptador. Ese cebador se une, se prolonga, termina y es capturado por perlas magnéticas. Después, un cebador específico de locus en la reacción de síntesis de segunda cadena crea una segunda cadena que copia el producto de síntesis de primera cadena hasta la secuencia universal de adaptador A. Esa secuencia universal después se usa junto con la secuencia específica de locus para amplificar a través de PCR.
La FIG. 19 muestra un panel de riesgo de cáncer de ejemplo. Un conjunto de oligos de biblioteca dirigidos puede amplificar miembros del conjunto de ejemplo.
El sistema informático 500 ilustrado en la FIG. 20 puede entenderse como un aparato lógico que puede leer instrucciones desde el medio 511 y/o un puerto de red 505, que puede conectarse opcionalmente al servidor 509 que tiene un medio fijo 512. El sistema, tal como se muestra en la FIG. 20 puede incluir una CPU 501, unidades de disco 503, dispositivos de entrada opcionales tales como un teclado 515 y/o ratón 516 y un monitor opcional 507. La comunicación de datos se consigue a través del medio de comunicación indicado a un servidor en una ubicación local o remota. El medio de comunicación puede incluir cualquier medio de transmisión y/o recepción de datos. Por ejemplo, el medio de comunicación es una conexión de red, una conexión inalámbrica o una conexión a Internet. Dicha conexión puede proporcionar comunicación a través de la World Wide Web. Se prevé que los datos relacionados con la presente divulgación se transmitan a través de dichas redes o conexiones para su recepción y/o revisión por una parte 522 como se ilustra en la FIG. 20. La FIG. 21 es un diagrama de bloques que ilustra una primera arquitectura de ejemplo de un sistema informático 100 que se usa con respecto a realizaciones de ejemplo de la presente divulgación. Como se representa en la FIG. 21, el sistema informático de ejemplo puede incluir un procesador 102 para procesar instrucciones. Los ejemplos no limitantes de procesadores incluyen: procesador Intel Xeon™, procesador AMD Opteron™, procesador Samsung RISC ARM 1176JZ(F)-S v1.0™ de 32 bits, procesador ARM Cortex-A8 Samsung SSPC100™, procesador ARM Cortex-A8 Apple A4™, procesador Marvell PXA 930™ o un procesador funcionalmente equivalente. Se usan múltiples hilos de ejecución para el procesamiento en paralelo. En algunas realizaciones, también se pueden utilizar múltiples procesadores o procesadores con múltiples núcleos, ya sea en un solo sistema informático, en un grupo, o distribuidos entre sistemas a través de una red que comprende una pluralidad de ordenadores, teléfonos móviles y/o dispositivos de asistencia de datos personales.
Como se ilustra en la FIG. 21, un caché de alta velocidad 104 se conecta o incorpora en, el procesador 102 para proporcionar una memoria de alta velocidad para instrucciones o datos que se han usado recientemente, o se usan con frecuencia, por el procesador 102. El procesador 102 está conectado a un puente norte 106 mediante un bus de procesador 108. El puente norte 106 está conectado a la memoria de acceso aleatorio (RAM) 110 mediante un bus de memoria 112 y gestiona el acceso a la RAM 110 mediante el procesador 102. El puente norte 106 también está conectado a un puente sur 114 mediante un bus de chipset 116. El puente sur 114, a su vez, se conecta a un bus de periférico 118. El bus de periférico es, por ejemplo, PCI, PCI-X, PCI Express u otro bus de periférico. El puente norte y el puente sur a menudo se denominan chipset de procesador y administran la transferencia de datos entre el procesador, RAM y componentes periféricos en el bus de periférico 118. En algunas arquitecturas alternativas, la funcionalidad del puente norte se incorpora en el procesador en lugar de usar un chip de puente norte separado.
En algunas realizaciones, el sistema 100 puede incluir una tarjeta aceleradora 122 conectada al bus de periférico 118. El acelerador puede incluir matrices de puertas programables en campo (FPGA) u otro hardware para acelerar cierto procesamiento. Por ejemplo, se usa un acelerador para la reestructuración adaptativa de datos o para evaluar expresiones algebraicas utilizadas en el procesamiento de conjuntos prolongados.
El software y los datos se almacenan en el almacenamiento externo 124 y se cargan en la RAM 110 y/o el caché 104 para su uso por el procesador. El sistema 100 incluye un sistema operativo para gestionar los recursos del sistema; los ejemplos no limitantes de sistemas operativos incluyen: Linux, Windows™, MacOS™, BlackBerry OS™, iOS™ y otros sistemas operativos funcionalmente equivalentes, así como software de aplicación que se ejecuta encima del sistema operativo para gestionar el almacenamiento de datos y la optimización de acuerdo con realizaciones de ejemplo de la presente divulgación.
En este ejemplo, el sistema 100 también incluye tarjetas de interfaz de red (NIC) 120 y 121 conectadas al bus de periférico para proporcionar interfaces de red al almacenamiento externo, tales como el Almacenamiento Conectado a la Red (NAS, por sus siglas en inglés) y otros sistemas informáticos que se usan para el procesamiento en paralelo distribuido.
La FIG. 22 es un diagrama que muestra una red 200 con una pluralidad de sistemas informáticos 202a y 202b, una pluralidad de teléfonos móviles y asistentes de datos personales 202c, y almacenamiento conectado a la red (NAS) 204a y 204b. En realizaciones de ejemplo, los sistemas 202a, 202b y 202c pueden administrar el almacenamiento de datos y optimizar el acceso a los datos almacenados en el almacenamiento conectado a la red (NAS) 204a y 204b. Se usa un modelo matemático para los datos y se evalúa usando el procesamiento en paralelo distribuido a través de los sistemas informáticos 202a y 202b, y los sistemas de teléfonos móviles y asistentes de datos personales 202c. Los sistemas informáticos 202a y 202b, y los sistemas de asistentes de datos personales y de teléfonos móviles 202c también pueden proporcionar un procesamiento paralelo para la reestructuración de datos adaptativa de los datos almacenados en el almacenamiento conectado a la red (NAS) 204a y 204b. La FIG. 22 ilustra solo un ejemplo, y se usa una amplia diversidad de otras arquitecturas y sistemas informáticos junto con las diversas realizaciones de la presente divulgación. Por ejemplo, se usa un servidor de tarjetas para proporcionar procesamiento en paralelo. Las tarjetas del procesador se conectan a través de un panel posterior para proporcionar procesamiento en paralelo. El almacenamiento también puede conectarse al panel posterior o como Almacenamiento Conectado a la Red (NAS) a través de una interfaz de red separada.
En algunos ejemplos, los procesadores pueden mantener espacios de memoria separados y transmitir datos a través de interfaces de red, plano posterior u otros conectores para procesamiento en paralelo por otros procesadores. En algunas realizaciones, algunos o todos los procesadores pueden utilizar un espacio de memoria de dirección virtual compartida.
La FIG. 23 es un diagrama de bloques de un sistema informático multiprocesador 300 que usa un espacio de memoria de dirección virtual compartida de acuerdo con una realización de ejemplo. El sistema incluye una pluralidad de procesadores 302a-f que pueden acceder a un subsistema de memoria compartida 304. El sistema incorpora una pluralidad de procesadores de algoritmos de memoria de hardware programables (MAP, por sus siglas en inglés) 306a-f en el subsistema de memoria 304. Cada MAP 306a-f puede comprender una memoria 308a-f y una o más matrices de puertas programables en campo (FPGA) 310a-f. El MAP proporciona una unidad funcional configurable y se proporcionan algoritmos particulares o porciones de algoritmos a las FPGA 310a-f para su procesamiento en estrecha coordinación con un procesador respectivo. Por ejemplo, los MAP se usan para evaluar expresiones algebraicas con respecto al modelo de datos y para realizar una reestructuración adaptativa de datos en realizaciones de ejemplo. En este ejemplo, todos los procesadores pueden acceder globalmente a cada MAP para estos fines. En una configuración, cada MAP puede usar el Acceso Directo a Memoria (DMA) para acceder a una memoria asociada 308a-f, lo que le permite ejecutar tareas de forma independiente y asíncrona con respecto al microprocesador 302a-f respectivo. En esta configuración, un MAP puede enviar resultados directamente a otro MAP para canalizar y ejecutar en paralelo algoritmos.
Las arquitecturas y sistemas informáticos anteriores son solo ejemplos y se usa una gran diversidad de otros sistemas y arquitecturas de ordenadores, teléfonos móviles y asistentes de datos personales en relación con realizaciones de ejemplo, incluidos los sistemas que utilizan cualquier combinación de procesadores generales, coprocesadores, FPGA y otros dispositivos lógicos programables, sistema en chips (SOC), circuitos integrados para aplicaciones específicas (ASIC) y otros elementos de procesamiento y lógicos. En algunas realizaciones, todo o parte del sistema informático se implementa en software o hardware. Se usa cualquier diversidad de medios de almacenamiento de datos en relación con las realizaciones de ejemplo, incluida la memoria de acceso aleatorio, unidades de disco duro, memoria flash, unidades de cinta, matrices de discos, almacenamiento conectado a la red (NAS) y otros dispositivos y sistemas de almacenamiento de datos locales o distribuidos.
En algunos casos, el sistema informático se implementa usando módulos de software que se ejecutan en cualquiera de las arquitecturas y los sistemas informáticos anteriores o en otros. En algunas realizaciones, las funciones del sistema se implementan parcial o totalmente en el firmware, dispositivos lógicos programables tales como matrices de puertas programables en campo (FPGA) a los que se hace referencia en la FIG. 23, sistema en chips (SOC), circuitos integrados para aplicaciones específicas (ASIC) u otros elementos de procesamiento y lógicos. Por ejemplo, el Procesador y Optimizador de Conjuntos se implementa con aceleración de hardware a través del uso de una tarjeta aceleradora de hardware, tal como la tarjeta aceleradora 122 ilustrada en la FIG. 21. En algunos casos, los conjuntos de datos correspondientes a la secuencia de al menos una molécula o al menos un conjunto de datos moleculares o al menos una biblioteca de secuencias que comprenden 10, 100, 1000, 10.000, 100.000, 1.000.000, 10.000.000 o más de 10.000.000 de secuencias moleculares, se almacenan y evalúan en un sistema informático como se desvela en el presente documento. En algunos casos, un método de generación de un conjunto de datos almacenados en ordenador que comprende al menos 1000 secuencias de moléculas de ácido nucleico marcadas no idénticas que comprende cada una un subconjunto de secuencia de una muestra de ácido nucleico, se pone en práctica en un sistema informático como se desvela en el presente documento. En algunos casos el método comprende: almacenar en un ordenador una primera secuencia de molécula de ácido nucleico que comprende una primera secuencia de marcador molecular en posición 5', una primera secuencia de inserción que tiene una primera longitud de dicha muestra de ácido nucleico y una primera secuencia de marcador molecular en posición 3'; almacenar en un ordenador una segunda secuencia de molécula de ácido nucleico que comprende una segunda secuencia de marcador molecular en posición 5', una segunda secuencia de inserción que tiene una segunda longitud y una segunda secuencia de marcador molecular en posición 3'; y excluir de dicho conjunto de datos dicha segunda secuencia de molécula de ácido nucleico bicatenario si: dicha primera secuencia de marcador molecular en posición 5' es idéntica a dicha segunda secuencia de marcador molecular en posición 5'; dicha primera secuencia de marcador molecular en posición 3' es idéntica a dicha segunda secuencia de marcador molecular en posición 3'; dicha segunda secuencia de inserción es idéntica a dicha primera secuencia de inserción; y dicha segunda longitud de secuencia objetivo es idéntica a dicha primera longitud de secuencia objetivo y difiere en no más de cinco bases.
Preparación rápida de bibliotecas de ácido nucleico
La generación de bibliotecas de Secuenciación de Nueva Generación (NGS) a partir de todas las posiciones posibles de un genoma requiere un enfoque insesgado para convertir el molde de ADN genómico (ADNg) en la molécula de biblioteca del tamaño adecuado con los adaptadores de secuenciación específicos de la plataforma que flanquean el ADNg. Esto puede realizarse usando un cebador aleatorio con una cola de adaptador de secuenciación, como se ilustra por el siguiente esquema: 5'-secuencia de adaptador-NNNNNNN-3'.
Para minimizar el sesgo para un genoma dado, la porción "aleatoria" del cebador puede sintetizarse de forma semialeatoria para tener en cuenta el contenido variable en el genoma de interés. Un genoma dado (por ejemplo, el genoma humano) se divide en ventanas de 100 pb de contenido de GC variable. En el mejor de los casos, los cebadores se sintetizarían para incluir una "aleatoriedad" representativa ordenada frente a las ventanas de contenido de GC en el genoma, del 1 % al 100 % de GC, y se sintetizarían y agruparían en relaciones con respecto al contenido del genoma en cada % de GC.
El cebado aleatorio puede permitir que cada base de un genoma se represente como la posición de partida de una lectura del secuenciador. Para finalizar cada molécula de la biblioteca en todas las bases posibles del genoma, se necesita un enfoque aleatorio/insesgado para terminar la polimerización a partir de un cebador aleatorio. Para ello, puede usarse un cóctel de ddNTP que contenga una relación fija de cada uno de los cuatro nucleótidos nativos con respecto a una relación fija de didesoxinucleótidos desprovistos de un grupo 3'-OH. La relación de ddNTP con respecto a dNTP puede determinar la probabilidad de terminación en cualquier posición de base dada. Por ejemplo, un cóctel del 1 % de ddNTP (99 % de dNTP) proporcionaría una probabilidad de que el 99 % de las moléculas que se prolongan a partir de un cebador aleatorio se polimericen más allá de la primera base. Este mismo ejemplo proporcionaría un N50 (el 50 % de las moléculas serán más largas que N bases) de 50 pb. A medida que la relación relativa de ddNTP disminuye, el tamaño del inserto N50 aumenta. Por lo tanto, en determinadas condiciones, un % de ddNTP de 0,8 conduce a una mediana del tamaño del inserto (N50) de 62,5, y a un N50 comparable de moléculas de biblioteca de longitud completa que incluye adaptadores y cebadores aleatorios de 198,5, un % de ddNTP de 0,4 conduce a una mediana del tamaño del inserto (N50) de 125 y a un N50 comparable de moléculas de biblioteca de longitud completa que incluye adaptadores y cebadores aleatorios de 261, un % de ddNTP de 0,2 conduce a una mediana del tamaño del inserto (N50) de 250 y a un N50 comparable de moléculas de biblioteca de longitud completa que incluye adaptadores y cebadores aleatorios de 386, un % de ddNTP de 0,1 conduce a una mediana del tamaño del inserto de 500 y a un N50 comparable de moléculas de biblioteca de longitud completa que incluye adaptadores y cebadores aleatorios de 636, y un % de ddNTP de 0,05 conduce a una mediana del tamaño del inserto de 1000 y un N50 comparable de moléculas de biblioteca de longitud completa que incluye adaptadores y cebadores aleatorios de 1136. Para regiones de complejidad baja, tales como tramos de AT o GC, la concentración eficaz de ddNTP en esa ubicación genómica se reduciría a la mitad, proporcionando un N50 de 100 nucleótidos para una reacción de prolongación de cebador que se produce en loci genómicos de dicha complejidad baja con un cóctel de 1 % de ddNTP. (Sin tener en cuenta las diferencias de eficiencia de incorporación de las polimerasas entre los 8 nucleótidos).
Ajustando el % de ddNTP en la reacción puede ajustarse el intervalo y la diversidad de las moléculas polimerizadas. El efecto de la concentración de ddNTP sobre la longitud del fragmento y el sesgo de adenina-tirosina se muestra en la FIG. 11. El efecto de la concentración de ddNTP sobre el rendimiento se muestra en las FIG. 12A-12F. Al 0,4 % de ddNTP, la molaridad de 300-1000 pb (mol) es de 27,5; al 0,2 % de ddNTP, la molaridad de 300-1000 pb (mol) es de 16,1; al 0,1 % de ddNTP, la molaridad de 300-1000 pb (mol) es de 5,8; y al 0,05 % de ddNTP, la molaridad de 300­ 1000 pb (mol) es de 4,9. La FIG. 13 muestra la posición de lectura para moléculas seleccionadas por tamaño.
Una etapa adicional es aislar las moléculas etiquetadas con adaptador del molde de ADNg y cualesquier reactivos en exceso, tales como cebadores y NTP en exceso. Esto se realiza a través del uso de ddNTP biotinilados. Para lograr este aislamiento se usa una perla magnética recubierta con estreptavidina.
La elección de la polimerasa se limita a una enzima que tenga la capacidad de desplazar cadenas, así como de incorporar ddNTP/biotina. SEQUENASE y THERMOSEQUENASE (Affymetrix, Santa Clara, CA) son dos enzimas de este tipo. Si se necesitan cantidades de entrada bajas debido a la falta de recursos de muestra o a la dilución forzada, la reacción puede optimizarse para mejorar el rendimiento a través del uso de cócteles de enzimas tales como SEQUENASE y Phi29, una polimerasa de procesamiento elevado desprovista de la capacidad de incorporar ddNTP. La enzima phi 29 aumentará la cantidad de molde para el procesamiento por la SEQUENASE en la reacción. El rendimiento y la diversidad del molde también pueden aumentarse optimizando la duración de la reacción.
El producto de una reacción de secuenciación de este tipo se representa por el siguiente esquema: 5'-ADAPTADOR-NNNNNNNN-INSERTO GENÓMICO-ddNTP/biotina.
Los secuenciadores comerciales actuales necesitan que el inserto de ADNg esté flanqueado por 2 secuencias de adaptador. El segundo adaptador puede añadirse mediante una segunda reacción de cebado aleatorio. El producto aislado de las perlas magnéticas se usa como molde para una segunda reacción de cebado aleatorio usando un cebador aleatorio con un segundo adaptador, como se demuestra por el esquema: 5'-Adaptador2-NNNNNNNN-3'. El producto desplazado también puede usarse como molde para una segunda reacción de cebado aleatorio usando un cebador aleatorio con un segundo adaptador.
La enzima para la adición del segundo adaptador puede no necesitar la capacidad de incorporar ddNTP. El desplazamiento de cadena puede ser un requisito. Las enzimas aceptables incluyen SEQUENASE, THERMOSEQUENASE, Phi29, ADN polimerasa Bst y ADN polimerasa Taq. La porción aleatoria del cebador puede unirse al molde unido a la perla y prolongarse a través del extremo de la molécula de molde. El cebador que se une más cerca del extremo 3' del molde puede desplazar los cebadores que se unen corriente abajo, de manera que se producirá una sola copia del molde unido a la perla tanto con el primer como con el segundo adaptador. Esta copia puede permanecer unida por enlaces de hidrógeno a las perlas magnéticas. El cebador en exceso, NTP, la enzima y el producto desplazado se retiran a través del lavado de perlas. El producto resultante se desnaturaliza con calor (liberándolo de la perla) y se secuencia o amplifica a través de PCR con cebadores complementarios a los adaptadores. Un producto creado de este modo se representa con el siguiente esquema, representado en la orientación de 3' a 5': 3'-adaptador1-NNNNNNNN-ADNg inserto-NNNNNNNN-adaptador2-5'.
Un modo de error crítico en la secuenciación NGS es la amplificación clonal de errores en la preparación de bibliotecas. Para los protocolos sin PCR esto puede ser menos preocupante, pero cualquier protocolo de entrada baja necesita amplificación para obtener una biblioteca suficiente para cargar en un secuenciador. Pueden aparecer errores introducidos en el proceso de amplificación en un secuenciador. Una reducción convencional de estos errores consiste en retirar duplicados del análisis. Sin embargo, si se proporciona suficiente capacidad de secuenciación a una muestra, pueden producirse lecturas duplicadas (lecturas con la misma posición inicial y final) de forma natural. Por lo tanto, la eliminación de estas lecturas reduciría la cobertura y la precisión del ensayo. El uso de los cebadores aleatorios de síntesis en el análisis puede permitir una determinación verdadera de artefactos clonales frente a mutaciones de baja frecuencia. Los duplicados de PCR pueden tener las mismas secuencias de cebadores aleatorios en ambos extremos, mientras que los duplicados debidos a la cobertura de secuenciación profunda pueden tener secuencias de cebadores aleatorios diferentes. Puesto que la secuencia de síntesis está siempre en la misma posición de cada lectura, esta información se obtiene fácilmente en el análisis.
La secuenciación sin terminación mediante químicas de síntesis (tales como Qiagen e ION Torrent) experimenta dificultades para secuenciar tramos largos de homopolímeros. Esto puede mitigarse mediante la generación de bibliotecas complejas conseguida a través de la terminación en cada base a través del homopolímero que se describe en el presente documento.
En consecuencia, de forma coherente con la divulgación anterior, se generan bibliotecas de oligonucleótidos de primera cadena. Para generar una Biblioteca Aleatoria, se sintetiza una población de oligos de síntesis de primera ronda. Cada uno de los oligonucleótidos de primera cadena comprende un adaptador de secuencia posicionado ubicado en posición 5' de una secuencia de oligómeros aleatorios, tal como un 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30 mero, o un oligómero mayor, seguido de un OH en posición 3' a partir del cual se produce la prolongación dirigida por molde. En algunos casos, el adaptador de secuencias se configura para que comprenda una secuencia de identificador variable. En casos alternativos, el adaptador de secuencia es invariable. Los adaptadores de secuencia se usan en algunos casos como sitios de unión a cebador para la posterior adición de un adaptador de secuenciación, tal como un adaptador A, tal como a través de la adición de una secuencia dirigida por cebador patrón a través de amplificación.
En algunos casos, la población de oligonucleótidos se sintetiza de manera que todas las combinaciones posibles de una secuencia de bases de oligómeros aleatorios dada (tales como 5, 6, 7, 8, 9 o 10-meros aleatorios) están representadas en la población de oligonucleótidos de primera cadena. En otros casos, particularmente cuando se selecciona un oligómero aleatorio largo, pero también ocasionalmente en casos de oligómeros más pequeños, están presentes menos de todas las combinaciones posibles de una secuencia de bases de oligómeros aleatorios dada.
En algunos casos, las bases del oligómero aleatorio representan una distribución aleatoria insesgada de bases de ácido nucleico en proporciones iguales. En algunos casos, cada base tiene la misma probabilidad de aparecer en una posición dada, o en agregado en una población de oligómeros aleatorios. En otros casos, sin embargo, para aumentar la eficacia de la hibridación y, posteriormente, de la síntesis de primera cadena, la población se sintetiza de manera que incluya un sesgo para oligómeros aleatorios (tales como octámeros aleatorios) que tengan una representación sesgada de determinadas bases o pares de bases. Se observa que el genoma humano, por ejemplo, tiene un porcentaje de CG de aproximadamente el 40 %, en lugar de una composición de GC del 50 % como se espera de una abundancia de bases aleatorias verdadera. Véanse, por ejemplo, las FIG. 10A-10C. En algunos casos, la distribución de oligómeros aleatorios está sesgada de manera que la distribución global de la secuencia de oligómeros aleatorios (tal como una secuencia octamérica) en la biblioteca de síntesis de primera cadena refleja la de un promedio objetivo sesgado, tal como el promedio de un genoma objetivo, un locus objetivo, una familia de genes objetivo, un elemento genómico objetivo (tal como exones, intrones, o la secuencia promotora, por ejemplo), o en algunas realizaciones, para que coincida con el genoma humano en su conjunto.
Una biblioteca de oligos de primera cadena o un subconjunto de una biblioteca de oligonucleótidos que representa el 90 %, el 80 %, el 70 %, el 60 %, el 50 %, el 40 %, el 30 %, el 20 %, el 10 % o menos del 10 % de una biblioteca de oligonucleótidos de primera cadena se pone en contacto con una muestra que comprende un ácido nucleico tal como el ácido desoxirribonucleico o el ácido ribonucleico. Un ácido nucleico tal como el ADN o el ARN puede proporcionarse en un amplio intervalo de cantidades. En algunos casos se proporciona una muestra de a Dn genómico en una cantidad tal como de, o aproximadamente de, 1 ng, 2 ng, 3 ng, 4 ng, 5 ng, 6 ng, 7 ng, 8 ng, 9 ng, 10 ng, 11 ng, 12 ng, 13 ng, 14 ng, 15 ng, 16 ng, 17 ng, 18 ng, 19 ng, 20 ng, 21 ng, 22 ng, 23 ng, 24 ng, 25 ng, 26 ng, 27 ng, 28 ng, 29 ng, 30 ng, 31 ng, 32 ng, 33 ng, 34 ng, 35 ng, 36 ng, 37 ng, 38 ng, 39 ng, 40 ng, 41 ng, 42 ng, 43 ng, 44 ng, 45 ng, 46 ng, 47 ng, 48 ng, 49 ng, 50 ng, 51 ng, 52 ng, 53 ng, 54 ng, 55 ng, 56 ng, 57 ng, 58 ng, 59 ng, 60 ng, 61 ng, 62 ng, 63 ng, 64 ng, 65 ng, 66 ng, 67 ng, 68 ng, 69 ng, 70 ng, 71 ng, 72 ng, 73 ng, 74 ng, 75 ng, 76 ng, 77 ng, 78 ng, 79 ng, 80 ng, 81 ng, 82 ng, 83 ng, 84 ng, 85 ng, 86 ng, 87 ng, 88 ng, 89 ng, 90 ng, 91 ng, 92 ng, 93 ng, 94 ng, 95 ng, 96 ng, 97 ng, 98 ng, 99 ng o 100 ng, o un valor fuera del intervalo definido por la lista mencionada anteriormente. Como se observa a continuación, el número de termociclos corriente abajo disminuirá a medida que aumente la cantidad de molde de partida. En algunos casos, una muestra de ARN proviene de ARN extraído de una población celular de tan solo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100 células o más de 100 células.
También se añade a la mezcla un tampón de polimerasa que comprende reactivos coherentes con la actividad de ADN polimerasa. Una serie de polimerasas son coherentes con la divulgación del presente documento. En algunos casos, las polimerasas de ejemplo poseen actividad de desplazamiento de cadena, actividad de incorporación de ddNTP y son capaces de incorporar nucleótidos etiquetados con biotina tales como ddNTP etiquetados con biotina. Un ejemplo de polimerasa es Sequenase, mientras que una transcriptasa inversa de ejemplo es la transcriptasa inversa de VIH.
También se añade a la mezcla una población de nucleótidos, tal como una población que comprende dATP, dTTP, dCTP y dGTP y, en algunos casos, también comprende una población de ddNTP, tal como ddATP, ddTTP, ddCTP y ddGTP. En algunos casos solo se añade una sola especie de ddNTP a la población de dNTP, tal como ddATP solo, ddTTP solo, ddCTP, solo y ddGTP solo. En algunos casos se añaden pares de ddNTP, tales como ddATP y ddTTP, 0 ddCTP y ddGTP.
En algunos casos, la población de ddNTP, tal como ddATP, ddTTP, ddCTP y el ddGTP añadida a la composición comprende al menos un ddNTP marcado con biotina, tal como ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina.
Un intervalo de relaciones de dNTP/ddNTP es coherente con la divulgación del presente documento. Relaciones del 99,9 %/0,1 %, 99,5 %/0,5 %, 99 %/1 %, 98 %/2 % y relaciones alternativas son coherentes con la divulgación del presente documento. En algunos casos se selecciona una relación relativa del 99 % de desoxi NTP con respecto al 1 % de didesoxi NTP.
La mezcla se desnaturaliza, en algunos casos por calentamiento por encima de una temperatura de fusión, tal como 95 °C, 96 °C, 97 °C, 98 °C o 99 °C, o una temperatura superior. En muchos casos, una temperatura de desnaturalización por debajo de 100 °C es de ejemplo.
Después, la mezcla se enfría, por ejemplo en hielo durante 30 segundos, 1, 2 o más de 2 minutos, o a 4 °C durante 30 segundos, 1, 2 o más de 2 minutos, o a una temperatura de enfriamiento alternativa, suficiente para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra de ácido nucleico, tal como una muestra de ADN genómico o una muestra de ARN. En algunos casos, algunos o todos los oligonucleótidos de síntesis de primera cadena demuestran una complementariedad inversa completa entre su oligo aleatorio (tal como un octámero aleatorio) y la secuencia de muestra de ácido nucleico, tal como una secuencia de ADN genómico, una secuencia de ADNc o una secuencia de ARN, a la que se une cada uno. En algunos casos, algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el oligómero aleatorio del oligo (tal como un octámero aleatorio). La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa en algunos casos no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
Se añade una polimerasa antes o después de una etapa de desnaturalización opcional en realizaciones alternativas. La mezcla se calienta a una temperatura coherente con la actividad polimerasa, tal como la actividad polimerasa óptima (por ejemplo, 20 °C, 21 °C, 22 °C, 23 °C, 24 °C, 25 °C, 26 °C, 27 °C, 28 °C, 29 °C, 30 °C, 31 °C, 32 °C, 33 °C, 34 °C, 35 °C, 36 °C, 37 °C, 38 °C, 39 °C, 40 °C, 41 °C, 42 °C, o en algunos casos un número mayor o menor que un número en este intervalo) y se incuba durante un período suficiente para sintetizar la biblioteca de primera cadena, tal como 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45 o más de 45 minutos. En algunos casos, la reacción se agita en algunos momentos durante esta incubación, tal como cada 10 minutos.
La prolongación avanza desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Si se proporcionan dNTP y biotina-ddNTP en una relación del 99 %/1 %, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotinaddNTP. En algunos casos en los que no se varían simultáneamente otros parámetros, la proporción de ddNTP disminuye, el N50, que representa la longitud de al menos el 50 % de los productos de prolongación, aumenta.
Una vez finalizado el período de incubación, se detiene la reacción, por ejemplo, por inactivación térmica a 98 °C durante cinco minutos. Como alternativa, la inactivación puede realizarse a otra temperatura, o por adición de un agente quelante o una dNTPasa.
Como se ha mencionado anteriormente, en algunos casos se marca un ddNTP incorporado, tal como mediante un marcador de biotina. En algunos casos se contemplan alternativas a la biotina, tales como el dinitrofenilo. Cualquier marcador de afinidad que se una al ddNTP y se incorpore en una molécula de ácido nucleico naciente por al menos una polimerasa de ácido nucleico es coherente con la presente divulgación. De forma análoga, cualquier marcador de afinidad que se entregue a un extremo de ddNTP de una molécula de ácido nucleico, por ejemplo a través de un resto de unión a ddNTP, también es coherente con la divulgación del presente documento. En algunos casos, el marcador de afinidad es biotina-ddNTP.
En algunos casos, se proporciona un agente de unión a marcador para que se una a moléculas de ácido nucleico de primera cadena marcadas como se proporcionan en el presente documento, tal como la avidina o la estreptavidina en el caso del marcador biotina. En determinados casos, la estreptavidina se une a perlas magnéticas, de manera que la estreptavidina y cualquier compañero de unión se aíslen mediante su colocación en un campo magnético, tal como en un soporte magnético.
Las bibliotecas de primera cadena marcadas se aíslan usando un agente de unión a marcador, por ejemplo, estreptavidina frente a un extremo de ácido nucleico de ddNTP marcado con biotina. En algunos casos, la mezcla de perlas/muestra se incuba a 22 °C y se agita a intervalos de 10 minutos durante 30 minutos. Después, la mezcla se coloca en un soporte magnético y, tras la sedimentación de las perlas, se retira el sobrenadante. El tubo se agita y se deja reposar en un soporte magnético. Las perlas se lavan tres veces con 200 ul de tampón TE. Las combinaciones alternativas de marcador-agentes de unión y los protocolos alternativos son coherentes con la divulgación del presente documento.
En algunos casos, las moléculas de primera cadena se purifican independientemente del marcaje, por ejemplo, mediante selección por tamaño, tal como electroforesis en gel, seguida de purificación de ácidos nucleicos de un tamaño deseado. En algunos casos, los fragmentos tienen un intervalo de tamaño de 10-100, 10-150, 10-200, 1-300, 10-350, 10-400, 10-500, 10-600, 10-700, 10-800, 10-900 o 10-1000, las bases están aisladas.
Los moldes de biblioteca de primera cadena como se han purificado anteriormente se reintroducen en un tampón de reacción. Por ejemplo, los moldes, en algunos casos, se separan de sus marcadores de purificación, se eluyen de los marcadores de estreptavidina y se resuspenden en tampón de síntesis de ácido nucleico que incluye dNTP. En algunos casos, los moldes permanecen unidos a sus marcadores de purificación, se lavan y se resuspenden en tampón de reacción. En algunos casos se incluye un lavado con NaOH después de la generación de bibliotecas de primera cadena, para retirare secuencias de arrastre y disminuir el autopliegue del producto de biblioteca de primera cadena.
Las moléculas de segunda cadena de biblioteca se sintetizan como se indica a continuación. Se añade una segunda biblioteca de sonda, que comprende una población de cebadores de segunda cadena. En algunos casos, cada cebador de segunda cadena comprende una secuencia de adaptador B en posición 5' con respecto a una secuencia de oligómeros aleatorios tal como un 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30-mero, o un oligómero más grande (por ejemplo un octámero) seguido de un OH en posición 3' a partir del que se produce la prolongación dirigida por molde. En algunos casos, el adaptador de secuencias se configura para que comprenda una secuencia de identificador variable. En casos alternativos, el adaptador de secuencia es invariable. Los adaptadores de secuencia se usan en algunos casos como sitios de unión a cebador para la posterior adición de un adaptador de secuenciación, tal como un adaptador B, tal como a través de la adición de una secuencia dirigida por cebador patrón a través de amplificación.
En algunos casos, después la población de oligonucleótidos se sintetiza de manera que todas las combinaciones posibles de una secuencia de bases de oligómeros aleatorios dada (tales como octámeros aleatorios) están representadas en la población de oligonucleótidos de segunda cadena. En otros casos, particularmente cuando se selecciona un oligómero aleatorio largo, pero también ocasionalmente en casos de oligómeros más pequeños, están presentes menos de todas las combinaciones posibles de una secuencia de bases de oligómeros aleatorios dada.
En algunos casos, las bases del oligómero aleatorio representan una distribución aleatoria insesgada de bases de ácido nucleico en proporciones iguales. En algunos casos, cada base tiene la misma probabilidad de aparecer en una posición dada, o en agregado en una población de oligómeros aleatorios. En otros casos, sin embargo, para aumentar la eficacia de la hibridación y, posteriormente, la síntesis de segunda cadena, la población se sintetiza de manera que incluya un sesgo para oligómeros aleatorios (tales como octámeros aleatorios) que tengan una representación sesgada de determinadas bases o pares de bases. Se observa que el genoma humano, por ejemplo, tiene un porcentaje de CG de aproximadamente el 40 %, en lugar de una composición de GC del 50 % como se espera de una abundancia de bases aleatorias verdadera. Véanse, por ejemplo, las FIG. 10A-10C. En algunos casos, la distribución de oligómeros aleatorios está sesgada de manera que la distribución global de la secuencia de oligómeros aleatorios (tal como una secuencia octamérica) en la biblioteca de síntesis de segunda cadena refleja la de un promedio objetivo sesgado, tal como el promedio de un genoma objetivo, un locus objetivo, una familia de genes objetivo, un elemento genómico objetivo (tal como exones, intrones, o la secuencia promotora, por ejemplo), o en algunas realizaciones, para que coincida con el genoma humano en su conjunto.
La mezcla se calienta a 98 °C durante 3 minutos. La mezcla se enfría en hielo durante 2 minutos para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de segunda cadena y la biblioteca de primera cadena. Se observa que algunos oligonucleótidos demuestran una complementariedad inversa completa entre su octámero aleatorio y la secuencia de primera cadena a la que se une cada uno. T ambién se observa que algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el octámero aleatorio del oligo. La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
La composición se calienta hasta la temperatura ambiente y se deja que continúe durante 30 minutos. Para muestras con menor cantidad de ADN de entrada, este período de tiempo se alarga.
Se observa la prolongación desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se alcanza el extremo 5' del molde de primera cadena. Se observa que los oligos de segunda cadena que se hibridan en dirección opuesta al extremo 3' del molde de primera cadena experimentan una prolongación desde sus extremos 3', pero se desplazan de la primera cadena por reacciones de prolongación cebadas por oligos que se hibridan más hacia el extremo 3' del molde de primera cadena.
En consecuencia, se sintetizan moléculas de biblioteca bicatenarias, que comprenden dos cadenas distintas: 1) una primera cadena que tiene, desde el extremo 5', un adaptador A, una secuencia de octámeros aleatorios y una secuencia objetivo del orden de 1-100 nucleótidos, terminando en un ddNTP marcado con biotina; y 2) una segunda cadena que tiene, desde el extremo 5' un adaptador B, una segunda secuencia de octámeros aleatorios, una secuencia objetivo derivada de la muestra, una primera secuencia de octámeros aleatorios complementaria al octámero aleatorio de la primera cadena, y una secuencia complementaria inversa al primer adaptador A.
En algunos casos, se usan perlas magnéticas de estreptavidina para aislar las moléculas de biblioteca bicatenarias marcadas con biotina. Se proporcionan perlas magnéticas de estreptavidina, por ejemplo, en tampón de unión, se mezclan y se dejan reposar en un soporte magnético. El tampón de unión después puede reemplazarse por un volumen de 25 ul, 50 ul, 75 ul, 100 ul, 125 ul, 150 ul, 175 ul, 200 ul, 225 ul, 250 ul, 275 ul, 300 ul, 350 ul, 400 ul, 450 ul o 500 ul y se repite el proceso. Después, el sobrenadante se extrae y las perlas pueden resuspenderse en 5 ul, 10 ul, 12 ul, 14 ul, 16 ul, 18 ul, 20 ul, 22 ul, 24 ul, 26 ul, 28 ul, 30 ul, 31 ul, 32 ul, 33 ul, 34 ul, 35 ul, 36 ul, 37 ul, 38 ul, 39 ul, 40 ul, 41 ul, 42 ul, 43 ul, 44 ul, 45 ul, 46 ul, 47 ul, 48 ul, 49 ul, 50 ul, 52 ul, 54 ul, 56 ul, 58 ul o 60 ul de tampón de unión.
En algunos casos, las moléculas de biblioteca bicatenarias marcadas con biotina se añaden a las perlas resuspendidas. En algunos casos, la mezcla de perlas/muestra se incuba a 22 °C y se agita a intervalos de 10 minutos durante 30 minutos. Después, la mezcla se coloca en un soporte magnético y, tras la sedimentación de las perlas, se retira el sobrenadante. El tubo se agita y se deja reposar en un soporte magnético. Las perlas se lavan tres veces con 200 ul de tampón TE. En algunos casos, esto da como resultado una población de moléculas de biblioteca bicatenarias, purificadas por estreptavidina, que comprenden dos cadenas distintas: 1) una primera cadena que tiene, desde el extremo 5', un adaptador A, una secuencia de oligómeros (tal como un octámero) aleatorios y una secuencia objetivo del orden de 1-100 nucleótidos, terminando en un ddNTP marcado con biotina; y 2) una segunda cadena que tiene, desde el extremo 5' un adaptador B, una segunda secuencia de oligómeros aleatorios (tal como un octámero), una secuencia objetivo derivada de la muestra, una primera secuencia de oligómeros aleatorios (tal como un octámero) complementaria al oligómero aleatorio (tal como un octámero) de la primera cadena, y una secuencia complementaria inversa al primer adaptador A. Las combinaciones alternativas de marcador-agentes de unión y los protocolos alternativos son coherentes con la divulgación del presente documento.
Después, las perlas magnéticas de estreptavidina se unen a la población de moléculas de biblioteca bicatenarias, por ejemplo, se resuspenden en una cantidad de agua sin nucleasas. Esta cantidad puede ser de 10 ul, 12 ul, 14 ul, 16 ul, 18 ul, 20 ul, 22 ul, 24 ul, 26 ul, 28 ul, 30 ul, 32 ul, 34 ul, 36 ul, 37 ul, 38 ul, 39 ul, 40 ul, 41 ul, 42 ul, 43 ul, 44 ul, 45 ul, 46 ul, 47 ul, 48 ul, 50 ul, 52 ul, 54 ul, 56 ul, 58 ul o 60 ul de agua sin nucleasas. Se añade una cantidad de cebador de Adaptador A y una cantidad de cebador de Adaptador B a las perlas resuspendidas. La cantidad de cebador de Adaptador A y la cantidad de cebador de Adaptador B pueden ser iguales o pueden ser diferentes. La cantidad de cebador de Adaptador A y la cantidad de cebador de Adaptador B pueden ser independientemente 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul o 10 ul. En algunos casos, el cebador de Adaptador A comprende una secuencia idéntica a la del primer adaptador del molde bicatenario en el extremo 3' del cebador y comprende adicionalmente la secuencia necesaria para la secuenciación por reacciones de síntesis como se describe en el presente documento. En otros casos, el cebador de Adaptador A tiene un desapareamiento de par de bases, dos desapareamientos de pares de bases, tres desapareamientos de pares de bases, cuatro desapareamientos de pares de bases, cinco desapareamientos de pares de bases, seis desapareamientos de pares de bases, siete desapareamientos de pares de bases, ocho desapareamientos de pares de bases, nueve desapareamientos de pares de bases o diez desapareamientos de pares de bases con la secuencia del primer adaptador del molde bicatenario en el extremo 3' del cebador. En algunos casos, el cebador de Adaptador B comprende una secuencia idéntica a la del segundo adaptador de la segunda cadena del molde bicatenario en el extremo 3' del cebador y comprende adicionalmente la secuencia necesaria para la secuenciación por reacciones de síntesis como se describe en el presente documento. En otros casos, el cebador de Adaptador B tiene un desapareamiento de par de bases, dos desapareamientos de pares de bases, tres desapareamientos de pares de bases, cuatro desapareamientos de pares de bases, cinco desapareamientos de pares de bases, seis desapareamientos de pares de bases, siete desapareamientos de pares de bases, ocho desapareamientos de pares de bases, nueve desapareamientos de pares de bases o diez desapareamientos de pares de bases con la secuencia del segundo adaptador de la segunda cadena del molde bicatenario en el extremo 3' del cebador.
Se añade 2x mezcla maestra de PCR en una cantidad de 10 ul, 15 ul, 20 ul, 25 ul, 30 ul, 35 ul, 40 ul, 45 ul, 50 ul, 55 ul, 60 ul, 65 ul, 70 ul, 75 ul, 80 ul, 85 ul, 90 ul, 95 ul o 100 ul a la mezcla de perlas y cebadores. En algunos casos, esta mezcla después se somete a termociclado como se indica a continuación: aproximadamente 98 °C durante aproximadamente 2 minutos; seguido de aproximadamente 6 ciclos de aproximadamente 98 °C, durante aproximadamente 20 segundos, aproximadamente 60 °C, durante aproximadamente 30 segundos y aproximadamente 72 °C, durante aproximadamente 30 segundos; después de dichos aproximadamente seis ciclos, la reacción se mantiene a aproximadamente 72 °C durante aproximadamente 5 minutos y después se almacena a aproximadamente 4 °C. La presente divulgación prevé la optimización de las condiciones de termociclado, tales como el aumento del número de ciclos de PCR para muestras con menor entrada de molde. En algunos casos, la amplificación se realiza sin PCR. En un ejemplo, se usa ácido nucleico molde con cebadores que contienen adaptadores de secuenciación de longitud completa y se realiza la síntesis de primera cadena y la síntesis de segunda cadena con una selección por tamaño posterior. Esto puede requerir o no el uso de horquillas para evitar la dimerización.
En algunos casos, se observa que la biblioteca de secuenciación generada de este modo tiene las siguientes características. Cada molécula bicatenaria comprende, en orden, una secuencia de adaptador A suficiente para la secuenciación por síntesis, una primera secuencia de oligómeros aleatorios (tal como un octámero), una región objetivo de longitud desconocida pero probablemente de 1-100 bases, una segunda secuencia de oligómeros aleatorios (tal como un octámero), y una secuencia de adaptador B suficiente para la secuenciación por síntesis como se desvela en el presente documento.
En algunos casos, se observa que los componentes de biblioteca poseen las siguientes características. Cada molécula comprende un primer marcador molecular (tal como un octámero) que es independiente del primer marcador molecular (tal como un octámero) de otras moléculas de la biblioteca. Cada molécula comprende una secuencia objetivo, correspondiente a la secuencia de la muestra original. El punto de partida de la secuencia objetivo, la longitud de la secuencia objetivo y el punto final de la secuencia objetivo de cada molécula dada es independiente del punto de partida, la longitud y el punto final de cada una de las moléculas de la biblioteca. Cada molécula comprende un segundo marcador molecular (tal como un octámero) que es independiente del segundo marcador molecular (tal como un octámero) de otras moléculas de la biblioteca.
En algunos casos, se observa que la biblioteca, en conjunto, posee las siguientes características. Sustancialmente toda la secuencia de muestra está representada en la biblioteca por múltiples moléculas superpuestas. Sustancialmente todas las moléculas de biblioteca (salvo eventos excepcionales), antes de la adición final de los adaptadores A y B a través de termociclado, son únicas, variando entre sí en cuanto a su primer marcador molecular (tal como un octámero), punto de partida de secuencia objetivo, secuencia objetivo, longitud de secuencia objetivo, punto final de secuencia objetivo y segunda secuencia de marcador molecular (tal como un octámero).
En algunos casos, una biblioteca de secuencias como se genera en el presente documento se somete a secuencia por síntesis compatible con su adaptador A y su adaptador B, y se evalúan los resultados de secuencias. Independientemente, una segunda alícuota de la muestra original puede prepararse para la secuenciación usando el marcaje convencional de biblioteca basado en PCR que implica una amplificación sustancial basada en PCR del molde no marcado. Las bibliotecas se secuencian y los resultados se comparan.
La muestra a partir de la que se generan las bibliotecas es heterocigótica en una primera posición en el genoma, que comprende una sola variante de base. Durante la generación de bibliotecas, tanto para el método tradicional como para el uso de los métodos y composiciones que se desvelan en el presente documento, se producen mutaciones puntuales con una frecuencia pequeña.
Se genera y se ensambla la secuencia a partir de un método convencional de generación de bibliotecas. Se observan lecturas de secuencias que difieren en una sola base en una sola posición homóloga. Se obtienen múltiples lecturas que representan cada una cada alelo en la posición. Se infiere que la diferencia de una sola base representa una base en la que la muestra original es heterocigótica.
En algunos casos, se genera y se analiza la secuencia de una biblioteca generada como se desvela en el presente documento. Se observan lecturas de secuencias que difieren en una sola base en una sola posición homóloga. Un número de lecturas, por ejemplo 40, representa la base variante. Se observa que todas las lecturas que representan la base variante en la posición comparten una primera secuencia común de oligómeros aleatorios (tal como un octámero), un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de oligómeros aleatorios (tal como un octámero), es decir, todas las lecturas que indican que la base variante cartografía una sola molécula de biblioteca sintetizada. Se observa que otro número de lecturas, tal como 40, abarca la posición de bases, ninguna de las cuales indica la presencia de la base variante. Se observa que el número de lecturas que no representan la base variante en la posición homóloga cartografían múltiples moléculas de biblioteca sintetizadas distintas, como se indica mediante la evaluación de una primera secuencia de oligómeros aleatorios (tal como un octámero), un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de oligómeros aleatorios (tal como un octámero). Se concluye que las lecturas que representan la base variante son el resultado de un error de incorporación seguido de una amplificación diferencial del evento de síntesis erróneo. La información de secuencia se excluye del ensamblaje de secuencia.
En algunos casos, la secuencia de una biblioteca como se genera en el presente documento se compara con la secuencia conocida de una muestra objetivo, y las entradas de la secuencia de biblioteca que representan apareamientos exactos con la secuencia objetivo en toda la longitud de la entrada de biblioteca se excluyen de la biblioteca, de manera que ninguna entrada de la biblioteca se aparea exactamente con la secuencia de muestra en toda su longitud, incluyendo dicha longitud la secuencia del oligonucleótido de primera o segunda cadena.
En algunas realizaciones, la secuencia de una biblioteca generada como se describe en el presente documento se genera y analiza con respecto a una segunda posición supuestamente heterocigótica. Se observan lecturas de secuencias que difieren en una sola base en una sola posición homóloga. Un número de lecturas, tal como 40, representa la base variante. Se observa que otro número de lecturas, tal como 50, que representan la base variante en la posición cartografían múltiples moléculas de biblioteca sintetizadas distintas, como se indica mediante la evaluación de una primera secuencia de oligómeros aleatorios (tal como un octámero), un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de oligómeros aleatorios (tal como un octámero). Se observa que otras múltiples lecturas, tales como 40, abarcan la posición de bases, ninguna de las cuales indica la presencia de la base variante. Se observa que el número de lecturas que no representan la base variante en la posición homóloga cartografían múltiples moléculas de biblioteca sintetizadas distintas, como se indica mediante la evaluación de una primera secuencia de oligómeros aleatorios (tal como un octámero), un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de oligómeros aleatorios (tal como un octámero). Se concluye que las lecturas que representan la base variante son el resultado de una representación precisa de la secuencia de muestra, como se indica por la variante que aparece en múltiples moléculas generadas independientemente en la biblioteca.
En algunos casos, una biblioteca de secuencias como se genera en el presente documento se somete a secuencia por síntesis compatible con su adaptador A y su adaptador B, y se evalúan los resultados de secuencias. Independientemente, una segunda alícuota de la muestra original se prepara para la secuenciación usando el marcaje convencional de biblioteca basado en PCR que implica una amplificación sustancial basada en PCR del molde no marcado. Las bibliotecas se secuencian y los resultados se comparan.
Puede observarse que en los resultados de secuenciación de bibliotecas de secuencias tradicional se identifica una secuencia correspondiente a un transposón. Se observa que la unidad monomérica de transposón se encuentra adyacente a múltiples secuencias de borde no transposónicas, lo que sugiere que está presente en múltiples copias en la muestra. Las lecturas de transposón corresponden a un porcentaje, tal como el 5 %, de la secuencia total generada. Se concluye que los transposones representan un porcentaje, tal como el 5 %, de la muestra de ácido nucleico.
Se genera y se analiza la secuencia de una biblioteca generada como se desvela en el presente documento. Se identifican lecturas de secuencia correspondientes a un transposón. Las lecturas de transposón corresponden a un porcentaje, tal como el 5 %, de la secuencia total generada. Se observa que las lecturas de la secuencia que cartografían la secuencia del transposón cartografían una pluralidad de moléculas únicas de biblioteca sintetizada, como se indica mediante la evaluación de una primera secuencia de oligómeros aleatorios (tal como un octámero), un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de oligómeros aleatorios (tal como un octámero). Se observa que cada molécula única de biblioteca sintetizada que representa la secuencia de transposón está representada por no más que por un número bajo, tal como 2 o 3, de lecturas de secuencia. En comparación, la lectura única promedio está representada por un número elevado, tal como entre 10 y 20, de lecturas de secuencia en este conjunto de datos particular. Esta pluralidad de lecturas de cartografiado de transposón, en total, representa un porcentaje, tal como el 30 %, del número total de lecturas únicas en el conjunto de datos de secuencia.
Se concluye a partir del conjunto de datos de secuencia generado a partir de la biblioteca de secuenciación generada como se desvela en el presente documento que la secuencia de transposón representa un porcentaje, tal como aproximadamente el 30 %, de la secuencia de la muestra proporcionada, en lugar del porcentaje, tal como el 5 %, que sugiere el análisis de las lecturas de secuencia de la biblioteca producida a través de métodos anteriores, y puede concluirse adicionalmente que la secuencia de transposón particular está mal amplificada con respecto a otra secuencia en el conjunto de datos.
En algunos casos, una biblioteca de secuencias como se genera en el presente documento se somete a secuencia por síntesis compatible con su adaptador A y su adaptador B, y se evalúan los resultados de secuencias. Independientemente, una segunda alícuota de la muestra original se prepara para la secuenciación usando el marcaje convencional de biblioteca basado en PCR que implica una amplificación sustancial basada en PCR del molde no marcado. Las bibliotecas se secuencian y los resultados se comparan.
Puede observarse que una secuencia leída a partir del marcaje de bibliotecas convencional basado en PCR comprende una secuencia que cartografía dos cóntigos distintos que no se piensa que sean adyacentes en el genoma humano de referencia. Se genera una muestra separada y se usa PCR que usa cebadores recién sintetizados que flanquean la secuencia de unión identificada para confirmar que las secuencias son de hecho adyacentes.
Se genera y se analiza la secuencia de una biblioteca generada como se desvela en el presente documento. Puede observarse que las lecturas de secuencia que abarcan las dos secuencias de cóntigos no adyacentes cartografían una pluralidad de moléculas de biblioteca sintetizadas únicas, como indica la evaluación de la primera secuencia de oligómeros aleatorios (tal como un octámero), un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de oligómeros aleatorios (tal como un octámero). Se concluye que las lecturas de secuencia que abarcan las dos secuencias de cóntigos no adyacentes son de hecho adyacentes en la fuente de la muestra.
En algunos casos, se obtiene una muestra de ARN total de una población de células. En algunos casos, la muestra de ARN total se obtiene de una población de células de tan solo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100 células o más de 100 células. La muestra se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena. Los oligonucleótidos de primera cadena comprenden cada uno un adaptador de secuencia en posición 5' de un oligómero aleatorio (tal como un octámero) seguido de un OH en posición 3' a partir del cual se produce la prolongación dirigida por molde.
La población de oligómeros aleatorios (tal como un octámero) de los oligos de primera ronda de síntesis representa todos los oligómeros aleatorios posibles de una longitud especificada (tal como octámeros), pero la abundancia relativa de cada oligómero aleatorio (tal como un octámero) está sesgada para que coincida con la abundancia relativa de pares de bases GC frente a AT en el transcriptoma humano. Una cantidad de la población, tal como 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul o 10 ul, se añade a la muestra.
En algunos casos, también se añade a la composición un tampón de transcriptasa inversa de VIH que comprende reactivos coherentes con la actividad transcriptasa inversa de VIH y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina, en una relación de desoxi NTP con respecto a di-desoxi NTP. Un intervalo de relaciones de dNTP/ddNTP es coherente con la divulgación del presente documento. Relaciones del 99,9 %/0,1 %, 99,5 %/0,5 %, 99 %/1 %, 98 %/2 % y relaciones alternativas son coherentes con la divulgación del presente documento. En algunos casos se selecciona una relación relativa del 99 % de desoxi NTP con respecto al 1 % de didesoxi NTP. Una cantidad, tal como 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul o 10 ul del tampón/composición de NTP se añade a la muestra.
En algunos casos, la mezcla se diluye a un volumen total. Este volumen total puede ser de 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul, 10 ul, 11 ul, 12 ul, 13 ul, 14 ul, 15 ul, 16 ul, 17 ul, 18 ul, 19 ul, 20 ul, 21 ul, 22 ul, 23 ul, 24 ul, 25 ul, 26 ul, 27 ul, 28 ul, 29 ul o 30 ul. La mezcla se desnaturaliza, en algunos casos por calentamiento por encima de una temperatura de fusión, tal como 95 °C, 96 °C, 97 °C, 98 °C o 99 °C, o una temperatura superior, durante un período de tiempo. En muchos casos, una temperatura por debajo de 100 °C es de ejemplo. El período de tiempo puede ser de menos de 1 minuto, aproximadamente 1 minuto, aproximadamente 2 minutos, aproximadamente 3 minutos, aproximadamente 4 minutos, aproximadamente 5 minutos, aproximadamente 6 minutos, aproximadamente 7 minutos, aproximadamente 8 minutos, aproximadamente 9 minutos o aproximadamente 10 minutos. Durante este tiempo, el ADN genómico se "funde" en cadenas simples no unidas por enlaces de hidrógeno entre bases complementarias.
Después, la mezcla se enfría, por ejemplo en hielo durante 30 segundos, 1, 2 o más de 2 minutos, o a 4 °C durante 30 segundos, 1, 2 o más de 2 minutos, o a una temperatura de enfriamiento alternativa, suficiente para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra de ARN. En algunos casos, algunos o todos los oligonucleótidos de síntesis de primera cadena demuestran una complementariedad inversa completa entre su oligo aleatorio (tal como un octámero aleatorio) y la secuencia de ARN a la que se une cada uno. En algunos casos, algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el oligómero aleatorio del oligo (tal como un octámero aleatorio). La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa en algunos casos no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
En algunos casos, se añade a la composición una transcriptasa inversa de VIH (1 ul) que tiene actividad de desplazamiento de cadena y la capacidad de incorporar biotina-ddNTP. La mezcla se calienta hasta una temperatura coherente con la actividad transcriptasa inversa de VIH, tal como la actividad óptima (por ejemplo, 20 °C, 21 °C, 22 °C, 23 °C, 24 °C, 25 °C, 26 °C, 27 °C, 28 °C, 29 °C, 30 °C, 31 °C, 32 °C, 33 °C, 34 °C, 35 °C, 36 °C, 37 °C, 38 °C, 39 °C, 40 °C, 41 °C, 42 °C, o en algunos casos un número mayor o menor que un número en este intervalo) y se incuba durante un período suficiente para sintetizar la biblioteca de primera cadena, tal como 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45 o más de 45 minutos. En algunos casos, la reacción se agita en algunos momentos durante esta incubación, tal como cada 10 minutos.
La prolongación avanza desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Si se proporcionan dNTP y biotina-ddNTP en una relación del 99 %/1 %, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotinaddNTP. En algunos casos en los que no se varían simultáneamente otros parámetros, la proporción de ddNTP disminuye, el N50, que representa la longitud de al menos el 50 % de los productos de prolongación, aumenta.
Una vez finalizado el período de incubación, se detiene la reacción, por ejemplo, por inactivación térmica a 98 °C durante cinco minutos. Como alternativa, la inactivación puede realizarse a otra temperatura, o por adición de un agente quelante o una dNTPasa.
En algunos casos, la muestra después se somete a purificación, síntesis de segunda cadena y adición de marcador de biblioteca como se ha descrito anteriormente.
En algunos casos, la PCR cuantitativa tradicional (Q-PCR) se realiza sobre una alícuota de una muestra de ARN total obtenida de una población de células, tal como una población de células de tan solo 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100 células o más de 100 células. La muestra se transcribe en sentido inverso usando cebadores aleatorios y la PCR se realiza en presencia de un colorante de unión a ADN bicatenario, tal como SYBR-Green, para cuantificar la síntesis de amplicones a lo largo del tiempo, como medida del número de copias de molde subyacente.
Puede observarse que un primer transcrito y un segundo transcrito de longitud similar conducen a fluorescencia del colorante de unión a ADN bicatenario (tal como la fluorescencia de SYBR) de sus amplicones respectivos en un ciclo similar del proceso de amplificación. Se concluye que el primer y el segundo transcrito se acumulan aproximadamente al mismo nivel en la población de células de las que deriva el molde de ARN.
La biblioteca de secuencias de ADNc como se ha descrito anteriormente se secuencia y se analizan los resultados. Se observa que el primer transcrito está representado en un número de lecturas de secuencia, tal como 100 lecturas, que cartografían 1 molde único como se indica mediante la evaluación de una primera secuencia de oligómeros aleatorios (tal como un octámero), un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de oligómeros aleatorios (tal como un octámero). La segunda transcripción está representada en un número de lecturas de secuencia, tal como 100 lecturas, que cartografían 50 moldes únicos como se indica mediante la evaluación de una primera secuencia de oligómeros aleatorios (tal como un octámero), un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de oligómeros aleatorios (tal como un octámero), y cada uno está representado por 1-3 lecturas.
Puede concluirse entonces que el segundo transcrito está presente a un nivel 50 veces mayor que el del primer molde. También se concluye que el molde único generado a partir del primer transcrito se amplifica de forma diferencial con respecto a los moldes de la segunda cadena.
En algunos casos, se obtiene una muestra de ADN genómico y se fragmenta. Los fragmentos se seleccionan por tamaño para que tengan un tamaño mínimo, tal como 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 11 kb, 12 kb, 13 kb, 14 kb, 15 kb, 16 kb, 17 kb, 18 kb, 19 kb, 20 kb, 21 kb, 22 kb, 23 kb, 24 kb, 25 kb, 26 kb, 27 kb, 28 kb, 29 kb o 30 kb. Los fragmentos seleccionados por tamaño se diluyen en no más de 100 fragmentos por cada alícuota y se distribuyen en tubos de reacción separados.
En algunos casos, cada muestra dividida en alícuotas después se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena. Los oligonucleótidos de primera cadena comprenden cada uno una etiqueta única de tubo de reacción en posición 5' con respecto a un adaptador de secuencia en posición 5' de una secuencia de oligómeros aleatorios, tal como un 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 mero, o un oligómero mayor, seguido de un OH en posición 3' a partir del cual se produce la prolongación dirigida por molde. La secuencia de la etiqueta de tubo de reacción es común a todos los oligos de síntesis de primera cadena añadidos a un tubo dado, pero varía entre los tubos. El oligómero aleatorio (tal como un octámero) es único para un solo oligo, aunque los métodos que se desvelan en el presente documento toleran fácilmente un pequeño grado de redundancia, e incluso se acomoda un gran grado de redundancia.
Como se ha analizado anteriormente, la población de oligómeros aleatorios (tal como un octámero) de los oligos de primera ronda de síntesis representa todos los oligómeros aleatorios posibles de una longitud especificada (tal como octámeros), pero la abundancia relativa de cada oligómero aleatorio de una longitud especificada (tal como octámeros) está sesgada para que coincida con la abundancia relativa de pares de bases GC frente a AT en el genoma humano. Una cantidad de la población, tal como 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul o 10 ul, se añade a la muestra.
También se añade a la composición un tampón de polimerasa que comprende reactivos coherentes con la actividad de ADN polimerasa y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina. Un intervalo de relaciones de dNTP/ddNTP es coherente con la divulgación del presente documento. Relaciones del 99,9 %/0,1 %, 99,5 %/0,5 %, 99 %/1 %, 98 %/2 % y relaciones alternativas son coherentes con la divulgación del presente documento. En algunos casos se selecciona una relación relativa del 99 % de desoxi NTP con respecto al 1 % de didesoxi NTP. Una cantidad, tal como 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul o 10 ul del tampón/composición de NTP se añade a la muestra.
En algunos casos, la mezcla se diluye a un volumen total. Este volumen total puede ser de 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul, 10 ul, 11 ul, 12 ul, 13 ul, 14 ul, 15 ul, 16 ul, 17 ul, 18 ul, 19 ul, 20 ul, 21 ul, 22 ul, 23 ul, 24 ul, 25 ul, 26 ul, 27 ul, 28 ul, 29 ul o 30 ul. La mezcla se desnaturaliza, en algunos casos por calentamiento por encima de una temperatura de fusión, tal como 95 °C, 96 °C, 97 °C, 98 °C o 99 °C, o una temperatura superior, durante un período de tiempo. En muchos casos, una temperatura por debajo de 100 °C es de ejemplo. El período de tiempo puede ser de menos de 1 minuto, aproximadamente 1 minuto, aproximadamente 2 minutos, aproximadamente 3 minutos, aproximadamente 4 minutos, aproximadamente 5 minutos, aproximadamente 6 minutos, aproximadamente 7 minutos, aproximadamente 8 minutos, aproximadamente 9 minutos o aproximadamente 10 minutos. Durante este tiempo, el ADN genómico se "funde" en cadenas simples no unidas por enlaces de hidrógeno entre bases complementarias.
Después, la mezcla se enfría, por ejemplo en hielo durante 30 segundos, 1, 2 o más de 2 minutos, o a 4 °C durante 30 segundos, 1, 2 o más de 2 minutos, o a una temperatura de enfriamiento alternativa, suficiente para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra de ARN. En algunos casos, algunos o todos los oligonucleótidos de síntesis de primera cadena demuestran una complementariedad inversa completa entre su oligo aleatorio (tal como un octámero aleatorio) y la secuencia de ARN a la que se une cada uno. En algunos casos, algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el oligómero aleatorio del oligo (tal como un octámero aleatorio). La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa en algunos casos no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
En algunas realizaciones, se añade a la composición ADN polimerasa SEQUENASE (1 ul) que tiene actividad de desplazamiento de cadena y es capaz de incorporar biotina-ddNTP. La mezcla se calienta a una temperatura coherente con la actividad de SEQUENASE, tal como la actividad óptima (por ejemplo, 20 °C, 21 °C, 22 °C, 23 °C, 24 °C, 25 °C, 26 °C, 27 °C, 28 °C, 29 °C, 30 °C, 31 °C, 32 °C, 33 °C, 34 °C, 35 °C, 36 °C, 37 °C, 38 °C, 39 °C, 40 °C, 41 °C, 42 °C, o en algunos casos un número mayor o menor que un número en este intervalo) y se incuba durante un período suficiente para sintetizar la biblioteca de primera cadena, tal como 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45 o más de 45 minutos. En algunos casos, la reacción se agita en algunos momentos durante esta incubación, tal como cada 10 minutos.
La prolongación avanza desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Si se proporcionan dNTP y biotina-ddNTP en una relación del 99 %/1 %, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotinaddNTP. En algunos casos en los que no se varían simultáneamente otros parámetros, la proporción de ddNTP disminuye, el N50, que representa la longitud de al menos el 50 % de los productos de prolongación, aumenta.
Una vez finalizado el período de incubación, se detiene la reacción, por ejemplo, por inactivación térmica a 98 °C durante cinco minutos. Como alternativa, la inactivación puede realizarse a otra temperatura, o por adición de un agente quelante o una dNTPasa.
En algunos casos, la muestra se somete después a purificación y a síntesis de segunda cadena, como se ha indicado anteriormente. Se añaden ciclos adicionales a las etapas de termociclado de marcador de biblioteca para tener en cuenta la cantidad baja de material de muestra de partida.
En algunos casos, se realiza secuenciación tradicional en una muestra genómica dividida en alícuotas de la muestra descrita anteriormente antes de la etapa de dilución. Se genera una biblioteca de secuenciación y se genera información de secuencia. Los datos de secuencia se ensamblan frente a un armazón de cóntigos de genoma humano. Se identifican un primer y un segundo polimorfismo de un solo nucleótido dentro de los datos de secuencia y la muestra se califica como heterocigótica en estos sitios. Los sitios heterocigóticos se cartografían en un solo cóntigo. Puede que no esté claro a partir de la información de secuencia cuál es el estado de unión física entre los polimorfismos, es decir, puede que no esté claro qué polimorfismos están apareados entre sí, o en fase entre sí, en la misma molécula de ácido nucleico real, y qué polimorfismos no están unidos físicamente.
En algunas realizaciones, se prepara una segunda muestra como se ha desvelado anteriormente. La biblioteca marcada se masifica y se secuencia. Se identifican los mismos primeros y segundos polimorfismos. Los polimorfismos se cartografían cada uno en múltiples moldes que varían en su primera secuencia de oligómeros aleatorios (tal como un octámero), sitio de inicio de secuencia objetivo, longitud de secuencia objetivo, sitio final de secuencia objetivo y segunda secuencia de oligómeros aleatorios (tal como un octámero), lo que indica que los polimorfismos se generan independientemente a partir de la muestra y no son el resultado de un solo error en la síntesis de bibliotecas que después se amplificó diferencialmente.
Se observa que la primera variante del primer polimorfismo y la primera variante del segundo polimorfismo se cartografían en algunos moldes de bibliotecas que comparten un marcador de alícuota común en posición 5' de sus secuencias de oligómeros aleatorios (diferentes) en posición 5' (tal como un octámero). Se observa que la segunda variante del primer polimorfismo y la segunda variante del segundo polimorfismo se cartografían en algunos moldes de bibliotecas que comparten un marcador de alícuota común, que difiere del de las primeras variantes mencionadas inmediatamente antes, en posición 5' de su primera secuencia de oligómeros aleatorios en posición 5' (diferente) (tal como un octámero).
Se concluye que la primera variante del primer polimorfismo y la primera variante del segundo polimorfismo están en fase, es decir, se cartografían en una sola molécula física. Se concluye que la segunda variante del primer polimorfismo y la segunda variante del segundo polimorfismo están en fase, es decir, que se cartografían en una sola molécula.
Esta conclusión no es incoherente con la presencia de algunas variantes que también se cartografían en algunos moldes de bibliotecas que tienen marcadores de alícuotas únicos. Se deduce que estas secuencias que se cartografían en marcadores de alícuotas únicos son el resultado de eventos por los que una molécula molde se escinde entre los loci de los dos polimorfismos.
Esta conclusión tampoco es incoherente con el hecho de que algunas lecturas de secuencias compartan un marcador de alícuota común a pesar de cartografiarse en regiones dispares del genoma. Como las alícuotas comprenden más de una sola molécula, diferentes lecturas de secuencias se cartografiarán en diferentes regiones del genoma. Siempre que dos fragmentos de ácido nucleico fuera de fase superpuestos no terminen en una sola alícuota, el análisis corriente abajo no se ve afectado. En el evento de que dos fragmentos de ácido nucleico fuera de fase superpuestos terminen en una sola alícuota, la presencia de ambos alelos en un locus indicará que hay presentes moléculas no unidas físicamente en una sola muestra.
En algunos casos, se realiza secuenciación tradicional en una muestra genómica dividida en alícuotas de la muestra descrita anteriormente antes de la etapa de dilución. Se genera una biblioteca de secuenciación y se genera información de secuencia. Los datos de secuencia se ensamblan frente a un armazón de cóntigos de genoma humano. Se obtiene una secuencia correspondiente a una unidad de repetición que se sabe que existe en un número de loci distintos, tales como 50, en el genoma. Se identifica un polimorfismo en la repetición de secuencia que puede afectar a la transcripción de genes en loci adyacentes. El polimorfismo está incluido en la secuencia de repetición y rodeado por ella, de manera que el polimorfismo no puede cartografiarse en ninguno del número, tal como 50, de loci distintos en el genoma.
Se prepara una segunda muestra como se ha desvelado anteriormente. La biblioteca marcada se masifica y se secuencia. Se obtiene una secuencia correspondiente al polimorfismo analizado anteriormente que puede afectar a la transcripción de genes en loci adyacentes. El polimorfismo está incluido en la secuencia de repetición y rodeado por ella. El polimorfismo se cartografía en múltiples moldes que varían en su primera secuencia de oligómeros aleatorios (tal como un octámero), sitio de inicio de secuencia objetivo, longitud de secuencia objetivo, sitio final de secuencia objetivo y segunda secuencia de oligómeros aleatorios (tal como un octámero), lo que indica que los polimorfismos se generan independientemente a partir de la muestra y no son el resultado de un solo error en la síntesis de bibliotecas que después se amplificó diferencialmente.
Se observa que el polimorfismo se cartografía en algunos moldes de bibliotecas que comparten un marcador de alícuota común en posición 5' de sus secuencias de oligómeros aleatorios (tal como un octámero) en posición 5' (diferentes). Se observa que la secuencia correspondiente a la región de repetición que flanquea el polimorfismo comparte un marcador de alícuota común en posición 5' de sus secuencias de oligómeros aleatorios (tal como un octámero) en posición 5' (diferentes). Se identifican secuencias que abarcan un borde de repetición, correspondientes tanto a la secuencia de repetición como a la secuencia adyacente que se cartografía de forma única en una sola región del genoma humano, y se observa que comparten un marcador de alícuota común en posición 5' de sus secuencias de oligómeros aleatorios (tal como un octámero) en posición 5' (diferentes).
Se concluye que el polimorfismo que puede afectar a la transcripción de los genes en loci adyacentes se cartografía en la región de repetición inmediatamente adyacente al locus de la secuencia que se cartografía de forma única en una sola región del genoma, y no en el otro número de regiones de repetición, tal como 49, de secuencia altamente similar distribuida en otras partes del genoma.
En algunos casos, se genera una población de oligonucleótidos. Cada oligo comprende un adaptador de secuencia en posición 5' de un oligómero específicamente sintetizado para hibridarse adyacente con una región de interés en el genoma humano. La longitud de este oligómero puede ser un 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30 mero o un oligómero mayor. Un ejemplo es un 25-mero. Los ejemplos de regiones de interés incluyen, pero sin limitación, exones, regiones promotoras, potenciadores de transcripción, regiones promotoras, regiones en las que se cartografían enfermedades genéticas, regiones que se sabe que son mutantes en estirpes celulares de cáncer o células tumorales, y loci que se sabe que son polimórficos en al menos una población humana. Los oligos se sintetizan para que se hibriden con cualquiera de las dos cadenas adyacentes a una región de interés, como se ha identificado anteriormente.
En algunos casos, se obtiene una muestra de ADN genómico. La muestra se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena dirigida, como se ha descrito anteriormente. Una cantidad de la población, tal como 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul o 10 ul, se añade a la muestra.
También se añade a la composición un tampón de polimerasa que comprende reactivos coherentes con la actividad de ADN polimerasa y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina, en una relación de desoxi NTP con respecto a di-desoxi NTP. Un intervalo de relaciones de dNTP/ddNTP es coherente con la divulgación del presente documento. Relaciones del 99,9 %/0,1 %, 99,5 %/0,5 %, 99 %/1 %, 98 %/2 % y relaciones alternativas son coherentes con la divulgación del presente documento. En algunos casos se selecciona una relación relativa del 99 % de desoxi NTP con respecto al 1 % de didesoxi NTP. Una cantidad, tal como 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul o 10 ul del tampón/composición de NTP se añade a la muestra.
En algunos casos, la mezcla se diluye a un volumen total. Este volumen total puede ser de 1 ul, 2 ul, 3 ul, 4 ul, 5 ul, 6 ul, 7 ul, 8 ul, 9 ul, 10 ul, 11 ul, 12 ul, 13 ul, 14 ul, 15 ul, 16 ul, 17 ul, 18 ul, 19 ul, 20 ul, 21 ul, 22 ul, 23 ul, 24 ul, 25 ul, 26 ul, 27 ul, 28 ul, 29 ul o 30 ul. La mezcla se desnaturaliza, en algunos casos por calentamiento por encima de una temperatura de fusión, tal como 95 °C, 96 °C, 97 °C, 98 °C o 99 °C, o una temperatura superior, durante un período de tiempo. En muchos casos, una temperatura por debajo de 100 °C es de ejemplo. El período de tiempo puede ser de menos de 1 minuto, aproximadamente 1 minuto, aproximadamente 2 minutos, aproximadamente 3 minutos, aproximadamente 4 minutos, aproximadamente 5 minutos, aproximadamente 6 minutos, aproximadamente 7 minutos, aproximadamente 8 minutos, aproximadamente 9 minutos o aproximadamente 10 minutos. Durante este tiempo, el ADN genómico se "funde" en cadenas simples no unidas por enlaces de hidrógeno entre bases complementarias.
Después, la mezcla se enfría, por ejemplo en hielo durante 30 segundos, 1, 2 o más de 2 minutos, o a 4 °C durante 30 segundos, 1, 2 o más de 2 minutos, o a una temperatura de enfriamiento alternativa, suficiente para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra de ARN. En algunos casos, algunos o todos los oligonucleótidos de síntesis de primera cadena demuestran una complementariedad inversa completa entre su oligo aleatorio (tal como un octámero aleatorio) y la secuencia de ARN a la que se une cada uno. En algunos casos, algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el oligómero aleatorio del oligo (tal como un octámero aleatorio). La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa en algunos casos no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
En algunas realizaciones, se añade a la composición ADN polimerasa SEQUENASE (1 ul) que tiene actividad de desplazamiento de cadena y es capaz de incorporar biotina-ddNTP. La mezcla se calienta a una temperatura coherente con la actividad de SEQUENASE, tal como la actividad óptima (por ejemplo, 20 °C, 21 °C, 22 °C, 23 °C, 24 °C, 25 °C, 26 °C, 27 °C, 28 °C, 29 °C, 30 °C, 31 °C, 32 °C, 33 °C, 34 °C, 35 °C, 36 °C, 37 °C, 38 °C, 39 °C, 40 °C, 41 °C, 42 °C, o en algunos casos un número mayor o menor que un número en este intervalo) y se incuba durante un período suficiente para sintetizar la biblioteca de primera cadena, tal como 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45 o más de 45 minutos. En algunos casos, la reacción se agita en algunos momentos durante esta incubación, tal como cada 10 minutos.
La prolongación avanza desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Si se proporcionan dNTP y biotina-ddNTP en una relación del 99 %/1 %, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotinaddNTP. En algunos casos en los que no se varían simultáneamente otros parámetros, la proporción de ddNTP disminuye, el N50, que representa la longitud de al menos el 50 % de los productos de prolongación, aumenta.
En algunos casos, la muestra se somete después a purificación y a síntesis de segunda cadena, como se ha indicado anteriormente.
En algunos casos, se realiza la secuenciación tradicional en una muestra genómica dividida en alícuotas a partir de la muestra descrita anteriormente. Se genera una biblioteca de secuenciación y se genera información de secuencia. Los datos de secuencia se ensamblan frente a un armazón de cóntigos de genoma humano. La gran mayoría de la información de secuencia generada no sirve para el diagnóstico del individuo del que se obtiene la muestra.
También se realiza secuenciación en la biblioteca de secuenciación dirigida generada, como se ha descrito anteriormente. Se ha descubierto que las lecturas de secuencia están sustancialmente enriquecidas para la secuencia de uso para el diagnóstico de un individuo del que se obtiene la muestra, y que se necesitan sustancialmente menos reactivos y menos capacidad de computación para obtener la información pertinente.
En algunos casos, se genera una biblioteca de oligonucleótidos de primera cadena de secuenciación dirigida que tiene regiones de hibridación en posición 3' que marcan cada miembro de un panel de locus de cáncer que contiene un número de miembros (tal como 102 miembros). Véase la Fig. 19. Las regiones de hibridación se seleccionan para que se hibriden a intervalos de aproximadamente 5 pb, 6 pb, 7 pb, 8 pb, 9 pb, 10 pb, 11 pb, 12 pb, 13 pb, 14 pb, 15 pb, 16 pb, 17 pb, 18 pb, 19 pb, 20 pb, 21 pb, 22 pb, 23 pb, 24 pb, 25 pb, 26 pb, 27 pb, 28 pb, 29 pb o 30 pb (por ejemplo, a intervalos de 20 pb) a lo largo del locus de cada miembro del panel en cada dirección.
Se aísla una muestra de ácido nucleico genómico de un tumor diagnosticado como benigno y que no muestra características de metástasis o malignidad. El tejido comprende células con un polimorfismo sustancial en la secuencia genómica de al menos un locus enumerado en el panel de locus genómico.
Para evaluar el estado de mutación del tejido tumoral se usa PCR tradicional usando un panel de cebadores que abarcan cada locus. Se generan amplicones, se marcan para formar una biblioteca, y se secuencian. Cada locus está presente en el producto final en el tamaño esperado para alelos de tipo silvestre de cada locus.
La biblioteca de oligonucleótidos de primera cadena dirigida de panel de cáncer que tiene regiones de hibridación en posición 3' que marcan cada miembro del panel de locus de cáncer que contiene un número de miembros (tal como 102 miembros) se aplica a una alícuota de la muestra de ácido nucleico genómico aislada del tumor.
A partir de la misma se genera una biblioteca de secuenciación y se analiza. Se determina que las copias de tipo silvestre de cada miembro del panel de cáncer que contiene un número de miembros (tal como 102 miembros) están presentes en la muestra.
En un subconjunto de lecturas que se cartografían en un represor de la división celular, se determina que el locus está interrumpido por una translocación, como indica la presencia de lecturas independientes, a juzgar por la presencia de distintas posiciones de inicio de la secuencia de oligómeros aleatorios (tal como un octámero) y de la secuencia de locus de cáncer, que abarcan independientemente una unión entre el locus de interés y la secuencia translocada. En un subconjunto de lecturas que se cartografían en un represor del crecimiento celular, se determina que el locus ha experimentado un evento de supresión, como indica la presencia de lecturas independientes, a juzgar por la presencia de distintas posiciones de inicio de la secuencia de oligómeros aleatorios (tal como un octámero) y de la secuencia de locus de cáncer, que abarcan independientemente un sitio de supresión en el que los extremos del locus están presentes pero unidos en ausencia de una secuencia intermedia.
Se encuentra que los datos de biblioteca de secuencia de panel de cáncer confirman los resultados del ensayo de panel de cebadores de PCR, en concreto, que hay presentes copias de tipo silvestre de cada locus en la muestra genómica. Además, los datos de secuenciación de panel de cáncer identifican mutaciones en dos loci que pueden ser indicativas de progresión tumoral. La muestra no es homocigótica para ninguna de estas mutaciones y se espera que cada una esté presente en una clara minoría de la muestra en su conjunto.
Ninguna de estas mutaciones se identifica mediante el ensayo de panel de cebadores de PCR. La translocación, con toda probabilidad, no se amplifica de forma diferencial, ya que los cebadores que se dirigen al locus están demasiado separados para generar un amplicón, y el amplicón de tipo silvestre se amplifica con la suficiente eficacia para secuestrar la gran mayoría de los cebadores que se dirigen al locus. Es poco probable que se detecte la supresión, ya que el efecto es acercar los cebadores lo suficiente como para que su amplicón sea comparable en tamaño a un dímero de cebador u otro artefacto de amplificación, y difícil de purificar para la secuenciación.
Esto demuestra cómo el panel de cáncer, y los métodos que se desvelan en el presente documento, en general, son capaces de generar datos de secuencia, fácilmente verificable mediante comparación de marcadores y el sitio de inicio de secuencia, correspondientes a eventos raros en muestras genómicas que se pasan por alto fácilmente en los protocolos más tradicionales de generación de secuencias dirigidas.
En algunos casos, para generar una Biblioteca Aleatoria, se sintetiza una población de oligos de síntesis de primera ronda. Los oligonucleótidos de primera cadena comprenden cada uno una región A ubicada en posición 5' de un adaptador de secuencia, ubicado a su vez en posición 5' de un oligómero aleatorio (tal como un octámero) seguido de un OH en posición 3' a partir del que se produce la prolongación dirigida por molde. La población se sintetiza de manera que todos los oligómeros aleatorios de una longitud especificada (tales como octámeros) estén representados en la población de oligonucleótidos de primera cadena. Sin embargo, para aumentar la eficacia de la hibridación y, posteriormente, de la síntesis de primera cadena, la población se sintetiza de manera que incluya un sesgo para oligómeros aleatorios (tales como octámeros) que tengan un porcentaje de GC de aproximadamente el 40 %, de manera que la distribución global de la secuencia de oligómeros aleatorios (tal como un octámero) en la biblioteca de síntesis de primera cadena refleje la del genoma humano en su conjunto.
Un primer cebador de oligonucleótidos se diseña para que sea idéntico a la región de adaptador A de la biblioteca de síntesis de oligonucleótidos de primera cadena anterior, y para que tenga un OH en posición 3' ubicado en posición 5' con respecto a la secuencia de adaptador de secuencia.
Se sintetiza un segundo cebador que tiene una temperatura de hibridación y de fusión similar a la del primer cebador de región de "adaptador A", y que tiene una especificidad de manera que se híbrida con su OH en posición 3' dirigido de manera que la prolongación se dirija hacia una región de ácido nucleico de interés.
En algunos casos, se obtiene una muestra de ácido nucleico genómico. Una muestra de ácido nucleico genómico puede proporcionarse en un amplio intervalo de cantidades. En algunos casos se proporciona una muestra de ADN genómico en una cantidad tal como de, o aproximadamente de, 1 pg, 2 pg, 3 pg, 3,2 pg, 4 pg, 5 pg, 6 pg, 7 pg, 8 pg, pg, 10 pg, 20 pg, 30 pg, 40 pg, 50 pg, 60 pg, 70 pg, 80 pg, 90 pg, 100 pg, 200 pg, 300 pg, 400 pg, 500 pg, 600 pg,
700 pg, 800 pg, 900 pg, 1 ng, 2 ng, 3 ng, 4 ng, 5 ng, 6 ng, 7 ng, 8 ng, 9 ng, 10 ng, 11 ng, 12 ng, 13 ng, 14 ng, 15 ng,
16 ng, 17 ng, 18 ng, 19 ng, 20 ng, 21 ng, 22 ng, 23 ng, 24 ng, 25 ng, 26 ng, 27 ng, 28 ng, 29 ng, 30 n 33 ng, 34 ng, 35 ng, 36 ng, 37 ng, 38 ng, 39 ng, 40 ng, 41 ng, 42 ng, 43 ng, 44 ng, 45 ng, 46 ng, 47 n 50 ng, 51 ng, 52 ng, 53 ng, 54 ng, 55 ng, 56 ng, 57 ng, 58 ng, 59 ng, 60 ng, 61 ng, 62 ng, 63 ng, 64 n 67 ng, 68 ng, 69 ng, 70 ng, 71 ng, 72 ng, 73 ng, 74 ng, 75 ng, 76 ng, 77 ng, 78 ng, 79 ng, 80 ng, 81 n 84 ng, 85 ng, 86 ng, 87 ng, 88 ng, 89 ng, 90 ng, 91 ng, 92 ng, 93 ng, 94 ng, 95 ng, 96 ng, 97 ng, 98 ng, 99 ng o 100 ng, o un valor fuera del intervalo definido por la lista mencionada anteriormente. Un ejemplo es 50 ng de la muestra. La muestra se divide en alícuotas en un tampón de reacción de PCR que comprende reactivos necesarios para la amplificación. Se añade un par de cebadores suficiente para la amplificación de una región de interés. Se añade una
ADN polimerasa termoestable activada por calor, y la mezcla se somete a un termociclado (aproximadamente 98 °C, durante aproximadamente 30 segundos; seguido de aproximadamente seis ciclos de aproximadamente 95 °C, aproximadamente 30 segundos, aproximadamente 60 °C, durante aproximadamente 20 segundos, aproximadamente
72 °C, durante aproximadamente 30 segundos; un final a aproximadamente 72 °C durante aproximadamente 2 minutos, y después almacenamiento a aproximadamente 4 °C) para amplificar la región de interés. La presente divulgación prevé la optimización de las condiciones de termociclado.
Se analiza una alícuota de la reacción. Se determina que la cantidad de amplicón generada es insuficiente para el análisis adicional.
Una segunda cantidad de la muestra (por ejemplo, 50 ng de la muestra) se divide en alícuotas en un tampón de reacción de PCR que comprende reactivos necesarios para la amplificación. Se añade un par de cebadores suficiente para la amplificación de una región de interés. Se añade una ADN polimerasa termoestable activada por calor, y la mezcla se somete a un termociclado (aproximadamente 98 °C, durante aproximadamente 30 segundos; seguido de aproximadamente treinta ciclos de aproximadamente 95 °C, aproximadamente 30 segundos, aproximadamente 60 °C, durante aproximadamente 20 segundos, aproximadamente 72 °C, durante aproximadamente 30 segundos; un final a aproximadamente 72 °C durante aproximadamente 2 minutos, y después almacenamiento a aproximadamente 4 °C) para amplificar la región de interés. La presente divulgación prevé la optimización de las condiciones de termociclado.
Se analiza una alícuota de la reacción. Se determina que la cantidad de amplicón generada es suficiente para el análisis adicional. También se encuentra que el amplicón comprende mutaciones puntuales coherentes con eventos raros de incorporación equivocada en la amplificación que, cuando se producen al principio de la amplificación, pueden representar una gran fracción del producto final.
La síntesis aleatoria de oligos de primera cadena se realiza como se ha descrito anteriormente sobre una cantidad
(por ejemplo 50 ng) de la misma muestra de partida. Una muestra se divide en alícuotas en un tampón de reacción de
PCR que comprende reactivos necesarios para la amplificación. Se añade un primer cebador idéntico a una región del adaptador A, y un segundo cebador específico para una región de interés y suficiente para la amplificación de una región de interés. Se añade una ADN polimerasa termoestable activada por calor, y la mezcla se somete a un termociclado (aproximadamente 98 °C, durante aproximadamente 30 segundos; seguido de aproximadamente treinta ciclos de aproximadamente 95 °C, aproximadamente 30 segundos, aproximadamente 60 °C, durante aproximadamente 20 segundos, aproximadamente 72 °C, durante aproximadamente 30 segundos; un final a aproximadamente 72 °C durante aproximadamente 2 minutos, y después almacenamiento a aproximadamente 4 °C) para amplificar la región de interés.
Se analiza una alícuota de la reacción. Se determina que la cantidad de amplicón generada es suficiente para el análisis adicional. También se ha comprobado que, debido a la síntesis de primera cadena realizada antes de la amplificación por PCR, se genera una gran cantidad de molde, de manera que se necesitan menos ciclos de amplificación para generar una cantidad suficiente de amplicón para los análisis corriente abajo. Debido al menor número de ciclos y a la mayor cantidad de molde de partida, los errores de incorporación en los primeros ciclos tienen pocas posibilidades de ser amplificados diferencialmente como para representar una cantidad desproporcionada del producto de reacción.
Se examina el adaptador de secuencia, la secuencia de oligómeros aleatorios (tal como un octámero) y la posición de la unión entre el oligómero aleatorio (tal como un octámero) y la secuencia objetivo de cada amplicón. Se identifican los amplicones duplicados y se descarta la información de secuencia duplicada para que cada secuencia de molécula de síntesis de primera cadena se evalúe en proporciones iguales. La información de variante de secuencia que no está respaldada independientemente por dos secuencias de molde de primera cadena distintas se descarta porque representa un error en la síntesis. La información de secuencia corroborada por dos moléculas de primera cadena sintetizadas independientemente se mantiene como representativa de la secuencia de muestra de partida.
Algunas realizaciones de la divulgación del presente documento comprenden kits, tales como kits de generación de bibliotecas. Algunos kits comprenden una biblioteca de oligos de la primera cadena. Cada uno de los oligonucleótidos de primera cadena en una biblioteca de este tipo comprende un adaptador de secuencia ubicado en posición 5' de una secuencia de oligómeros aleatorios, tal como un 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 mero, o un oligómero mayor, seguido de un OH en posición 3' a partir del cual se produce la prolongación dirigida por molde. En algunos casos, el adaptador de secuencias se configura para que comprenda una secuencia de identificador variable. En casos alternativos, el adaptador de secuencia es invariable. Los adaptadores de secuencia se usan en algunos casos como sitios de unión a cebador para la posterior adición de un adaptador de secuenciación, tal como un adaptador A, tal como a través de la adición de una secuencia dirigida por cebador patrón a través de amplificación.
En algunos casos, después la población de oligonucleótidos se sintetiza de manera que todas las combinaciones posibles de una secuencia de bases de oligómeros aleatorios dada (tales como octámeros aleatorios) están representadas en la población de oligonucleótidos de primera cadena. En otros casos, particularmente cuando se selecciona un oligómero aleatorio largo, pero también ocasionalmente en casos de oligómeros más pequeños, están presentes menos de todas las combinaciones posibles de una secuencia de bases de oligómeros aleatorios dada.
En algunos casos, las bases del oligómero aleatorio representan una distribución aleatoria insesgada de bases de ácido nucleico en proporciones iguales. En algunos casos, cada base tiene la misma probabilidad de aparecer en una posición dada, o en agregado en una población de oligómeros aleatorios. En otros casos, sin embargo, para aumentar la eficacia de la hibridación y, posteriormente, de la síntesis de primera cadena, la población se sintetiza de manera que incluya un sesgo para oligómeros aleatorios (tales como octámeros aleatorios) que tengan una representación sesgada de determinadas bases o pares de bases. Se observa que el genoma humano, por ejemplo, tiene un porcentaje de CG de aproximadamente el 40 %, en lugar de una composición de GC del 50 % como se espera de una abundancia de bases aleatorias verdadera. Véase, por ejemplo la Fig. 10C (panel derecho). En algunos casos, la distribución de oligómeros aleatorios está sesgada de manera que la distribución global de la secuencia de oligómeros aleatorios (tal como una secuencia octamérica) en la biblioteca de síntesis de primera cadena refleja la de un promedio objetivo sesgado, tal como el promedio de un genoma objetivo, un locus objetivo, una familia de genes objetivo, un elemento genómico objetivo (tal como exones, intrones, o la secuencia promotora, por ejemplo), o en algunas realizaciones, para que coincida con el genoma humano en su conjunto.
En realizaciones alternativas, se proporciona una biblioteca de oligonucleótidos de primera cadena dirigida. En algunos aspectos, cada oligo comprende un adaptador de secuencia en posición 5' de una secuencia de ácido nucleico específicamente sintetizada para hibridarse adyacente con una región de interés en el genoma humano. En algunos aspectos, la secuencia tiene 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30 o más de 30 bases. En algunos aspectos, la secuencia es de 25 bases. Los ejemplos de regiones de interés incluyen, pero sin limitación, exones, regiones promotoras, potenciadores de transcripción, regiones promotoras, regiones en las que se cartografían enfermedades genéticas, regiones que se sabe que son mutantes en estirpes celulares de cáncer o células tumorales, y loci que se sabe que son polimórficos en al menos una población humana. Los oligos se sintetizan para que se hibriden con cualquiera de las dos cadenas adyacentes a una región de interés, como se ha identificado anteriormente.
Algunos kits incluyen una biblioteca de oligonucleótidos de segunda cadena. En algunos casos, una biblioteca de oligonucleótidos de segunda cadena comprende una población de cebadores de segunda cadena. En algunos casos, cada cebador de segunda cadena comprende una secuencia de adaptador B en posición 5' con respecto a una secuencia de oligómeros aleatorios tal como un 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30-mero, o un oligómero más grande (por ejemplo un octámero) seguido de un OH en posición 3' a partir del que se produce la prolongación dirigida por molde. En algunos casos, el adaptador de secuencias se configura para que comprenda una secuencia de identificador variable. En casos alternativos, el adaptador de secuencia es invariable. Los adaptadores de secuencia se usan en algunos casos como sitios de unión a cebador para la posterior adición de un adaptador de secuenciación, tal como un adaptador B, tal como a través de la adición de una secuencia dirigida por cebador patrón a través de amplificación.
En algunos casos, después la población de oligonucleótidos se sintetiza de manera que todas las combinaciones posibles de una secuencia de bases de oligómeros aleatorios dada (tales como octámeros aleatorios) están representadas en la población de oligonucleótidos de segunda cadena. En otros casos, particularmente cuando se selecciona un oligómero aleatorio largo, pero también ocasionalmente en casos de oligómeros más pequeños, están presentes menos de todas las combinaciones posibles de una secuencia de bases de oligómeros aleatorios dada.
En algunos casos, las bases del oligómero aleatorio representan una distribución aleatoria insesgada de bases de ácido nucleico en proporciones iguales. En algunos casos, cada base tiene la misma probabilidad de aparecer en una posición dada, o en agregado en una población de oligómeros aleatorios. En otros casos, sin embargo, para aumentar la eficacia de la hibridación y, posteriormente, la síntesis de segunda cadena, la población se sintetiza de manera que incluya un sesgo para oligómeros aleatorios (tales como octámeros aleatorios) que tengan una representación sesgada de determinadas bases o pares de bases. Se observa que el genoma humano, por ejemplo, tiene un porcentaje de CG de aproximadamente el 40 %, en lugar de una composición de GC del 50 % como se espera de una abundancia de bases aleatorias verdadera. Véase, por ejemplo la Fig. 10C (panel derecho). En algunos casos, la distribución de oligómeros aleatorios está sesgada de manera que la distribución global de la secuencia de oligómeros aleatorios (tal como una secuencia octamérica) en la biblioteca de síntesis de segunda cadena refleja la de un promedio objetivo sesgado, tal como el promedio de un genoma objetivo, un locus objetivo, una familia de genes objetivo, un elemento genómico objetivo (tal como exones, intrones, o la secuencia promotora, por ejemplo), o en algunas realizaciones, para que coincida con el genoma humano en su conjunto.
En algunos casos se incluye una mezcla de prolongación. En algunos kits, un tampón de prolongación comprende reactivos coherentes con la actividad de ADN polimerasa. Una serie de polimerasas son coherentes con la divulgación del presente documento. En algunos casos, las polimerasas de ejemplo poseen actividad de desplazamiento de cadena, actividad de incorporación de ddNTP y son capaces de incorporar nucleótidos etiquetados con biotina tales como ddNTP etiquetados con biotina. Una polimerasa de ejemplo es SEQUENASE, mientras que una transcriptasa inversa de ejemplo es la transcriptasa inversa de VIH.
También se añade a la mezcla una población de nucleótidos, tal como una población que comprende dATP, dTTP, dCTP y dGTP y, en algunos casos, también comprende una población de ddNTP, tal como ddATP, ddTTP, ddCTP y ddGTP. En algunos casos solo se añade una sola especie de ddNTP a la población de dNTP, tal como ddATP solo, ddTTP solo, ddCTP, solo y ddGTP solo. En algunos casos se añaden pares de ddNTP, tales como ddATP y ddTTP, 0 ddCTP y ddGTP. En algunos casos, se usan nucleótidos modificados. En algunos casos, se usan nucleótidos modificados en la reacción de síntesis de primera cadena y pueden impedir que un cebador de primera cadena se una y se prolongue usando un producto desplazado como molde. Los nucleótidos modificados incluyen 2,6-diaminopurina y 2-tiotimidina (o uracilo, sin un grupo metilo en la posición 5).
En algunos casos, la población de ddNTP, tal como ddATP, ddTTP, ddCTP y el ddGTP añadida a la composición comprende al menos un ddNTP marcado con biotina, tal como ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina.
En algunos métodos y kits se contemplan alternativas a la biotina, tales como el dinitrofenilo. Cualquier marcador de afinidad que se una al ddNTP y se incorpore en una molécula de ácido nucleico naciente por al menos una polimerasa de ácido nucleico es coherente con la presente divulgación. De forma análoga, cualquier marcador de afinidad que se entregue a un extremo de ddNTP de una molécula de ácido nucleico, por ejemplo a través de un resto de unión a ddNTP, también es coherente con la divulgación del presente documento. En algunos casos, el marcador de afinidad es biotina-ddNTP.
En algunos casos, se proporciona un agente de unión a marcador para que se una a moléculas de ácido nucleico de primera cadena marcadas como se proporcionan en el presente documento, tal como la avidina o la estreptavidina en el caso del marcador biotina. En determinados casos, la estreptavidina se une a perlas magnéticas, de manera que la estreptavidina y cualquier compañero de unión se aíslen mediante su colocación en un campo magnético, tal como en un soporte magnético.
Un intervalo de relaciones de dNTP/ddNTP es coherente con la divulgación del presente documento. Relaciones del 99,9 %/0,1 %, 99,5 %/0,5 %, 99 %/1 %, 98 %/2 % y relaciones alternativas son coherentes con la divulgación del presente documento. En algunos casos se selecciona una relación relativa del 99 % de desoxi NTP con respecto al 1 % de didesoxi NTP.
En algunos kits se incluye una polimerasa. Las polimerasas de ejemplo son coherentes con la incorporación de ddNTP etiquetado con biotina o etiquetado de otro modo en una cadena de ácido nucleico en prolongación, e incluyen, entre otros, Sequenase y Thermosequenase.
En algunos kits relacionados con la generación de bibliotecas a partir de un molde de ARN, se incluye una transcriptasa inversa, tal como una transcriptasa inversa capaz de incorporar ddNTP etiquetado con biotina o etiquetado de otro modo en una cadena de ácido nucleico en prolongación, e incluyen, entre otros, la transcriptasa inversa de VIH.
En algunos kits se incluye una polimerasa de fago29.
R_RLP: Preparación rápida de bibliotecas de ARN
El resultado de la Secuenciación de ARN puede proporcionar información sobre las variantes expresadas y puede proporcionar detalles sobre el corte y empalme alternativo y la edición de ARN. Sin embargo, la capacidad de cuantificar cambios pequeños en los niveles de expresión de genes entre los estados de enfermedad y los de no enfermedad es fundamental para la secuenciación de ARN. Uno de los problemas de la cuantificación absoluta de ARN proviene de sesgos de amplificación durante la preparación de bibliotecas. Diferentes secuencias tienen diferentes eficiencias de amplificación, por lo que dos genes que en realidad tienen niveles de expresión iguales en la muestra pueden dar como resultado niveles de expresión génica muy dispares después de la amplificación sesgada de bibliotecas. El uso de etiquetas únicas individuales para cada molécula de ARN durante la preparación de bibliotecas permite la normalización de recuentos de lecturas y elimina los artefactos de sesgo de amplificación en los datos. En el presente documento se describen métodos que producen una fragmentación aleatoria en posición 3' durante las etapas iniciales de la preparación de bibliotecas. Esto permite normalizar las lecturas del secuenciador con extremos en posición 3' únicos para eliminar el sesgo de amplificación y producir una verdadera expresión génica cuantitativa.
En algunas realizaciones, puede usarse ADNc como fuente de molde. El mismo protocolo se aplica a la preparación de bibliotecas de moldes de ADNc con la etapa adicional de creación del ADNc. Se usa cebado con oligo(dT) para sintetizar el ADNc y restringir la biblioteca a ARN mensajero con colas de poliA o puede usarse un cebador aleatorio para sintetizar el ADNc y obtener transcritos de longitud completa de todas las especies de ARN.
El uso de los cebadores aleatorios como etiquetas estocásticas en la entrada del ARN tiene la ventaja añadida de normalizar los recuentos de lecturas frente al sesgo de amplificación durante el proceso. Algunas secuencias son más fáciles de amplificar que otras. Puede parecer que una muestra que tiene dos genes de igual abundancia (en términos de moléculas de ARN) tiene niveles diferenciales de expresión después de la preparación de bibliotecas debido a estos sesgos de amplificación. El uso de los cebadores aleatorios de síntesis como etiquetas estocásticas permite la capacidad de normalizar los recuentos basándose en la reducción de artefactos clonales. Esto es aún más importante cuando se trabaja en genomas más pequeños o en ARN amplificado por poliA, donde es típica una cobertura alta.
Se prefiere el uso de este ensayo para el análisis de expresión génica unicelular, ya que se es un protocolo de amplificación en cada etapa. A diferencia de otros métodos que necesitan la fragmentación a través de medios químicos o físicos, la fragmentación se realiza a través de polimerización, minimizando por lo tanto la pérdida debida a la etapa de fragmentación. Para la genómica unicelular, puede ser necesario eliminar la etapa de generación de ADNc. Para esto, puede emplearse una transcriptasa inversa con capacidad para incorporar ddNTP/biotina. La transcriptasa inversa de VIH es capaz de realizar esta actividad.
L_LRP: Preparación rápida de bibliotecas de puesta en fase de lectura larga
El genoma humano consiste en 3,2B pares de bases haploides. El 62 % del genoma está constituido por una secuencia altamente repetitiva y altamente polimórfica. Además, el genoma contiene elementos LINE y SINE, inserciones Alu y otros elementos de mosaico diferentes en cada individuo. Se necesitan lecturas largas (>10 kb) para el ensamblaje completo del genoma no de repetición y el >90 % de los elementos de repetición en el genoma humano.
Se obtienen lecturas largas a través de sistemas de secuenciación de 3a generación tales como Pacific Biosciences o tecnologías de nanoporos. Estas tecnologías están muy lejos de la viabilidad comercial debido a las altas tasas de error y a la falta de ingeniería enzimática necesaria para frenar la polimerización de la química de secuenciación por síntesis (SBS, por sus siglas en inglés) o para ralentizar la migración de una molécula de ADN a través de un nanoporo. Una estrategia alternativa para la preparación de bibliotecas es etiquetar moléculas de ADN intactas y largas para su uso con los secuenciadores actuales de secuenciación de nueva generación (NGS). Esta estrategia implica, en primer lugar, la dilución de moléculas de ADN largas y el etiquetado de cada molécula durante la preparación de bibliotecas, de manera que se asignen las lecturas de secuenciación cortas a la molécula larga de la dilución original. Una estrategia basada en cebadores aleatorios para este enfoque es ideal, ya que la etapa de etiquetado se produce en la primera reacción, de manera que todos los productos pueden agruparse para un solo flujo de trabajo para el resto del ensayo (otros métodos necesitan la generación de bibliotecas completas para cada dilución del molde de ADNg).
Se necesitan dos criterios principales para la preparación de muestras de lectura larga: 1) la longitud de la molécula debe ser >10 kb; y, 2) el número de lecturas por molécula debe maximizarse para garantizar una detección de variantes de calidad alta. El número de etiquetas, la calidad del molde y la cantidad de entrada varían la capacidad de conseguir lecturas largas y una alta cobertura por molécula.
En algunos casos, la primera etapa es diluir el molde en vesículas de reacción. Esto se hace en microplacas, emulsiones de aceite en agua o cualquier medio con muchas cámaras. Para un genoma humano, se calcula que se necesitarán al menos 1.000 etiquetas moleculares para ensamblar con precisión y poner en pase el genoma humano.
Algunas realizaciones incluyen el uso de un sistema de emulsión de microgotitas de agua en aceite. Se introduce en el sistema una biblioteca de cebadores que consiste en más de 1544 adaptador etiqueta cebador aleatorio en forma de emulsión de agua en aceite ya preparada. Puede introducirse molde de ADNg fragmentado a 10 kb, 20 kb, o más, en el sistema con la mezcla adecuada de enzima, NTP, ddNTP y tampón de reacción. Las gotitas de emulsión de agua en aceite que contienen el ADNg de fragmentos largos diluidos se generan en el sistema y se fusionan con las gotitas de biblioteca de cebadores en una relación 1:1. Una gotita de molde con uno o más moldes de ADNg largos se añade a una de las gotitas de cebador. Una gotita de ejemplo es como se indica a continuación: 5'-adaptador1-etiqueta correctora de errores de 8 pb-NNNNNNNN-3'.
Las etiquetas se diseñan para que un error en la secuenciación de la etiqueta siga permitiendo la identificación de la etiqueta con fines de ensamblaje de lecturas largas. Los cebadores pueden unirse aleatoriamente al molde, prolongarse y terminarse con un biotina-ddNTP. La emulsión se rompe, se hace pasar por una columna para retirar el aceite y el tensioactivo, y el producto se captura con perlas magnéticas recubiertas con estreptavidina. Después, el producto puede seleccionarse por tamaño para excluir dímeros que pueden acabar siendo la mayor parte de la reacción.
El efecto de la dilución de entrada y del tamaño de fragmento sobre la cobertura de secuenciación por molécula se muestra en la Tabla 1. Como se observa en la Tabla 1, la cobertura promedio por molécula es de 7,03 cuando se usan 80 picogramos de ADN, mientras que la cobertura promedio por molécula es de 0,56 cuando se usan 1.000 picogramos de ADN.
Tabla 1
Tabla 1: El efecto de la dilución de entrada y del tamaño de fragmento sobre la cobertura de secuenciación por molécula.
Figure imgf000041_0001
continuación
Figure imgf000042_0001
A n á lis is g u ia d o p o r re feren c ia :
En algunas realizaciones, se recortan en primer lugar las lecturas de secuencia de síntesis. La secuencia de síntesis puede incluir la secuencia de adaptador, la etiqueta y la secuencia de cebador aleatorio de síntesis. Las lecturas después pueden alinearse y ensamblarse frente a un genoma de referencia para la detección de variantes de calidad alta. Los SNV y las variaciones de complejo se resaltan y después se asignan a una etiqueta. Las variantes dentro de la distancia definida del tamaño de molécula original (por ejemplo, 10 kb) que están en la misma etiqueta en una región haploide se consideran en "fase". Las lecturas no cartografiadas se ensamblan de novo y después se reclutan a su ubicación genómica por sus etiquetas.
A n á lis is de novo:
Los ensambladores de novo necesitan una cobertura de 20-30x por locus haploide. Esto puede necesitar una dilución extrema para evitar los requisitos costosos de sobresecuenciación para un locus dado. Para minimizar los requisitos de capacidad de secuenciador, cada ubicación genómica debe tener el menor número posible de etiquetas que cubran cada segmento haploide. Por ejemplo, si cada etiqueta consiste en un 0,01 % diferente del genoma humano y hay 10.000 etiquetas, se consigue una cobertura del 100 % del genoma con solo un requisito de profundidad de secuenciación de 30x.
S e c u e n c ia c ió n d ir ig id a y e n s a m b la je de novo as is tido :
Convertir la entrada de ADN genómico (ADNg) en el primer producto terminado de adaptador tiene múltiples ventajas para la secuenciación dirigida. La amplificación típica por desplazamiento de cadena tiene dos grandes inconvenientes: 1) se forman moléculas quiméricas cuando una copia del molde actúa como cebador de una secuencia similar en un cromosoma diferente; y, 2) la amplificación sesgada tiende a ser un problema ya que algunas regiones del genoma son más accesibles al principio de la reacción y tienden a producir copias de Ad N ramificadas de esa región. La terminación de la reacción con ddNTP elimina la mayor parte de estos artefactos. Además, la terminación y la captura del ADNg del cebado aleatorio convierte la muestra en fragmentos monocatenarios cortos que son altamente accesibles a la hibridación específica de locus y elimina la capacidad de tramos largos de ADNg de volver a unirse e inhibir la polimerasa cuando se copian regiones objetivo mucho más pequeñas del genoma.
Como anteriormente, en algunos casos, la primera etapa es diluir el molde en vesículas de reacción. Esto se hace en microplacas, emulsiones de aceite en agua o cualquier medio con muchas cámaras. Para un genoma humano, se calcula que se necesitarán al menos 1.000 etiquetas moleculares para ensamblar con precisión y poner en pase el genoma humano.
Algunos casos implican el uso de un sistema de emulsión de microgotitas de agua en aceite. Se introduce en el sistema una biblioteca de cebadores que consiste en más de 1544 adaptador etiqueta cebador aleatorio en forma de emulsión de agua en aceite ya preparada. Puede introducirse molde de ADNg fragmentado a 10 kb, 20 kb, o más, en el sistema con la mezcla adecuada de enzima, NTP, ddNTP y tampón de reacción. Las gotitas de emulsión de agua en aceite que contienen el ADNg de fragmentos largos diluidos se generan en el sistema y se fusionan con las gotitas de biblioteca de cebadores en una relación 1:1. Una gotita de molde con uno o más moldes de ADNg largos se añade a una de las gotitas de cebador. Una gotita de ejemplo es como se indica a continuación: 5'-adaptador1-etiqueta correctora de errores de 8 pb-NNNNNNNN-3'.
Para la secuenciación dirigida, puede cebarse ADNg aleatoriamente como se describe en el presente documento. El producto se termina y se captura de la misma manera a través del uso de ddNTP/biotina y perlas magnéticas recubiertas con estreptavidina. Durante la segunda reacción, la secuencia aleatoria puede reemplazarse por secuencias específicas de locus de 25 pares de bases (pb). Las secuencias específicas de locus se unen a sus objetivos y pueden ser prolongadas por una polimerasa termoestable con capacidad de desplazamiento de cadena. El cebador unido más cerca de la perla de estreptavidina desplazará a todos los demás cebadores unidos corriente abajo y las perlas pueden lavarse para retirar el exceso de NTP, enzima y cebador. El producto resultante se libera de la perla y se secuencia o amplifica a través del uso de las secuencias de adaptador y PCR. Un oligo representativo es como se indica a continuación: 3'-adaptadorl-NNNNNNNN-inserto-secuencia específica de locus (25 pd)-adaptador2-5'. En algunos protocolos de generación de bibliotecas de secuenciación dirigida de ejemplo, el segundo oligo de secuencia aleatoria de reacción se reemplaza por dos, tres, cuatro o más de cuatro oligos que se hibridan específicamente con un locus objetivo de interés. En algunos protocolos de generación de bibliotecas de secuenciación dirigida de ejemplo, el segundo oligo de secuencia aleatoria de reacción se reemplaza por un par de oligos que se hibridan específicamente con un locus objetivo de interés. En algunos casos, los oligos se unen a regiones superpuestas del locus objetivo como se representa en la biblioteca de primera cadena. En algunos casos, el par de oligos se unen en regiones adyacentes del locus objetivo o de la biblioteca de primera cadena, por ejemplo a 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 o más de 15 bases de distancia entre sí. En algunos casos los oligos tienen cada uno independientemente 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35 o más de 35 bases. En realizaciones de ejemplo se usan dos oligos de segunda cadena, cada uno de 25 bases de longitud, no superpuestos y separados por aproximadamente 10-20 bases en sus posiciones de hibridación.
Como alternativa, o en combinación, para la secuenciación dirigida, el primer cebador aleatorio puede reemplazarse por uno o por un par de oligos que se hibridan específicamente con un locus objetivo de interés. En algunos casos, el oligo o los oligos se unen a regiones superpuestas del locus objetivo. El producto se termina y se captura de la misma manera a través del uso de ddNTP/biotina y perlas magnéticas recubiertas con estreptavidina. Durante la segunda reacción, la biblioteca de primera cadena unida a perlas de estreptavidina se ceba con una población de oligos aleatorios marcados, como en los protocolos descritos en las secciones anteriores. Los oligos unidos se prolongan como anteriormente usando una ADN polimerasa de desplazamiento de cadena, y los productos de biblioteca bicatenarios generados de este modo se amplifican y se secuencian, y la secuencia generada de este modo se evalúa para eliminar las lecturas duplicadas que representan la misma molécula de biblioteca, como se describe en el presente documento.
En algunas realizaciones, la generación de bibliotecas dirigida se efectúa a través de PCR hemiespecífica durante la etapa de cebado específico de locus. El producto de la primera reacción de cebado aleatorio tiene el primer adaptador en un extremo. Se usa un cebador complementario a esta secuencia de adaptador junto con el cebador específico de locus para la PCR de ciclo bajo. El producto se secuenciará directamente o se amplificará adicionalmente a través de PCR con los cebadores correspondientes a cada una de las secuencias de adaptador.
En algunas realizaciones, una estrategia de secuenciación dirigida puede producir bibliotecas de secuenciador con una estructura de lectura quimérica, como se ilustra en las FIG. 16A-16B. Una lectura quimérica puede comenzar con una secuencia de síntesis conocida para identificar la coordenada genómica de la lectura. El resto de la lectura puede incluir ADN derivado de muestra de secuencia desconocida. Los cebadores se diseñan cada 100-200 pb en la secuencia genómica objetivo. Los cebadores que abarcan un objetivo dado se denominan "conjuntos" de cebadores y los conjuntos de cebadores se agrupan entre sí, se recortan de las lecturas y la secuencia restante se autoensambla en los grupos de secuencia. De esta manera, los haplotipos de novo ensamblados en el locus objetivo pueden producirse sin el uso de un alineamiento de referencia.
En una realización, la línea de producción comienza con cebadores en mosaico en el objetivo (100 pb), los adaptadores se recortan, opcionalmente se identifica el código de barras de muestra, se identifica la coordenada genómica (TAG), se retiran las lecturas duplicadas, las marcadores se agrupan y se recortan, se obtiene la secuencia consenso de novo, se retiran las lecturas desviadas, se buscan los haplotipos de apareamiento perfecto y se determina la variación estructural, dando como resultado una secuencia de consenso que abarca el objetivo completo. Este sencillo protocolo de 60 minutos es fácilmente automatizable, reduce las pérdidas, no requiere ligadura, fragmentación física ni reparación de extremos, elimina los errores clonales, permite el ensamblaje de novo asistido y puede detectar variación de complejo. Esto se consigue con un coste drásticamente reducido.
En algunos casos, se obtiene y se fragmenta una muestra de ácido nucleico. Los fragmentos se seleccionan por tamaño para que tengan un tamaño mínimo de 10-100, 10-150, 10-200, 1-300, 10-350, 10-400, 10-500, 10-600, 10­ 700, 10-800, 10-900 o 10-1000, kilobases. Los fragmentos seleccionados por tamaño se diluyen en no más de 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 300, 400 o 500 fragmentos por alícuota y se distribuyen en tubos de reacción separados. Cada muestra dividida en alícuotas se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena. Los oligonucleótidos de primera cadena comprenden cada uno un adaptador de secuencia en posición 5' de longitud completa de un oligómero aleatorio (tal como un octámero) seguido de un OH en posición 3' a partir del cual se produce la prolongación dirigida por molde. El oligómero aleatorio (tal como un octámero) es único para un solo oligo, aunque los métodos que se desvelan en el presente documento toleran fácilmente un pequeño grado de redundancia, e incluso se acomoda un gran grado de redundancia. En algunos casos, los oligonucleótidos de síntesis de primera cadena se diseñan para que formen estructuras de horquilla para disminuir la formación de dímeros de cebador. En algunos casos, la población de oligómeros aleatorios (tal como un octámero) de los oligos de síntesis de primera ronda representa todos los posibles oligómeros aleatorios de una determinada longitud (tal como un octámero), pero la abundancia relativa de cada oligómero aleatorio de una determinada longitud (tal como un octámero) se sesga para que se aparee con la abundancia relativa de pares de bases GC frente a AT en el genoma humano. Se añade una cantidad de la población (tal como 4 ul) a la muestra. También se añade a la composición un tampón de polimerasa que comprende reactivos coherentes con la actividad de ADN polimerasa y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina, en una relación relativa del 99 % de desoxi NTP con respecto al 1 % de di-desoxi NTP. Se añade a la muestra una cantidad de la composición de tampón/NTP (tal como 8 ul). Después, la mezcla se diluye a un volumen determinado (tal como 19 ul) y se calienta, tiempo durante el cual el ácido nucleico se "funde" en cadenas simples no unidas por enlaces de hidrógeno entre las bases complementarias. Después, la mezcla se enfría para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra de ácido nucleico. En algunos casos, se observa que algunos oligonucleótidos demuestran una complementariedad inversa completa entre su oligómero aleatorio de una determinada longitud (tal como un octámero) y la secuencia de muestra de ácido nucleico a la que se une cada uno. También se observa que algunos oligonucleótidos se unen a regiones que son complementarias inversas de forma incompleta con el oligómero aleatorio de una determinada longitud (tal como un octámero). La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa no perjudica las etapas posteriores del proceso. En algunos casos, se añade a la composición una polimerasa (tal como SEQUENASE) que tiene actividad de desplazamiento de cadena y es capaz de incorporar biotina-ddNTP. La composición se calienta y se deja continuar durante un tiempo (por ejemplo, 30 minutos a temperatura ambiente). Se observa la prolongación desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. En algunos casos, cuando se usa una relación de 99 %/1 % de dNTP con respecto a complejos de biotina-ddNTP, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotina-ddNTP. Después, la composición se calienta durante un período de tiempo (por ejemplo, 98 °C durante 5 minutos) y la muestra se somete a purificación y a síntesis de segunda cadena. En algunos casos, la biblioteca resultante después se somete a selección por tamaño a través de electroforesis en gel.
En algunos casos, se obtiene una muestra de sangre de una mamífera preñada, tal como una mujer embarazada. Esta muestra de sangre contiene ADN fetal sin células que circula libremente en el torrente sanguíneo materno en fragmentos de aproximadamente 200 pb de tamaño. En algunos casos, el ADN fetal sin células se separa del plasma materno mediante la adición de formaldehído para estabilizar las células maternas intactas, centrifugación, aislamiento y purificación del sobrenadante, y selección por tamaño mediante electroforesis en gel. El ADN fetal sin células purificado se usa después como el ácido nucleico molde en los métodos que se describen en el presente documento.
A n á lis is d e p ro d u c to s d e s e c u e n c ia c ió n d ir ig id a a tra v é s d e "e n s a m b la je de novo as is tid o " .
Los primeros 25 pb de cada lectura corresponden a la secuencia de cebador específica de locus de síntesis. A medida que los cebadores específicos de locus se colocando en mosaico en la región de interés, las lecturas se agrupan en conjuntos de cebadores que se dirigen a un locus contiguo específico. Por lo tanto, las lecturas de los conjuntos de cebadores se superponen y se "autoensamblan" por comparación entre sí. Las lecturas desviadas o los errores de cebado no formarán una secuencia de consenso con las lecturas restantes del conjunto de cebadores. Estas lecturas se descartarán del análisis o, en el caso de que múltiples cebadores de un conjunto muestren la misma ubicación desviada, se analizarán como variación de complejo en una línea de producción separada, ya que esto indica un reordenamiento complejo en la región objetivo. La distancia entre los cebadores también puede indicar una variación de complejo, ya que una inserción o supresión grande cambiará la distancia observada empíricamente entre los cebadores, haciendo que esa distancia sea mayor o menor de lo esperado.
R e a liza c io n e s ad ic io n a le s
Aspectos de la presente divulgación describen métodos y composiciones para generar una población de moléculas de ácido nucleico marcadas no idénticas que comprenden, cada una, un subconjunto de secuencias de una muestra de ácido nucleico objetivo. La muestra de ácido nucleico objetivo puede obtenerse de cualquier fuente biológica o ambiental, incluyendo una planta, animal (incluyendo el ser humano), bacterias, hongos o algas. Se usa cualquier muestra biológica adecuada para el ácido nucleico objetivo. Las muestras adecuadas convenientes incluyen sangre completa, tejido, semen, saliva, lágrimas, orina, material fecal, sudor, bucal, piel y cabello. En algunas realizaciones, el ácido nucleico objetivo se obtiene de 50-500 células. En algunas realizaciones, el ácido nucleico objetivo se obtiene de 50-400, 50-350, 50-300, 100-300, 150-300, 200-300 o 200-250 células.
En una realización, el método puede comprender obtener una primera molécula de ácido nucleico que comprende una primera secuencia de marcador molecular y una primera secuencia objetivo que tiene una primera longitud de una muestra de ácido nucleico objetivo. La primera molécula de ácido nucleico puede tener una longitud variable. En algunas realizaciones, la longitud de la primera molécula de ácido nucleico corresponde a la longitud óptima para una plataforma de secuenciación específica. Las longitudes óptimas para plataformas de secuenciación específicas pueden incluir hasta 400 bases de nucleótidos para el semiconductor iónico (por ejemplo, ION TORRENT, Life Technologies, Carlsbad, CA), 700 bases de nucleótidos para la pirosecuenciación (por ejemplo, GS JUNIOR+, 454 Life Sciences, Branford, CT) y de 50 a 300 bases de nucleótidos para la secuenciación por síntesis (SBS) (por ejemplo, MISEQ, Illumina, San Diego, CA). En algunas realizaciones, la primera molécula de ácido nucleico puede tener 50­ 1000, 100-1000, 200-1000, 300-1000, 300-900, 300-800, 300-700, 300-600, 300-500 o 400-500 bases de nucleótidos. En algunas realizaciones, la primera molécula de ácido nucleico puede tener 50, 62,5, 125, 250, 500 o 1000 bases de nucleótidos.
En algunas realizaciones, la primera molécula de ácido nucleico comprende un ligando molecular. En algunas realizaciones, este ligando molecular comprende biotina o cualquier derivado o análogo de biotina.
En algunas realizaciones, la secuencia de marcador molecular puede tener una longitud de 6, 7, 8, 9 o 10 bases de nucleótidos. En algunas realizaciones, el marcador molecular tiene 8 bases de nucleótidos de longitud. En una realización, el marcador molecular comprende una secuencia de nucleótidos aleatorios. En algunas realizaciones, la secuencia de nucleótidos aleatorios se sintetiza de forma semialeatoria para tener en cuenta el contenido variable de una muestra de ácido nucleico objetivo. La secuencia de nucleótidos aleatorios puede seleccionarse para que refleje una "aleatoriedad" representativa ordenada frente a las ventanas de contenido de guanina-citosina (GC) en el genoma, del 1 % al 100 % de GC, y pueden sintetizarse y agruparse en relaciones con respecto al contenido del genoma en cada % de GC.
En algunas realizaciones, la primera molécula de ácido nucleico puede obtenerse poniendo en contacto un primer cebador que comprende una primera secuencia de oligonucleótidos aleatorios con una muestra de ácido nucleico objetivo. En algunas realizaciones, poner en contacto de un primer cebador comprende hibridar un primer cebador con un ácido nucleico de dicha muestra de ácido nucleico objetivo. La hibridación puede dar como resultado una hibridación completa o incompleta. En una realización adicional, un segundo ácido nucleico se genera poniendo en contacto un segundo cebador que comprende una segunda secuencia de oligonucleótidos aleatorios con una primera molécula de ácido nucleico. Este método puede comprender hibridar un oligonucleótido que comprende una segunda secuencia de marcador molecular con una primera molécula de ácido nucleico y prolongar el oligonucleótido para obtener una primera molécula de ácido nucleico bicatenario que comprende una primera secuencia de marcador molecular, una primera secuencia objetivo que tiene una primera longitud y una segunda secuencia de marcador molecular. En algunas realizaciones, la segunda molécula de ácido nucleico puede generarse poniendo en contacto un segundo cebador que comprende una secuencia de oligonucleótidos específica de locus y una segunda secuencia de marcador molecular con una primera molécula de ácido nucleico. Esta secuencia de oligonucleótidos específica de locus puede dirigirse a exones, regiones que contienen polimorfismos de un solo nucleótido u otras regiones de interés. En algunos casos, el molde está en exceso con respecto a la secuencia de oligonucleótidos específica de locus, permitiendo la normalización de la biblioteca antes de la PCR.
Los métodos que se describen en el presente documento pueden comprender adicionalmente obtener una segunda molécula de ácido nucleico bicatenario que comprende una tercera secuencia de marcador molecular, una segunda secuencia objetivo que tiene una segunda longitud y una cuarta secuencia de marcador molecular, y descartar la segunda molécula de ácido nucleico bicatenario si la tercera secuencia de marcador molecular es idéntica a la primera secuencia de marcador molecular, la cuarta secuencia de marcador molecular es idéntica a la segunda secuencia de marcador molecular, la segunda secuencia objetivo es idéntica a la primera secuencia objetivo y la segunda longitud de secuencia objetivo es idéntica a la primera longitud de secuencia objetivo. En algunas realizaciones, la segunda molécula bicatenaria puede conservarse si la tercera secuencia de marcador molecular es diferente de la primera secuencia de marcador molecular, la cuarta secuencia de marcador molecular es diferente de la segunda secuencia de marcador molecular, la segunda secuencia objetivo es diferente de la primera secuencia objetivo; o la segunda longitud de secuencia objetivo es diferente de la primera longitud de secuencia objetivo, siendo el resultado generar una población de moléculas de ácido nucleico marcadas no idénticas, cada una de las cuales comprende un subconjunto de secuencia de una muestra de ácido nucleico objetivo.
En algunas realizaciones, el primer ácido nucleico comprende una secuencia de adaptador ubicada en posición 5' con respecto a dicha primera secuencia de oligonucleótidos aleatorios. En algunas realizaciones, esta secuencia de adaptador se añade para facilitar la amplificación y/o secuenciación para una plataforma de secuenciación específica. Las plataformas de secuenciación incluyen semiconductores iónicos (por ejemplo, ION TORRENT, Life Technologies, Carlsbad, CA), pirosecuenciación (por ejemplo, GS JUNIOR+, 454 Life Sciences, Branford, CT) y secuenciación por síntesis (SBS) (por ejemplo, MISEQ, Illumina, San Diego, CA). Las secuencias de adaptador de ejemplo incluyen las SEQ ID NO: 1 y 2.
En algunos casos, las moléculas de bibliotecas se circularizan antes de la secuenciación. Se efectúa la circularización de moléculas de bibliotecas, por ejemplo, proporcionando un "oligo puente" o un "oligo astilla" que comprende una secuencia complementaria inversa a las secuencias de adaptador SEQ ID NO: 1 y SEQ ID NO: 2, o a otras secuencias de adaptador, de manera que el extremo 5' y el extremo 3' de una molécula de producto de biblioteca monocatenario estén unidos simultáneamente por el oligo puente. En algunos casos, el oligo puente mantiene los extremos 5' y 3' de la molécula de biblioteca monocatenaria próximos a través de interacciones de enlace de hidrógeno de apareamiento de bases, de manera que los extremos 5' y 3' de una molécula puedan unirse tras la adición de una ligasa para formar una molécula de biblioteca circularizada. Las moléculas pueden circularizarse a través de cualquier número de técnicas moleculares, tales como ligadura, fusión basada en cre-lox, técnicas basadas en la reparación de mellas u otras para formar una única molécula circular. En algunos casos, las bibliotecas después se tratan con exonucleasas para retirar los oligos puente.
Las moléculas circularizadas después se secuencian a través de una de un número de técnicas de secuenciación conocidas en la técnica, tales como la amplificación/secuenciación en círculo rodante para obtener información de secuencia.
En algunos casos, el primer ácido nucleico y el primer cebador pueden ponerse en contacto con una polimerasa de ácido nucleico y un nucleótido trifosfato. Las polimerasas de ácido nucleico incluyen polimerasas de ADN de las familias A, B, C, D, X, Y y RT. En algunas realizaciones, la polimerasa de ácido nucleico tiene actividad de desplazamiento de cadena. En algunas realizaciones, la polimerasa de ácido nucleico carece de actividad de desplazamiento de cadena. Los nucleótidos trifosfato pueden incluir desoxirribonucleósidos trifosfatos tales como dATP, dCTP, dITP, dUTP, dGTP y dTTP, y didesoxirribonucleósidos trifosfato (ddNTP) tales como ddATP, ddCTP, ddGTP, ddITP y ddTTP. En algunas realizaciones, el nucleótido trifosfato es seleccionado por la polimerasa de ácido nucleico de un conjunto que comprende desoxinucleótidos trifosfato y didesoxinucleótidos trifosfato. En algunas realizaciones, este conjunto puede comprender didesoxinucleótidos trifosfato en una cantidad que varía entre el 0,01 % - 5,0 %, 0,01 % - 4,0 %, 0,01 % - 3,0 %, 0,01 % - 2,0 %, 0,02 % - 2,0 %, 0,03 % - 2,0 %, 0,04 % - 2,0 %, 0,05 % - 2,0 %, 0,06 % - 2,0 %, 0,07 % - 2,0 %, 0,08 % - 2,0 %, 0,09 % - 2,0 % o 0,1 % - 2,0 %. En algunas realizaciones, el conjunto puede comprender didesoxinucleótidos trifosfato en una cantidad del 0,05, 0,1 %, el 0,2 %, el 0,4 %, el 0,8 % o el 1,0 %. En algunas realizaciones, el nucleótido trifosfato es seleccionado por la polimerasa de ácido nucleico de un conjunto que comprende dATP, dCTP, dGTP y dTTP, con uno de los cuatro desoxinucleótidos trifosfato a una concentración significativamente menor que los otros tres, o dos de los cuatro desoxinucleótidos trifosfato a una concentración significativamente menor que los otros dos. En algunos casos, el nucleótido trifosfato es seleccionado por la polimerasa de ácido nucleico de un conjunto de desoxinucleótidos trifosfato y nucleótidos modificados, tales como 2,6 Diaminopurina y 2-tiotimidina (o uracilo, sin un grupo metilo en la posición 5). En algunos casos, los nucleótidos modificados comprenden un par de bases de nucleótidos "semicompatibles". En algunos casos, los pares de bases de nucleótidos semicompatibles comprenden nucleótidos modificados seleccionados de manera que sean capaces de aparearse con una base de nucleótido de origen natural o bases que se aparean con su pariente de origen natural, pero que son incapaces de aparearse con un análogo de su compañero de par de bases de origen natural. Por ejemplo, el análogo de Adenina 2,6-diaminopurina es capaz de aparearse con la Timidina y el análogo de Timidina 2-tiotimidina es capaz de aparearse con la Adenina, pero el par semicompatible de la 2,6-diaminopurina y la 2-tiotimidina no puede formar aparearse entre sí. Esto es, el análogo de Adenina 2,6-diaminopurina y el análogo de Timidina 2-tiotimidina constituyen un par de bases semicompatible. Una composición que comprende los nucleótidos trifosfato dGTP y dCTP (un par complementario o natural) y el par semicomplementario desoxi-2,6-diaminopurinaTP y desoxi-2-timidinaTP, por lo tanto, respalda la prolongación desde la posición 3'OH de la síntesis de ácido nucleico dirigida por molde.
Se contemplan otros apareamientos de bases modificados, tales como los pares alternativos A:T y los pares alternativos G:C.
Una ventaja de dichas bases modificadas semicompatibles es que un molde de ácido nucleico que incorpore estas bases modificadas no puede servir como molde para la síntesis si el conjunto de dNTP del que se extraen los ácidos nucleicos incluye una concentración suficiente de estas bases. Por lo tanto, los ácidos nucleicos que incorporan estas bases se moldean con seguridad mediante una muestra de ácido nucleico original en lugar de moldearse mediante otros ácidos nucleicos sintetizados. Esta característica permite la síntesis de múltiples copias de un ácido nucleico de muestra sin el riesgo de que un error de desapareamiento de incorporación de bases al principio de la reacción de síntesis de ácido nucleico se propague en moldes posteriores. Sin embargo, reemplazando el conjunto de dNTP por un conjunto que consiste o comprende dNTP de origen natural del tipo de base para el cual el análogo es un reemplazo, los ácidos nucleicos que comprenden las cuatro bases naturales se generan a partir de moldes que incorporan análogos de pares de bases.
En algunos casos, al menos uno de los nucleótidos modificados está etiquetado. En algunos casos, al menos uno de los nucleótidos modificados está etiquetado con digoxigenina (DIG), biotina, fluoresceína o tetrametilrrodamina. En algunos casos, el molde se fragmenta en fragmentos de una longitud específica antes de entrar en contacto con el primer ácido nucleico y el primer cebador. En algunos casos se usan uno o más análogos de nucleótidos, tales como análogos de nucleótidos que son sensibles al tratamiento con endonucleasas en combinación con una endonucleasa para conseguir la terminación de la cadena. En algunos casos, la terminación de la cadena se consigue a través de la manipulación de la concentración de dNTP.
En una realización, un conjunto que comprende desoxinucleótidos trifosfato y didesoxinucleótidos trifosfato comprende al menos un didesoxinucleótido trifosfato unido a un ligando molecular. En algunas realizaciones, este ligando molecular comprende biotina. En algunas realizaciones, los métodos comprenden poner en contacto una molécula que comprende un oligonucleótido que comprende una segunda secuencia de marcador molecular hibridada con dicha primera molécula de ácido nucleico con un agente de unión a ligando. En algunas realizaciones, este agente de unión a ligando es avidina o estreptavidina. En algunos casos, el agente de unión a ligando es un anticuerpo de alta afinidad contra DIG, biotina, fluoresceína o tetrametilrrodamina.
En algunas realizaciones, al menos uno de los ácidos nucleicos que se describen en el presente documento es un ácido desoxirribonucleico. En una realización adicional, un ácido desoxirribonucleico se fragmenta en fragmentos de más de 10 kilobases. La fragmentación puede lograrse de varias maneras, incluyendo la cizalla mecánica o la digestión enzimática. En algunas realizaciones, al menos uno de los ácidos nucleicos que se describen en el presente documento es un ácido ribonucleico. En algunas realizaciones, una muestra de ácido nucleico objetivo es ácido ribonucleico. En una realización adicional, una primera molécula de ácido nucleico es una molécula de ácido desoxirribonucleico complementario (ADNc) generada a partir de un ácido ribonucleico. En algunas realizaciones, la polimerasa de ácido nucleico que generó el ADNc es una ADN polimerasa dependiente de ARN. En algunas realizaciones, el ADNc se genera poniendo en contacto un primer cebador que comprende una secuencia de oligo(dT) con una muestra de ácido nucleico objetivo.
En una realización adicional, todas las secuencias de un cóntigo dado que tienen el mismo marcador molecular se asignan a un cromosoma homólogo específico.
En el presente documento también se describen composiciones que comprenden una primera molécula de ácido nucleico que comprende una primera secuencia de marcador molecular y una primera secuencia objetivo que tiene una primera longitud, y un oligonucleótido que comprende una segunda secuencia de marcador molecular. En algunas realizaciones, la primera molécula de ácido nucleico comprende un desoxinucleótido en posición 3'. En algunas realizaciones, el desoxinucleótido en posición 3' es un didesoxinucleótido. En algunas realizaciones, el primer ácido nucleico comprende una secuencia de adaptador ubicada en posición 5' con respecto a la primera secuencia de marcador molecular. Esta secuencia de adaptador puede añadirse para facilitar la amplificación y/o secuenciación para una plataforma de secuenciación específica, tal como un semiconductor iónico (por ejemplo, ION TORRENT, Life Technologies, Carlsbad, CA), pirosecuenciación (por ejemplo, GS JUNIOR+, 454 Life Sciences, Branford, CT) o secuenciación por síntesis (SBS) (por ejemplo, MISEQ, Illumina, San Diego, CA). Las secuencias de adaptador de ejemplo incluyen 5' AAT GAT ACG GCG ACC ACC GA 3' (SEQ ID NO: 1) y 5' CAA GCA GAA GAC GGC ATA CGA GAT 3' (SEQ ID NO: 2). En el presente documento se contemplan adaptadores compatibles con Illumina, 454, Ion Torrent y otras tecnologías de secuenciación conocidas.
En algunas realizaciones, la composición comprende una primera molécula de ácido nucleico que comprende un ligando molecular. En algunas realizaciones, este ligando molecular comprende biotina. En algunas realizaciones, la composición comprende un agente de unión a ligando. En algunas realizaciones, este agente de unión a ligando es avidina o estreptavidina. Las composiciones que se describen en el presente documento también pueden comprender un tampón de lavado de agente de unión ligando-ligando. En algunas realizaciones, las composiciones que se describen en el presente documento comprenden un tampón de lavado de biotina.
Las composiciones que se describen en el presente documento también pueden comprender nucleótidos no incorporados. En algunas realizaciones, los nucleótidos no incorporados son desoxinucleótidos no incorporados. En algunas realizaciones, los nucleótidos no incorporados son didesoxinucleótidos.
En algunas realizaciones, las composiciones que se describen en el presente documento comprenden una primera molécula de ácido nucleico hibridada con un oligonucleótido que comprende una segunda secuencia de marcador molecular. La primera molécula de ácido nucleico puede estar totalmente hibridada con la segunda secuencia de marcador molecular del oligonucleótido, o la primera molécula de ácido nucleico puede no estar totalmente hibridada con la segunda secuencia de marcador molecular del oligonucleótido.
Se describen adicionalmente en el presente documento composiciones que comprenden una población de moléculas de ácido nucleico, en donde cada molécula comprende independientemente una primera cadena que comprende una primera secuencia de adaptador, una secuencia de marcador molecular, y una secuencia objetivo independiente, y en donde cada secuencia objetivo independiente comprende un subconjunto de una secuencia de ácido nucleico de muestra y en donde al menos una primera molécula de la población comprende una secuencia objetivo independiente que comprende un primer subconjunto de la secuencia de ácido nucleico de muestra, y en donde al menos una segunda molécula de la población comprende una secuencia objetivo independiente que comprende un segundo subconjunto de la secuencia de ácido nucleico de muestra. En algunas realizaciones, el adaptador de cada primera cadena de la población es idéntico. En algunas realizaciones, la secuencia de marcador molecular de cada molécula de la población comprende al menos seis bases de nucleótidos. En algunas realizaciones, un primer miembro de la población y un segundo miembro de la población comprenden secuencias de marcadores moleculares no idénticas. En algunas realizaciones, cada primera cadena comprende una base de 3'-desoxinucleótido en su extremo 3'. En algunas realizaciones, cada primera cadena puede comprender un ligando molecular en su extremo 5' o cada primera cadena puede comprender un ligando molecular unido en una posición no terminal. Adicionalmente, cada primera cadena puede comprender un ligando molecular en su extremo 3'. En algunas realizaciones, el ligando molecular es biotina.
En algunas realizaciones, las composiciones que se describen en el presente documento comprenden una población de moléculas de ácido nucleico, en donde cada molécula de la población comprende una segunda cadena que incluye una segunda secuencia de adaptador y una segunda secuencia de marcador molecular. En realizaciones adicionales, la segunda cadena de al menos una molécula de la población puede hibridarse con una primera cadena a través del apareamiento de bases al menos parcial de una segunda secuencia de marcador molecular de la segunda cadena con la secuencia objetivo independiente de la primera cadena. En algunas realizaciones, el adaptador de cada segunda cadena de la población puede ser idéntico. En algunas realizaciones, al menos una molécula de la población se une a un agente de unión a ligando molecular. En algunas realizaciones, el agente de unión de ligando molecular comprende avidina o estreptavidina.
Las composiciones que se describen en el presente documento también pueden comprender trifosfatos de ácido nucleico no incorporados. En algunas realizaciones, las composiciones que se describen en el presente documento pueden comprender tampón de lavado de ligando molecular, y/o tampón de prolongación de polimerasa, y/o polimerasa de ácido nucleico. En algunas realizaciones, la polimerasa de ácido nucleico posea actividad de helicasa de ácido nucleico. En algunas realizaciones, las composiciones que se describen en el presente documento comprenden polimerasas de ácido nucleico que poseen actividad de desplazamiento de cadena de ácido nucleico. En algunas realizaciones, las composiciones que se describen en el presente documento comprenden las secuencias compatibles con Illumina, Ion Torrent o tecnología de secuenciación 454. En algunas realizaciones, las composiciones que se describen en el presente documento comprenden las secuencias citadas en la SEQ ID NO: 1 y la SEQ ID NO: 2.
La información de secuencia obtenida en el presente documento se usa en algunos casos para cuantificar niveles de acumulación de ácidos nucleicos. Se genera una biblioteca y se secuencia como se desvela en el presente documento. Las lecturas duplicadas se excluyen para que solo se incluyan las lecturas marcadas de forma única. Las secuencias de lectura únicas se cartografían en una secuencia genómica o en una biblioteca de ADNc o a una secuencia de transcriptoma, tal como un transcriptoma para un tipo celular o un tratamiento dados o un transcriptoma más grande ajustado para que incluya, y que incluye, un conjunto de transcriptomas completo para un organismo. Se hace un recuento del número de lecturas de secuencia de biblioteca únicas que se cartografían en una región objetivo y se usa para representar la abundancia de esa secuencia en la muestra. En algunas realizaciones, las lecturas de secuencia marcadas de forma única se cartografían cada una en un solo sitio en la secuencia de muestra. En algunos casos, las lecturas de secuencia marcadas de forma única se cartografían en una pluralidad de sitios en todo un genoma, tales como sitios de inserción de transposones o sitios de elementos repetitivos. En consecuencia, en algunos casos, el número de moléculas de biblioteca que se cartografían en un "locus" o transcrito de transcriptoma corresponde al nivel de acumulación de ese transcrito en la muestra a partir de la que se genera la biblioteca. El número de moléculas de biblioteca que se cartografían en un elemento repetitivo, con respecto al número de moléculas de biblioteca que se cartografían en una región única dada del genoma, es indicativo de la abundancia relativa del elemento repetitivo en la muestra. Por lo tanto, en el presente documento se desvela un método de cuantificación de la abundancia relativa de una secuencia de molécula de ácido nucleico en una muestra que comprende las etapas de generar una biblioteca de secuencias que comprende fragmentos de biblioteca marcados de forma única y cartografiar la secuencia de molécula de ácido nucleico en la biblioteca, tal como la frecuencia de aparición de la secuencia de molécula de ácido nucleico en la biblioteca corresponde a la abundancia de la secuencia de molécula de ácido nucleico en la muestra a partir de la que se genera la biblioteca. En algunos casos, la frecuencia de aparición de la secuencia de molécula de ácido nucleico en la biblioteca se evalúa con respecto a la frecuencia de aparición de una segunda secuencia de molécula de ácido nucleico en la biblioteca, correspondiendo dicha segunda secuencia de ácido nucleico a un locus o transcrito de abundancia conocida en un transcriptoma o número de copias conocido por genoma de una muestra genómica.
En el presente documento se describen métodos de preparación de ácidos nucleicos en una muestra para su secuenciación usando cualquiera de las composiciones. En algunas realizaciones, las muestras se obtienen a partir de una célula, un tejido o una parte de un organismo. Los ejemplos no limitantes de organismos pueden incluir, ser humano, plantas, bacterias, virus, protozoos, eucariotas y procariotas. Como ejemplo ilustrativo, la muestra es un genoma humano que comprende ácidos nucleicos genómicos humanos. La muestra se usa para preparar una biblioteca de ácidos nucleicos. La biblioteca se secuencia.
La preparación de una biblioteca de ácidos nucleicos para la secuenciación se consigue usando métodos como los que se describen en el presente documento o métodos conocidos en la técnica. En algunas realizaciones, los ácidos nucleicos se obtienen a partir de un genoma humano. Los ácidos nucleicos genómicos humanos se amplifican en una mezcla de reacción X. En algunas realizaciones, la mezcla de reacción X puede comprender ADN, al menos un cebador, un tampón, una mezcla de desoxinucleótidos, una enzima y agua sin nucleasas. La mezcla de reacción X se prepara en un tubo Eppendorf. Preferentemente, la mezcla de reacción X se prepara en un tubo de microcentrífuga LoBind de ADN de Eppendorf. En algunos casos, el ADN es un ADN humano. La concentración final de ADN en la mezcla de reacción X es de aproximadamente 0,1 ng, 0,2 ng, 0,3 ng, 0,4 ng, 0,5 ng, 0,6 ng, 0,7 ng, 0,8 ng, 0,9 ng, 1,0 ng, 1,2 ng, 1,4 ng, 1,5 ng, 1,8 ng, 2,0 ng o más. La concentración final de ADN en la mezcla de reacción X es de aproximadamente 0,1 ng, 0,2 ng, 0,3 ng, 0,4 ng, 0,5 ng, 0,6 ng, 0,7 ng, 0,8 ng, 0,9 ng, 1,0 ng, 1,2 ng, 1,4 ng, 1,5 ng, 1,8 ng, 2,0 ng o menos. La concentración final de ADN en la mezcla de reacción X es de entre aproximadamente 0,1 y aproximadamente 2,0 ng, entre aproximadamente 0,2 ng y aproximadamente 1,2 ng, entre aproximadamente 0,5 ng y aproximadamente 0,8 ng, o entre aproximadamente 1,0 ng y aproximadamente 1,5 ng.
En algunos casos, la mezcla de reacción X comprende solo un cebador, por ejemplo, Cebador A. La concentración final de Cebador A en la mezcla de reacción total es de aproximadamente 10 pM, 20 pM, 30 pM, 40 pM, aproximadamente 50 pM, aproximadamente 100 pM, aproximadamente 150 pM, aproximadamente 200 pM o más. La concentración final de Cebador A en la mezcla de reacción total X es de aproximadamente 10 pM, 20 pM, 30 pM, 40 pM, aproximadamente 50 pM, aproximadamente 100 pM, aproximadamente 150 pM, aproximadamente 200 pM o menos. La concentración final de Cebador A en la mezcla de reacción total X es de entre aproximadamente 10 pM y aproximadamente 200 pM, entre aproximadamente 30 pM y aproximadamente 80 pM, entre aproximadamente 50 pM y aproximadamente 100 j M, o entre aproximadamente 40 j M, y aproximadamente 150 j M.
En algunos casos, la mezcla de reacción X comprende un tampón tal como el Tampón de Thermo Sequenase. Normalmente, la concentración final de tampón en la mezcla de reacción X es de aproximadamente el 10 % de la concentración original del tampón. Por ejemplo, en función del volumen final de la mezcla de reacción X, la cantidad de tampón que ha de añadirse es menos de, más de o aproximadamente 1 jl, aproximadamente 2 jl, aproximadamente 3 jl, aproximadamente 2,5 j l, aproximadamente 4 jl, aproximadamente 5 jl, aproximadamente 10 jl.
En algunos casos, la mezcla de reacción X comprende una pluralidad de desoxinucleótidos. Los desoxinucleótidos son uno o más de dATP, dTTP, dGTP, dCTP, ddATP, ddTTP, ddGTP y ddCTP. La concentración final de desoxinucleótidos en la mezcla de reacción X es de aproximadamente 0,1 j M, aproximadamente 0,2 j M, aproximadamente 0,3 j M, aproximadamente 0,4 j M, aproximadamente 0,5 j M, aproximadamente 0,6 j M, aproximadamente 0,7 j M, aproximadamente 0,8 j M, aproximadamente 0,9 j M, aproximadamente 1,0 j M, aproximadamente 1,2 j M, aproximadamente 1,5 j M, aproximadamente 1,8 j M, aproximadamente 2,0 j M o más. La concentración final de desoxinucleótidos en la mezcla de reacción X es de aproximadamente 0,1 j M, aproximadamente 0,2 j M, aproximadamente 0,3 j M, aproximadamente 0,4 j M, aproximadamente 0,5 j M, aproximadamente 0,6 j M, aproximadamente 0,7 j M, aproximadamente 0,8 j M, aproximadamente 0,9 j M, aproximadamente 1,0 j M, aproximadamente 1,2 j M, aproximadamente 1,5 j M, aproximadamente 1,8 j M, aproximadamente 2,0 j M o menos.
En algunos casos, la mezcla de reacción X comprende una enzima tal como una polimerasa. Por ejemplo, la enzima es una Thermo Sequenase en algunos casos. La concentración final de la polimerasa es de aproximadamente 0,01 j M, aproximadamente 0,1 j M, aproximadamente 0,2 j M, aproximadamente 0,3 j M, aproximadamente 0,4 j M, aproximadamente 0,5 j M, aproximadamente 0,6 j M, aproximadamente 0,7 j M, aproximadamente 0,8 j M, aproximadamente 0,9 j M, aproximadamente 1,0 j M, aproximadamente 1,2 j M, aproximadamente 1,5 j M, aproximadamente 1,8 j M, aproximadamente 2,0 j M o más. La concentración final de la polimerasa es de aproximadamente 0,01 j M, aproximadamente 0,1 j M, aproximadamente 0,2 j M, aproximadamente 0,3 j M, aproximadamente 0,4 j M, aproximadamente 0,5 j M, aproximadamente 0,6 j M, aproximadamente 0,7 j M, aproximadamente 0,8 j M, aproximadamente 0,9 j M, aproximadamente 1,0 j M, aproximadamente 1,2 j M, aproximadamente 1,5 j M, aproximadamente 1,8 j M, aproximadamente 2,0 j M o menos. La concentración final de la polimerasa es de aproximadamente 2,0 j M, entre aproximadamente 0,1 gM y aproximadamente 1,0 j M, entre aproximadamente 0,5 j M y aproximadamente 1,5 j M, o entre aproximadamente 0,8 j M y aproximadamente 1,8 j M.
Normalmente, se añade un volumen de agua sin nucleasas a la mezcla de reacción X para conseguir un volumen final deseado. El volumen final de la mezcla de reacción es de aproximadamente 10 jl, aproximadamente 20 jl, aproximadamente 25 jl, aproximadamente 30 jl, aproximadamente 40 jl, aproximadamente 50 j l o aproximadamente 100 jl. Dependiendo del volumen final de la mezcla de reacción X, la cantidad de agua sin nucleasas es de aproximadamente 0,1 j l, aproximadamente 0,5 j l, aproximadamente 0,8 j l, aproximadamente 1,0 jl, aproximadamente 2 jl, aproximadamente 5 jl, aproximadamente 10 jl, aproximadamente 15 jl, aproximadamente 20jl, aproximadamente 25 jl, aproximadamente 30 jl, aproximadamente 40 jl, aproximadamente 50 jl, aproximadamente 80 jl, aproximadamente 90 jl, aproximadamente 95 j l o más. La cantidad de agua sin nucleasas es de aproximadamente 0,1 jl, aproximadamente 0,5 j l, aproximadamente 0,8 j l, aproximadamente 1,0 jl, aproximadamente 2 jl, aproximadamente 5 jl, aproximadamente 10 jl, aproximadamente 15 jl, aproximadamente 20 jl, aproximadamente 25 jl, aproximadamente 30 jl, aproximadamente 40 jl, aproximadamente 50 jl, aproximadamente 80 jl, aproximadamente 90 jl, aproximadamente 95 j l o menos. La cantidad de agua sin nucleasas es de entre aproximadamente 0,1 j l y aproximadamente 95 jl, entre aproximadamente 1,0 j l y aproximadamente 10 jl, entre aproximadamente 5 j l y aproximadamente 50 j l o entre aproximadamente 20 j l y aproximadamente 80 jl.
En general, la mezcla de reacción X se incuba a una temperatura (Tf) durante un período de tiempo suficiente para desnaturalizar el ADN. La Tf es de aproximadamente 80 °C, aproximadamente 85 °C, aproximadamente 90 °C, aproximadamente 91 °C, aproximadamente 92 °C, aproximadamente 93 °C, aproximadamente 94 °C, aproximadamente 95 °C, aproximadamente 96 °C, aproximadamente 97 °C, aproximadamente 98 °C, aproximadamente 99 °C o más. La mezcla de reacción X se incuba a Tf durante más de, menos de, o aproximadamente 5 segundos, aproximadamente 10 segundos, aproximadamente 15 segundos, aproximadamente 20 segundos, aproximadamente 30 segundos, aproximadamente 1 minuto, aproximadamente 2 minutos, aproximadamente 3 minutos, aproximadamente 4 minuto, aproximadamente 5 minutos, aproximadamente 6 minutos, aproximadamente 7 minutos, aproximadamente 8 minutos, aproximadamente 9 minutos, aproximadamente 10 minutos. Por ejemplo, la mezcla de reacción X se incuba a 95 °C durante aproximadamente 3 minutos. Después de la desnaturalización, la temperatura de la mezcla de reacción X se reduce colocando el tubo en hielo. Por ejemplo, el tubo se coloca en hielo durante más de, menos de, o aproximadamente 5 segundos, aproximadamente 10 segundos, aproximadamente 15 segundos, aproximadamente 20 segundos, aproximadamente 30 segundos, aproximadamente 5 segundos, aproximadamente 10 segundos, aproximadamente 15 segundos, aproximadamente 20 segundos, aproximadamente 30 segundos, aproximadamente 1 minuto, aproximadamente 2 minutos, aproximadamente 3 minutos, aproximadamente 4 minuto, aproximadamente 5 minutos, aproximadamente 6 minutos, aproximadamente 7 minutos, aproximadamente 8 minutos, aproximadamente 9 minutos, aproximadamente 10 minutos. Preferentemente, la polimerasa, por ejemplo, Thermo Sequenase, se añade a la reacción y se mezcla suavemente. En general, la mezcla de reacción X se transfiere a un termociclador y se transcurre con un problema en el instrumento que se describe en el presente documento.
El termociclador realiza un programa que comprende (1) mantener la temperatura a aproximadamente una temperatura baja durante un período de tiempo, (2) aumentar la temperatura a una temperatura de hibridación de ADN, (3) mantener a la temperatura de hibridación durante un período de tiempo, (4) aumentar la temperatura a una temperatura de desnaturalización durante un período de tiempo, repetir de (1) a (4) durante al menos 9 veces y mantener a 8 °C, 4 °C, o menos, o congelado a -20 °C para su almacenamiento. La temperatura baja de (1) se mantiene a aproximadamente 10 °C, aproximadamente 12 °C, aproximadamente 14 °C, aproximadamente 16 °C, aproximadamente 18 °C o aproximadamente 20 °C. La temperatura baja de (1) se mantiene durante aproximadamente 5 segundos, aproximadamente 10 segundos, aproximadamente 15 segundos, aproximadamente 20 segundos, aproximadamente 30 segundos, aproximadamente 1 minuto, aproximadamente 2 minutos, aproximadamente 3 minutos, aproximadamente 4 minuto, aproximadamente 5 minutos, aproximadamente 6 minutos, aproximadamente 7 minutos, aproximadamente 8 minutos, aproximadamente 9 minutos, aproximadamente 10 minutos, aproximadamente 15 minutos o aproximadamente 20 minutos. Como alternativa, el termociclador puede mantener la temperatura a aproximadamente 16 °C durante aproximadamente 3 minutos. En algunas realizaciones, la temperatura de (1) a (2) aumenta lentamente, de manera que la temperatura se eleva en un pequeño aumento de temperatura de aproximadamente 0,1 °C/segundo. La temperatura de (2) es de aproximadamente 45 °C, aproximadamente 50 °C, aproximadamente 55 °C, aproximadamente 60 °C, aproximadamente 65 °C, aproximadamente 68 °C, aproximadamente 70 °C o más. En algunos casos, la temperatura de (2) se eleva lentamente hasta aproximadamente 60 °C en 0,1 °C/segundo. En algunos casos, la temperatura de (2) es la misma que la temperatura de (3). En algunos casos, la temperatura de (2) se aumenta adicionalmente hasta alcanzar la temperatura de (3). La temperatura de (3) se mantiene durante aproximadamente 5 segundos, aproximadamente 10 segundos, aproximadamente 15 segundos, aproximadamente 20 segundos, aproximadamente 30 segundos, aproximadamente 1 minuto, aproximadamente 2 minutos, aproximadamente 3 minutos, aproximadamente 4 minuto, aproximadamente 5 minutos, aproximadamente 6 minutos, aproximadamente 7 minutos, aproximadamente 8 minutos, aproximadamente 9 minutos, aproximadamente 10 minutos, aproximadamente 15 minutos o aproximadamente 20 minutos. En algunas realizaciones, la temperatura de (3) se mantiene durante aproximadamente 10 minutos. Como ejemplo, la temperatura de (4) es de aproximadamente 95 °C y se mantiene durante aproximadamente 10 segundos, 20 segundos, 30 segundos, 45 segundos, 60 segundos, 1 minuto, 2 minutos o más.
En algunas realizaciones, todos los componentes de reacción en la mezcla de reacción X, excepto el cebador, se combinan y se cargan en un dispositivo de partición pertinente. Después de dividir la reacción y combinarla con los cebadores con código de barras, la mezcla de reacción se transfiere a un termociclador, se desnaturaliza por calor a 95 °C durante 2 minutos y posteriormente se termocicla de acuerdo con el programa que se describe en el presente documento. En algunas realizaciones, el producto se almacena temporalmente a 4 °C o en hielo, o se congela a -20 °C para su almacenamiento a largo plazo. En algunas realizaciones, poco antes de continuar con la siguiente etapa, el producto almacenado se calienta a aproximadamente 98 °C durante aproximadamente 3 minutos, después se transfiere para su almacenamiento temporal en hielo.
En algunas realizaciones, el producto de ADN de la mezcla de reacción X descrita anteriormente se captura con perlas magnéticas. Esto se consigue preparando las perlas de captura antes de añadir el producto como se ha descrito anteriormente. Para empezar, se agita bien el tubo de perlas de captura para resuspender las perlas y se transfieren aproximadamente 40 pl de las perlas a un tubo nuevo LoBind de ADN de Eppendorf de 0,5 ml. En algunos casos, el volumen de las perlas es de aproximadamente 10 pl, aproximadamente 20 pl, aproximadamente 30 pl, aproximadamente 50 pl, aproximadamente 100 pl o más. El tubo se coloca en un soporte magnético durante aproximadamente 0,5-1 minutos para permitir que la solución se aclare. El sobrenadante se pipetea y se descarta. El tubo se retira del soporte magnético. Se añade un volumen de aproximadamente 200 pl de tampón de HS a las perlas. Los componentes se mezclan suavemente pipeteando la muestra hacia arriba y hacia abajo, antes de devolverla al soporte magnético. La muestra se mantiene en el soporte magnético durante aproximadamente 0,5-1 minutos para permitir que la solución se aclare. El sobrenadante se retira y se descarta pipeteándolo suavemente fuera del tubo. Después, el tubo se retira del soporte magnético y se resuspenden las perlas en 40 pl de tampón de HS. El tubo se deja temporalmente en la mesa del laboratorio a temperatura ambiente. El producto de ADN de la mezcla de reacción descrita anteriormente se añade a las perlas de captura preparadas como se describe en el presente documento y se incuba a temperatura ambiente durante aproximadamente 20 minutos. En algún caso, la muestra que contiene el ADN y las perlas de captura se incuba a temperatura ambiente durante aproximadamente 10 minutos, aproximadamente 15 minutos, aproximadamente 20 minutos, aproximadamente 30 minutos o más. El producto de ADN y las perlas de captura se mezclan pipeteando hacia arriba y hacia abajo durante aproximadamente 5 minutos, aproximadamente 10 minutos, aproximadamente 15 minutos, aproximadamente 20 minutos, aproximadamente 30 minutos o más. El tubo que comprende la mezcla de producto de ADN y perlas de captura se coloca en el soporte magnético y se espera a que la solución se aclare. El sobrenadante se retira pipeteándolo cuidadosamente fuera del tubo. Después, el tubo se retira del soporte magnético y se resuspenden las microesferas en 200 pl de tampón de lavado de perlas, y se devuelve al soporte magnético durante un tiempo para permitir que la solución se aclare. El sobrenadante se descarta. El lavado se repite al menos 2 veces adicionales y el líquido restante después del lavado final se retira cuidadosamente.
Las perlas de captura lavadas y el producto de ADN descritos anteriormente se añaden a una mezcla de reactivos para generar una mezcla de reacción Y. El reactivo puede comprender un tampón de Sequenase, una pluralidad de desoxinucleótidos, al menos un cebador, una enzima y agua sin nucleasas.
En algunos casos, la mezcla de reacción Y comprende solo un cebador, por ejemplo, Cebador B. La concentración final de Cebador A en la mezcla de reacción total Y es de aproximadamente 10 jiM, 20 jiM, 30 jiM, 40 jiM, aproximadamente 50 jiM, aproximadamente 100 jiM, aproximadamente 150 jiM, aproximadamente 200 jiM o más. La concentración final de Cebador B en la mezcla de reacción total Y es de aproximadamente 10 jiM, 20 jiM, 30 jiM, 40 jiM, aproximadamente 50 jiM, aproximadamente 100 jiM, aproximadamente 150 jiM, aproximadamente 200 jiM o menos. La concentración final de Cebador B en la mezcla de reacción total Y es de entre aproximadamente 10 jiM y aproximadamente 200 jiM, entre aproximadamente 30 jiM y aproximadamente 80 jiM, entre aproximadamente 50 jiM y aproximadamente 100 jiM, o entre aproximadamente 40 jiM, y aproximadamente 150 jiM.
En algunos casos, la mezcla de reacción Y comprende un tampón de Sequenase. Normalmente, la concentración final de tampón en la mezcla de reacción Y es de aproximadamente el 10 % de la concentración original del tampón. En algunos casos, la concentración final de tampón en la mezcla de reacción Y es de aproximadamente el 5 %, aproximadamente el 10 %, aproximadamente el 15 %, aproximadamente el 20 %, aproximadamente el 30 % o menos, de la concentración original del tampón. Por ejemplo, en función del volumen final de la mezcla de reacción Y, la cantidad de tampón que ha de añadirse es menos de, más de o aproximadamente 1 jil, aproximadamente 2 jil, aproximadamente 3 jil, aproximadamente 2,5 jil, aproximadamente 4 jil, aproximadamente 5 jil, aproximadamente 10 jil.
En algunos casos, la mezcla de reacción Y comprende una pluralidad de desoxinucleótidos. El desoxinucleótido es dATP, dTTP, dGTP, dCTP, ddATP, ddTTP, ddGTP y ddCTP. La concentración final de desoxinucleótidos en la mezcla de reacción Y es de aproximadamente 0,1 jiM, aproximadamente 0,2 jiM, aproximadamente 0,3 jiM, aproximadamente 0,4 jiM, aproximadamente 0,5 jiM, aproximadamente 0,6 jiM, aproximadamente 0,7 jiM, aproximadamente 0,8 jiM, aproximadamente 0,9 jiM, aproximadamente 1,0 jiM, aproximadamente 1,2 jiM, aproximadamente 1,5 jiM, aproximadamente 1,8 jiM, aproximadamente 2,0 jiM o más. La concentración final de desoxinucleótidos en la mezcla de reacción Y es de aproximadamente 0,1 jiM, aproximadamente 0,2 jiM, aproximadamente 0,3 jiM, aproximadamente 0,4 jiM, aproximadamente 0,5 jiM, aproximadamente 0,6 jiM, aproximadamente 0,7 jiM, aproximadamente 0,8 jiM, aproximadamente 0,9 jiM, aproximadamente 1,0 jiM, aproximadamente 1,2 jiM, aproximadamente 1,5 jiM, aproximadamente 1,8 jiM, aproximadamente 2,0 jiM o menos.
En algunos casos, la mezcla de reacción Y comprende una enzima. La enzima es una polimerasa. Por ejemplo, la enzima es una Sequenase. En algunos casos, la Sequenasa comprende una relación 1:1 de Sequenasa y Pirofosfatasa Inorgánica. La concentración final de la polimerasa es de aproximadamente 0,01 jiM, aproximadamente 0,1 jiM, aproximadamente 0,2 jiM, aproximadamente 0,3 jiM, aproximadamente 0,4 jiM, aproximadamente 0,5 jiM, aproximadamente 0,6 jiM, aproximadamente 0,7 jiM, aproximadamente 0,8 jiM, aproximadamente 0,9 jiM, aproximadamente 1,0 jiM, aproximadamente 1,2 jiM, aproximadamente 1,5 jiM, aproximadamente 1,8 jiM, aproximadamente 2,0 jiM o más. La concentración final de la polimerasa es de aproximadamente 0,01 jiM, aproximadamente 0,1 jiM, aproximadamente 0,2 jiM, aproximadamente 0,3 jiM, aproximadamente 0,4 jiM, aproximadamente 0,5 jiM, aproximadamente 0,6 jiM, aproximadamente 0,7 jiM, aproximadamente 0,8 jiM, aproximadamente 0,9 jiM, aproximadamente 1,0 jiM, aproximadamente 1,2 jiM, aproximadamente 1,5 jiM, aproximadamente 1,8 jiM, aproximadamente 2,0 jiM o menos. La concentración final de la polimerasa es de aproximadamente 2,0 jiM, entre aproximadamente 0,1 jiM y aproximadamente 1,0 jiM, entre aproximadamente 0,5 jiM y aproximadamente 1,5 jiM, o entre aproximadamente 0,8 jiM y aproximadamente 1,8 jiM.
Normalmente, se añade un volumen de agua sin nucleasas a la mezcla de reacción para conseguir un volumen final deseado. El volumen final de la mezcla de reacción Y es de aproximadamente 10 jil, aproximadamente 20 jil, aproximadamente 25 jil, aproximadamente 30 jil, aproximadamente 40 jil, aproximadamente 50 jil o aproximadamente 100 jil. Dependiendo del volumen final de la mezcla de reacción, la cantidad de agua sin nucleasas es de aproximadamente 0,1 jil, aproximadamente 0,5 jil, aproximadamente 0,8 jil, aproximadamente 1,0 jil, aproximadamente 2 jil, aproximadamente 5 jil, aproximadamente 10 jil, aproximadamente 15 jil, aproximadamente 20 jil, aproximadamente 25 jil, aproximadamente 30 jil, aproximadamente 40 jil, aproximadamente 50 jil, aproximadamente 80 jil, aproximadamente 90 jil, aproximadamente 95 jil o más. La cantidad de agua sin nucleasas es de aproximadamente 0,1 jil, aproximadamente 0,5 jil, aproximadamente 0,8 jil, aproximadamente 1,0 jil, aproximadamente 2 jil, aproximadamente 5 jil, aproximadamente 10 jil, aproximadamente 15 jil, aproximadamente 20 jil, aproximadamente 25 jil, aproximadamente 30 jil, aproximadamente 40 jil, aproximadamente 50 jil, aproximadamente 80 jil, aproximadamente 90 jil, aproximadamente 95 jil o menos. La cantidad de agua sin nucleasas es de entre aproximadamente 0,1 jil y aproximadamente 95 jil, entre aproximadamente 1,0 jil y aproximadamente 10 jil, entre aproximadamente 5 jil y aproximadamente 50 jil o entre aproximadamente 20 jil y aproximadamente 80 jil.
En algunas realizaciones, la mezcla de reacción Y se incuba durante aproximadamente 20 minutos a 24 °C. La mezcla se incuba durante más o menos tiempo. Por ejemplo, la mezcla de reacción Y se incuba durante aproximadamente 10 minutos, aproximadamente 15 minutos, aproximadamente 20 minutos, aproximadamente 30 minutos o más. La temperatura es superior a, inferior a, o de aproximadamente 18 °C, aproximadamente 20 °C, aproximadamente 25 °C, aproximadamente 28 °C. Preferentemente, la incubación se realiza en un termociclador o bloque de calentamiento. Después, el tubo puede colocarse en un soporte magnético durante un tiempo que permita que la solución se aclare. El sobrenadante se retira y se descarta. Después, el tubo se retira del soporte magnético y se resuspenden las perlas en aproximadamente 200 pl de tampón de lavado de perlas, antes de volver al soporte magnético, se deja reposar hasta que la solución se aclara. El sobrenadante se retira cuidadosamente. Los procedimientos de lavado normalmente se repiten al menos dos veces adicionales. El líquido restante después del lavado final se retira cuidadosamente.
En algunas realizaciones, la reacción Y se añade a una mezcla de reacción para generar la mezcla de reacción Z. En general, la reacción Y se añade a una mezcla de reacción Z en un tubo de PCR que comprende un cebador universal de PCR I, un cebador de PCR II con códigos de barras, una mezcla de amplificación de PCR KAPA HiFi y agua sin nucleasas.
En algunos casos, la concentración final de cebador universal de PCR I en la mezcla de reacción total Z' es de aproximadamente 10 pM, 20 pM, 30 pM, 40 pM, aproximadamente 50 pM, aproximadamente 100 pM, aproximadamente 150 pM, aproximadamente 200 pM o más. La concentración final de cebador universal de PCR I en la mezcla de reacción total Z' es de aproximadamente 10 pM, 20 pM, 30 pM, 40 pM, aproximadamente 50 pM, aproximadamente 100 pM, aproximadamente 150 pM, aproximadamente 200 pM o menos. La concentración final de cebador universal de PCR I en la mezcla de reacción total Z' es de entre aproximadamente 10 pM y aproximadamente 200 pM, entre aproximadamente 30 pM y aproximadamente 80 pM, entre aproximadamente 50 pM y aproximadamente 100 pM, o entre aproximadamente 40 pM, y aproximadamente 150 pM.
En algunos casos, la concentración final de cebador de PCR II en la mezcla de reacción total Z' es de aproximadamente 10 pM, 20 pM, 30 pM, 40 pM, aproximadamente 50 pM, aproximadamente 100 pM, aproximadamente 150 pM, aproximadamente 200 pM o más. La concentración final de cebador de PCR II en la mezcla de reacción total Z' es de aproximadamente 10 pM, 20 pM, 30 pM, 40 pM, aproximadamente 50 pM, aproximadamente 100 pM, aproximadamente 150 pM, aproximadamente 200 pM o menos. La concentración final de cebador de PCR II en la mezcla de reacción total Z' es de entre aproximadamente 10 pM y aproximadamente 200 pM, entre aproximadamente 30 pM y aproximadamente 80 pM, entre aproximadamente 50 pM y aproximadamente 100 pM, o entre aproximadamente 40 pM, y aproximadamente 150 pM.
En algunos casos, la mezcla de reacción comprende una mezcla de amplificación de PCR KAPA HiFi. Normalmente, la concentración final de mezcla de amplificación de PCR KAPA HiFi en la mezcla de reacción Z' es de aproximadamente el 10 % de la concentración original de la mezcla. En algunos casos, la concentración final de mezcla de amplificación de PCR KAPA HiFi en la mezcla de reacción Z' es de aproximadamente el 5 %, aproximadamente el 10 %, aproximadamente el 15 %, aproximadamente el 20 %, aproximadamente el 30 % o menos, de la concentración original de la mezcla. Por ejemplo, en función del volumen final de la mezcla de reacción Z', la cantidad de mezcla de amplificación de PCR KAPA HiFi que ha de añadirse es menos de, más de o aproximadamente 1 pl, aproximadamente 2 pl, aproximadamente 3 pl, aproximadamente 2,5 pl, aproximadamente 4 pl, aproximadamente 5 pl, aproximadamente 10 pl.
Normalmente, se añade un volumen de agua sin nucleasas a la mezcla de reacción Z' para conseguir un volumen final deseado. El volumen final de la mezcla de reacción Z' es de aproximadamente 10 pl, aproximadamente 20 pl, aproximadamente 25 pl, aproximadamente 30 pl, aproximadamente 40 pl, aproximadamente 50 pl o aproximadamente 100 pl. Dependiendo del volumen final de la mezcla de reacción, la cantidad de agua sin nucleasas es de aproximadamente 0,1 pl, aproximadamente 0,5 pl, aproximadamente 0,8 pl, aproximadamente 1,0 pl, aproximadamente 2 pl, aproximadamente 5 pl, aproximadamente 10 pl, aproximadamente 20 pl, aproximadamente 25 pl, aproximadamente 30 pl, aproximadamente 40 pl, aproximadamente 50 pl, aproximadamente 80 pl, aproximadamente 90 pl, aproximadamente 95 pl o más. La cantidad de agua sin nucleasas es de aproximadamente 0,1 pl, aproximadamente 0,5 pl, aproximadamente 0,8 pl, aproximadamente 1,0 pl, aproximadamente 2 pl, aproximadamente 5 pl, aproximadamente 10 pl, aproximadamente 15 pl, aproximadamente 20 pl, aproximadamente 25 pl, aproximadamente 30 pl, aproximadamente 40 pl, aproximadamente 50 pl, aproximadamente 80 pl, aproximadamente 90 pl, aproximadamente 95 pl o menos. La cantidad de agua sin nucleasas es de entre aproximadamente 0,1 pl y aproximadamente 95 pl, entre aproximadamente 1,0 pl y aproximadamente 10 pl, entre aproximadamente 5 pl y aproximadamente 50 pl o entre aproximadamente 20 pl y aproximadamente 80 pl.
La mezcla de reacción Z se coloca en un termociclador para realizar una reacción en cadena de la polimerasa (PCR) y generar un producto de XX. El programa de PCR comprende al menos 1 ciclo a aproximadamente 98 °C durante 2 minutos para desnaturalizar el ADN, al menos 15 ciclos a aproximadamente 98 °C durante 20 segundos para la desnaturalización, bajar la temperatura a aproximadamente 60 °C durante 30 segundos para hibridar los cebadores, aumentar la temperatura a aproximadamente 72 °C durante 30 segundos para la prolongación, al menos 1 ciclo a aproximadamente 72 °C durante 5 minutos para la prolongación final y mantener a 4 °C. En algunos casos, la temperatura de desnaturalización de ADN es de aproximadamente 92 °C, aproximadamente 95 °C, aproximadamente 97 °C o aproximadamente 99 °C. En algunos casos, la temperatura de hibridación de cebador es de aproximadamente 45 °C, aproximadamente 50 °C, aproximadamente 55 °C, aproximadamente 60 °C, aproximadamente 65 °C o aproximadamente 70 °C. En algunos casos, la temperatura de prolongación es de aproximadamente 65 °C, aproximadamente 70 °C, aproximadamente 72 °C o aproximadamente 75 °C.
El producto XX se limpia con perlas AmpureXP. En general, el tubo de PCR que comprende producto XX se coloca en un soporte magnético y se mantiene quieto para que la solución se aclare hasta que se retira el sobrenadante mediante pipeteo. El sobrenadante se transfiere a un tubo nuevo LoBind de ADN de Eppendorf de 0,5 ml. El tubo de PCR que contiene las perlas de captura se descarta. Normalmente, se añaden aproximadamente 100 pl de perlas AmpureXP al sobrenadante y la mezcla se mezcla pipeteando hacia arriba y hacia abajo, antes de incubar a temperatura ambiente durante aproximadamente 10 minutos. En algunos casos, el tiempo de incubación es superior o inferior a 10 minutos, tal como de aproximadamente 5 minutos, aproximadamente 15 minutos, aproximadamente 20 minutos, aproximadamente 30 minutos o más. El tubo se coloca en el soporte magnético para permitir que la solución se aclare. El sobrenadante se descarta. Se añaden aproximadamente 200 pl de etanol al 80 % al tubo y se deja reposar durante aproximadamente 30 segundos, antes de retirar y descartar el etanol. Puede que no sea necesario retirar el tubo del soporte magnético durante este procedimiento. El tubo se lava con 200 pl de etanol al 80 % al menos una vez más. Se abre el tapón del tubo y se deja que las perlas se sequen al aire durante aproximadamente 10-15 minutos. Se añaden a las perlas de aproximadamente 20 pl a aproximadamente 30 pl de Tric-HCl 10 mM (pH 7,8). La mezcla resultante se mezcla pipeteando hacia arriba y hacia abajo, antes de dejarla reposar a temperatura ambiente durante aproximadamente 2 minutos. El tubo se coloca en el soporte magnético para permitir que la solución se aclare. El sobrenadante que contiene el ADN eluido se transfiere a un tubo nuevo LoBind de ADN de Eppendorf. Después, el producto puede usarse para generar una biblioteca y se cuantifica en un Bioanalizador Agilent usando un chip de ADN de sensibilidad alta antes de la secuenciación.
Se observa que en algunas realizaciones, todas las etapas de preparación de bibliotecas hasta este punto se realizan en un solo volumen. En algunos casos, el único volumen es un solo tubo. En algunos casos, el único volumen es un solo pocillo en una placa. Opcionalmente, después de la generación de bibliotecas, el ADN se selecciona por tamaño usando métodos basados en perlas o basados en gel de agarosa y la biblioteca se cuantifica en un Bioanalizador Agilent usando un chip de ADN de sensibilidad alta antes de la secuenciación.
En toda la memoria descriptiva del presente documento, la divulgación se clasifica en secciones para facilitar su comprensión. Se entiende que estas divisiones facilitan la comprensión y no necesariamente para limitar la aplicabilidad de algunas secciones de la memoria descriptiva entre sí. En consecuencia, la divulgación en una sección cualquiera de la memoria descriptiva es pertinente, en algunos casos, no solo para esa sección sino para otras secciones y, en algunos casos, para la divulgación en su conjunto.
Ejemplos
Para que los métodos y las composiciones que se describen en el presente documento se comprendan mejor, se exponen los siguientes ejemplos. Ha de comprenderse que estos ejemplos solo tienen fines ilustrativos y no han de interpretarse como limitantes de ninguna manera.
Ejemplo 1: Preparación rápida de bibliotecas de ADN
Obtener la secuencia de ácido nucleico objetivo. Esto es 50 ng de ácido desoxirribonucleico genómico (ADNg) o 1 ng-10 ng de ADNg en diversos casos. Mezclar el ADNg con cebadores de oligonucleótidos aleatorios que contengan colas de adaptador de secuenciación en posición 5'. Después, se añade un conjunto de desoxinucleótidos trifosfato (dNTP) que contiene una relación fija de cada uno de los cuatro dNTP y una relación fija de didesoxinucleótidos trifosfato biotinilados (ddNTP), tampón de reacción y agua sin nucleasas. Incubar esta mezcla a 98 °C durante 3 minutos para desnaturalizar el ADN. Colocar el tubo en hielo durante al menos 2 minutos inmediatamente después. Añadir a esta mezcla una ADN polimerasa que tenga actividad de desplazamiento de cadena y capacidad de incorporación de ddNTP/biotina. Incubar esta reacción a temperatura ambiente (aproximadamente 22 °C) durante 30 minutos.
Durante este tiempo, preparar las perlas magnéticas recubiertas con estreptavidina agitando bien el tubo que contiene las perlas para resuspender las perlas. T ransferir las perlas a un tubo nuevo y colocar el tubo en un soporte magnético de separación. Dejar que la solución se aclare (aproximadamente 0,5 - 1 minuto) y, después, retirar y descartar cuidadosamente el sobrenadante con una pipeta. Retirar el tubo del soporte magnético de separación y añadir tampón de HS, u otro tampón adecuado, a las perlas. Pipetear la muestra hacia arriba y hacia abajo para mezclar los componentes y después devolver el tubo al soporte magnético. Esperar a que la solución se aclare. Retirar con cuidado y descartar el sobrenadante. Retirar el tubo del soporte magnético y resuspender las perlas en tampón de HS.
Añadir la mezcla de ADN a las perlas magnéticas e incubar la muestra a temperatura ambiente durante 30 minutos. Mezclar la muestra pipeteando hacia arriba y hacia abajo a intervalos de 10 minutos. Colocar el tubo en el soporte magnético y esperar a que la solución se aclare. Retirar con cuidado el sobrenadante con una pipeta y descartarlo. Retirar el tubo del soporte magnético y resuspender las perlas en tampón de lavado de perlas (tampón de IX Tris-EDTA). Devolver el tubo al soporte magnético, dejar que la solución se aclare y descartar el sobrenadante. Realizar esta etapa dos veces adicionales. Retirar con cuidado cualquier líquido restante después del último lavado.
Mezclar las perlas magnéticas con un segundo conjunto de cebadores de oligonucleótidos aleatorios que contengan colas de adaptador de secuenciación de 5' y un conjunto de dNTP. Añadir a esta mezcla una ADN polimerasa que tenga actividad de desplazamiento de cadena e incubar la reacción durante 20 minutos a temperatura ambiente (aproximadamente 22 °C). Después, colocar el tubo en el soporte magnético. Dejar que la solución se aclare y retirar el sobrenadante. Retirar el tubo del soporte magnético y resuspender las perlas en tampón de lavado de perlas (1X Tris-EDTA). Devolver el tubo al soporte magnético, dejar que la solución se aclare y descartar el sobrenadante. Realizar esta etapa dos veces adicionales. Retirar con cuidado cualquier líquido restante después del último lavado.
Resuspender las perlas en agua sin nucleasas. Transferir las perlas a un tubo de PCR y añadir cebadores complementarios a los adaptadores y mezcla maestra de PCR (que contiene ADN polimerasa Taq, dNTP, MgCl2 y tampones de reacción). Introducir los siguientes parámetros en un termociclador y realizar la PCR: 1 ciclo (98 °C, 2 minutos); 6 ciclos (98 °C, 20 segundos; 60 °C, 30 segundos; 72 °C durante 30 segundos); 1 ciclo (72 °C, 5 minutos; 4 °C - mantener). Ejecutar la segunda etapa durante 15 ciclos en lugar de 6 si se usa 1 ng-10 ng de entrada de ADNg.
Colocar el tubo de PCR en un soporte magnético, esperar a que la solución se aclare y transferir el sobrenadante a un tubo nuevo. Descartar el tubo de PCR que contiene las perlas magnéticas. Añadir perlas magnéticas de purificación por PCR (por ejemplo, Perlas AMPure XP, Beckman Coulter, Brea, CA) al sobrenadante, pipetear para mezclar e incubar el tubo a temperatura ambiente durante 10 minutos. Colocar el tubo en el soporte magnético, dejar que la solución se aclare y descartar el sobrenadante. Añadir etanol al 80 % al tubo. Esperar 30 segundos, después retirar y descartar el etanol. No es necesario retirar el tubo del soporte magnético durante esta etapa. Repetir la etapa de lavado con etanol al 80 % adicional. Abrir el tapón del tubo y dejar que las perlas se sequen al aire durante 10-15 minutos en la mesa del laboratorio. Añadir Tris-HCl 10 mM (pH 8,0) a las perlas. Mezclar pipeteando hacia arriba y hacia abajo. Dejar que el tubo repose a temperatura ambiente durante 1-2 minutos. Después, colocar el tubo en el soporte magnético, dejar que la solución se aclare y transferir el sobrenadante que contiene el ADN eluido a un tubo nuevo. Después, el a Dn puede seleccionarse por tamaño usando métodos basados en perlas o basados en gel de agarosa y después puede cuantificarse en un bioanalizador (por ejemplo, Bioanalizador Agilent 2100, Agilent Technologies, Santa Clara, CA) usando un chip de ADN de sensibilidad alta antes de la secuenciación.
Ejemplo 2: Preparación rápida de bibliotecas de ARN
Se usa ácido desoxirribonucleico complementario (ADNc) como la secuencia de ácido nucleico objetivo en lugar del ADNg descrito en el Ejemplo 1. Antes de las etapas detallados en el Ejemplo 1 se realiza una etapa adicional de creación de ADNc a partir de ácido ribonucleico (ARN). Se usan cebadores de Oligo dT para sintetizar el ADNc y restringir la biblioteca de ADNc a ARN mensajero con colas de poli(A) o se usan cebadores aleatorios para sintetizar ADNc a partir de transcritos de longitud completa de todas las especies de ARN.
Como alternativa, puede usarse ARN como la secuencia de ácido nucleico objetivo. Cuando se usa ARN, se usa una transcriptasa inversa (por ejemplo, transcriptasa inversa de VIH) con capacidad para incorporar ddNTP/biotina en lugar de la a Dn polimerasa.
Ejemplo 3: Preparación rápida de bibliotecas de lectura larga
Pueden obtenerse lecturas largas con una modificación mejor del protocolo descrito en el Ejemplo 1. Fragmentar la secuencia de ácido nucleico objetivo en fragmentos de ADN de 10 kilobases o más. La fragmentación puede realizarse por medios físicos, químicos o enzimáticos. Un ejemplo es el G-TUBE (Covaris Inc, Woburn, MA). A continuación, diluir los fragmentos en vesículas de reacción (por ejemplo, microplacas o emulsiones de aceite en agua) y añadir la mezcla de ADN polimerasa, dNTP, biotina-ddNTP y tampón de reacción como se describe en el Ejemplo 1. Se forma una biblioteca de cebadores que comprende 1544 adaptadores de secuenciación etiqueta correctora de errores cebador aleatorio en forma de emulsión de agua en aceite. Las gotitas de emulsión de agua en aceite que contienen el ADN de fragmentos largos diluidos se generan en el sistema y se fusionan con las gotitas de biblioteca de cebadores en una relación 1:1. Los cebadores se unen aleatoriamente a los fragmentos, se prolongan y se terminan con un biotina-ddNTP. La emulsión se rompe, se hace pasar por una columna para retirar el aceite y el tensioactivo, y el producto se captura con perlas magnéticas recubiertas con estreptavidina. El resto del protocolo es como se describe en el Ejemplo 1.
Ejemplo 4: Preparación rápida de bibliotecas dirigida
La secuenciación dirigida puede realizarse con una ligera variación del protocolo descrito en el Ejemplo 1. Se ceba aleatoriamente ADNg, se prolonga, se termina con biotina-ddNTP y se captura de la misma manera que en el Ejemplo 1. Se usan cebadores específicos de locus que contienen colas de adaptadores de secuenciación en posición 5' en lugar del segundo conjunto de cebadores de oligonucleótidos aleatorios que contienen colas de adaptadores de secuenciación en posición 5'. Las secuencias específicas de locus se unen a sus objetivos y se prolongan por una ADN polimerasa termoestable con actividad de desplazamiento de cadena. Las perlas se lavan para retirar el exceso de dNTP, enzima y cebador. El producto resultante se libera de la perla y se secuencia o amplifica a través del uso de las secuencias de adaptador y PCR.
Ejemplo 5: Ejemplos y comparaciones de preparaciones rápidas de bibliotecas
Se obtuvo una biblioteca de secuenciación para una muestra con el protocolo de preparación rápida de bibliotecas y se comparó con una biblioteca de secuenciación obtenida con NEXTERA (Illumina, San Diego, CA), un kit de biblioteca de secuenciación disponible en el mercado. La especificidad se define como el porcentaje de lecturas que cubren el genoma/las regiones objetivo frente a la secuencia no deseada/capacidad desperdiciada. La sensibilidad se define como el porcentaje de las regiones del genoma/objetivo que proporcionan una secuencia de calidad alta (superior a 20x con una puntuación de calidad Phred de 30) con los duplicados retirados. Las especificaciones de rendimiento se presentan en la Tabla 2.
Tabla 2: Especificaciones de rendimiento de un ejemplo de preparación rápida de bibliotecas.
Característica Especificación
Entrada de ADN 1 ng
% de lecturas cartografiadas >99 %
% > 20x >99 % (promedio 100x)
La biblioteca de secuenciación obtenida usando el protocolo de preparación rápida de bibliotecas se comparó con una biblioteca de secuenciación obtenida con un kit NEXTERA (Illumina, San Diego, CA). La muestra fue 4.641.652 bases de Escherichia coli y el número de ciclos para NEXTERA (NXT) fue de 12 y para la preparación rápida de bibliotecas (IGX) fue de 15. La comparación se muestra en la Tabla 3. En las FIG. 5A-5B se muestra una comparación de la uniformidad y el sesgo de guanina-citosina (GC) para la biblioteca NEXTERA (lado izquierdo) y la preparación rápida de bibliotecas (lado derecho).
Tabla 3
Tabla 3: Comparación de bibliotecas de secuenciación obtenidas con NEXTERA y preparación rápida de bibliotecas.
ra E n.° dentrada % Profundidad
Muest lecturas cartografiado % >1x % > 5x %>10X %>20x %>100x % de promedio GC IGX1A 1 ng 3660404 98,15 210 99,99 99,96 99,88 99,62 87,54 50,79 IGX1B 1 ng 3096283 97,83 178 99,99 99,93 99,75 99,29 77,07 50,79 IGX2A 10 ng 4280731 98,93 240 100 100 100 100 98,64 50,79 IGX2B 10 ng 3151972 98,25 176 99,96 99,84 99,64 99,13 81,95 50,79 NXT1A 1 ng 2292221 99,83 131 99,99 99,84 99,55 98,78 85,55 50,79 NXT1B 1 ng 1688853 99,89 94 100 99,95 99,76 99,10 39,71 50,79
Una comparación de la calidad de secuencia para la biblioteca NEXTERA (lado izquierdo) y la biblioteca de preparación rápida de bibliotecas (lado derecho) se muestra en las FIG. 6A-6B, y una comparación del contenido de guanina-citosina (GC) para las mismas dos bibliotecas se muestra en las FIG. 7A-7B. Una comparación de la contribución de nucleótidos para las mismas dos bibliotecas se muestra en las FIG. 8A-8B. En las FIG. 6A-6B, las FIG.
7A-7B y las FIG. 8A-8B, la entrada fue de 1 ng de ADN con 12 ciclos de PCR para NEXTERA y 15 ciclos para la preparación rápida de bibliotecas.
El efecto del número de ciclos usando 50 ng de ADNg humano se muestra en las FIG. 9A-9E. Se realizó una preparación rápida de bibliotecas usando 250 células de una estirpe celular humana y la distribución de bases (panel izquierdo), la calidad por ciclo (centro) y el sesgo de GC (panel derecho) se muestran en las FIG. 10A-10C. Cuando la entrada fue de 100 ng, el % cart fue de >99 %; el % dup fue de 0,937; y la media fue de 0,18x. Cuando la entrada fue de 2 ng, el % cart fue de >95 %; el % dup fue de 9,8; y la media fue de 0,66x. La concentración de SEQUENASE (a 24 °C) a los 0 minutos fue de 6,48; a los 20 minutos fue de 8,39; a las 2 horas fue de 11,4; y a las 4 horas fue de 13,6.
Los recuentos de lecturas que se aparean con una etiqueta dada para 250 células y moléculas de 20 kb se presentan en las FIG. 14A-14B. El resumen estadístico de asignaciones de etiquetas de lectura para una tolerancia de cero desapareamientos se presenta en la Tabla 4. El resumen estadístico de asignaciones de etiquetas de lectura para una tolerancia de un desapareamiento se presenta en la Tabla 5. Los recuentos de lecturas que se aparean con una etiqueta dada con 1545 etiquetas y 400 pg de entrada se presentan en las FIG. 15A-15C.
Tabla 4: Resumen estadístico de asignaciones de etiquetas de lectura para una tolerancia de cero
desa areamientos.
Figure imgf000055_0001
Tabla 5: Resumen estadístico de asignaciones de etiquetas de lectura para una tolerancia de un desapareamiento.
Figure imgf000056_0001
En la Tabla 6 se proporciona un resumen de datos humanos de preparación rápida de bibliotecas de cobertura baja.
Figure imgf000057_0001
Ejemplo 6 - Sesgo de selección de secuencia de oligos aleatorios
El genoma humano tiene un sesgo hacia los pares de bases AT en lugar de GC. Como se observa en la Fig. 10C (panel derecho), el genoma humano, cuando se calcula en ventanas de 100 pb, demuestra un número máximo de ventanas a aproximadamente el 40 % de GC, en lugar del 50 % como se prevería para una distribución igual de pares de bases GC/AT.
Para generar una Biblioteca Aleatoria, se sintetiza una población de oligos de síntesis de primera ronda. Los oligonucleótidos de primera cadena comprenden cada uno un adaptador de secuencia ubicado en posición 5' de un octámero aleatorio seguido de un OH en posición 3' al partir del que se produce la prolongación dirigida por molde. La población se sintetiza de manera que todos los octámeros aleatorios estén representados en la población de oligonucleótidos de primera cadena. Sin embargo, para aumentar la eficacia de la hibridación y, posteriormente, de la síntesis de primera cadena, la población se sintetiza de manera que incluya un sesgo para octámeros aleatorios que tengan un porcentaje de GC de aproximadamente el 40 %, de manera que la distribución global de la secuencia de octámeros en la biblioteca de síntesis de primera cadena refleje la del genoma humano en su conjunto.
Ejemplo 7 - Síntesis de primera cadena de biblioteca aleatoria
Se obtiene una muestra de 50 ng de ADN genómico humano. La muestra se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena sintetizados como en el Ejemplo 6. Los oligonucleótidos de primera cadena comprenden cada uno un adaptador de secuencia en posición 5' de un octámero aleatorio seguido de un OH en posición 3' al partir del que se produce la prolongación dirigida por molde.
Como se analiza en el Ejemplo 6, la población de octámeros aleatorios de los oligos de síntesis de primera ronda representa todos los octámeros posibles, pero la abundancia relativa de cada octámero está sesgada para que coincida con la abundancia relativa de pares de bases GC frente a AT en el genoma humano. Se añaden 4 ul de la población a la muestra.
También se añade a la composición un tampón de polimerasa que comprende reactivos coherentes con la actividad de ADN polimerasa y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina, en una relación relativa del 99 % de desoxi NTP con respecto al 1 % de di-desoxi NTP. Se añaden 8 ul de la composición de tampón/NTP a la muestra.
La mezcla se diluye a un volumen total de 19 ul. La mezcla se calienta a 98 °C durante 3 minutos, tiempo durante el cual el ADN genómico se "funde" en cadenas simples no unidas por enlaces de hidrógeno entre bases complementarias.
Después, la mezcla se enfría en hielo durante 2 minutos para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra genómica. Se observa que algunos oligonucleótidos demuestran una complementariedad inversa completa entre su octámero aleatorio y la secuencia genómica a la que se une cada uno. También se observa que algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el octámero aleatorio del oligo. La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
Se añade a la composición ADN polimerasa Sequenase (1 ul) que tiene actividad de desplazamiento de cadena y es capaz de incorporar biotina-ddNTP. La composición se calienta hasta la temperatura ambiente y se deja que continúe durante 30 minutos.
Se observa la prolongación desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Se observa adicionalmente que, a la luz de la relación 99 %/1 % de dNTP con respecto a complejos biotina-ddNTP, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotina-ddNTP.
Después, la composición se calienta a 98 °C durante 5 minutos, tiempo durante el cual se detiene la prolongación.
Ejemplo 8 - Aislamiento de la primera cadena marcada
Se proporcionan perlas magnéticas de captura de estreptavidina en tampón de unión, se mezclan y se dejan reposar en un soporte magnético. El tampón de unión se reemplaza a un volumen de 200 ul y el proceso se repite. El sobrenadante se extrae y las perlas se resuspenden en 40 ul de tampón de unión.
La muestra desnaturalizada/mezcla de síntesis de primera cadena se añade a las perlas resuspendidas. La mezcla de perlas/muestra se incuba a 22 °C y se agita a intervalos de 10 minutos durante 30 minutos. Después, la mezcla se coloca en un soporte magnético y, tras la sedimentación de las perlas, se retira el sobrenadante. El tubo se agita y se deja reposar en un soporte magnético.
Las perlas se lavan tres veces con 200 ul de tampón TE.
Ejemplo 9 - Síntesis de segunda cadena
Los moldes de biblioteca de primera cadena se eluyen de los marcadores de estreptavidina y se resuspenden en tampón de síntesis de ácido nucleico que incluye dNTP. Se añade una segunda biblioteca de sonda, que comprende una población de cebadores de segunda cadena. Cada cebador de segunda cadena comprende una secuencia de adaptador B en posición 5' con respecto a una secuencia de octámeros aleatorios que termina en un OH en posición 3' a partir del cual puede producirse la síntesis de ácido nucleico.
La mezcla se calienta a 98 °C durante 3 minutos. La mezcla se enfría en hielo durante 2 minutos para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de segunda cadena y la biblioteca de primera cadena. Se observa que algunos oligonucleótidos demuestran una complementariedad inversa completa entre su octámero aleatorio y la secuencia de primera cadena a la que se une cada uno. T ambién se observa que algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el octámero aleatorio del oligo. La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
La composición se calienta hasta la temperatura ambiente y se deja que continúe durante 30 minutos.
Se observa la prolongación desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se alcanza el extremo 5' del molde de primera cadena. Se observa que los oligos de segunda cadena que se hibridan en dirección opuesta al extremo 3' del molde de primera cadena experimentan una prolongación desde sus extremos 3', pero se desplazan de la primera cadena por reacciones de prolongación cebadas por oligos que se hibridan más hacia el extremo 3' del molde de primera cadena.
En consecuencia, se sintetizan moléculas de biblioteca bicatenarias, que comprenden dos cadenas distintas: 1) una primera cadena que tiene, desde el extremo 5', un adaptador A, una secuencia de octámeros aleatorios y una secuencia objetivo del orden de 1-100 nucleótidos, terminando en un ddNTP marcado con biotina; y 2) una segunda cadena que tiene, desde el extremo 5' un adaptador B, una segunda secuencia de octámeros aleatorios, una secuencia objetivo derivada de la muestra, una primera secuencia de octámeros aleatorios complementaria al octámero aleatorio de la primera cadena, y una secuencia complementaria inversa al primer adaptador A.
Ejemplo 10 - Aislamiento de la segunda cadena marcada
Se proporcionan perlas magnéticas de captura de estreptavidina en tampón de unión, se mezclan y se dejan reposar en un soporte magnético. El tampón de unión se reemplaza a un volumen de 200 ul y el proceso se repite. El sobrenadante se extrae y las perlas se resuspenden en 40 ul de tampón de unión.
La mezcla de síntesis de segunda cadena se añade a las perlas resuspendidas. La mezcla de perlas/muestras se incuba a 22 °C y se agita a intervalos de 10 minutos durante 30 minutos. Después, la mezcla se coloca en un soporte magnético y, tras la sedimentación de las perlas, se retira el sobrenadante. El tubo se agita y se deja reposar en un soporte magnético.
El sobrenadante se extrae y las perlas se lavan tres veces con 200 ul de tampón de TE. El resultado de este proceso es una población de moléculas de biblioteca bicatenarias purificadas con estreptavidina, que comprenden dos cadenas distintas: 1) una primera cadena que tiene, desde el extremo 5', un adaptador A, una secuencia de octámeros aleatorios y una secuencia objetivo del orden de 1-100 nucleótidos, terminando en un ddNTP marcado con biotina; y 2) una segunda cadena que tiene, desde el extremo 5' un adaptador B, una segunda secuencia de octámeros aleatorios, una secuencia objetivo derivada de la muestra, una primera secuencia de octámeros aleatorios complementaria al octámero aleatorio de la primera cadena, y una secuencia complementaria inversa al primer adaptador A.
Ejemplo 11 - Generación de bibliotecas de secuenciación
Las perlas se resuspenden en 42 ul de agua sin nucleasas, a la que se añaden 4 ul de cebador de Adaptador A, 4 ul de cebador de Adapter B y 50 ul de 2x mezcla maestra de PCR.
El cebador de Adaptador A comprende una secuencia idéntica a la del primer adaptador del molde bicatenario en el extremo 3' del cebador y comprende adicionalmente la secuencia necesaria para la secuenciación por reacciones de síntesis como se describe en el presente documento.
El cebador de Adaptador B comprende una secuencia idéntica a la del segundo adaptador de la segunda cadena del molde bicatenario en el extremo 3' del cebador y comprende adicionalmente la secuencia necesaria para la secuenciación por reacciones de síntesis como se describe en el presente documento.
La mezcla se somete a termociclado como se indica a continuación: 98 °C durante 2 minutos; seguido de 6 ciclos de 98 °C, 20 segundos, 60 °C, 30 segundos y 72 °C, 30 segundos; después de dichos seis ciclos, la reacción se mantiene a 72 °C durante 5 minutos y después se almacena a 4 °C.
Ejemplo 12 - Biblioteca de secuencias
Se observa que la biblioteca de secuenciación generada de este modo tiene las siguientes características. Cada molécula bicatenaria comprende, en orden, una secuencia de adaptador A suficiente para la secuenciación por síntesis, un primer octámero aleatorio, una región objetivo de longitud desconocida pero probablemente de 1-100 bases, un segundo octámero aleatorio y una secuencia de adaptador B suficiente para la secuenciación por síntesis como se desvela en el presente documento.
Se observa que los componentes de biblioteca poseen las siguientes características. Cada molécula comprende un primer marcador molecular octamérico que es independiente del primer octámero de otras moléculas de la biblioteca. Cada molécula comprende una secuencia objetivo, correspondiente a la secuencia de la muestra original. El punto de partida de la secuencia objetivo, la longitud de la secuencia objetivo y el punto final de la secuencia objetivo de cada molécula dada es independiente del punto de partida, la longitud y el punto final de cada una de las moléculas de la biblioteca. Cada molécula comprende un segundo marcador molecular octamérico que es independiente del segundo octámero de otras moléculas de la biblioteca.
Se observa que la biblioteca, en conjunto, posee las siguientes características. Sustancialmente toda la secuencia de muestra está representada en la biblioteca por múltiples moléculas superpuestas. Sustancialmente todas las moléculas de biblioteca (salvo eventos excepcionales), antes de la adición final de los adaptadores A y B a través de termociclado, son únicas, que varían entre sí en cuanto a su primera secuencia de octámero, punto de partida de secuencia objetivo, secuencia objetivo, longitud de secuencia objetivo, punto final de secuencia objetivo y segunda secuencia de octámero.
Ejemplo 13 - Evaluación de datos de secuencia: Heterocigosidad
Una biblioteca de secuencias como se genera en el presente documento se somete a secuencia por síntesis compatible con su adaptador A y su adaptador B, y se evalúan los resultados de secuencias. Independientemente, una segunda alícuota de la muestra original se prepara para la secuenciación usando el marcaje convencional de biblioteca basado en PCR que implica una amplificación sustancial basada en PCR del molde no marcado. Las bibliotecas se secuencian y los resultados se comparan.
La muestra a partir de la que se generan las bibliotecas es heterocigótica en una primera posición en el genoma, que comprende una sola variante de base. Durante la generación de bibliotecas, tanto para el método tradicional como para el uso de los métodos y composiciones que se desvelan en el presente documento, se producen mutaciones puntuales con una frecuencia pequeña.
Se genera y se ensambla la secuencia a partir de un método convencional de generación de bibliotecas. Se observan lecturas de secuencias que difieren en una sola base en una sola posición homóloga. Se obtienen múltiples lecturas que representan cada una cada alelo en la posición. Se infiere que la diferencia de una sola base representa una base en la que la muestra original es heterocigótica.
Se genera y se analiza la secuencia de una biblioteca generada como se desvela en el presente documento. Se observan lecturas de secuencias que difieren en una sola base en una sola posición homóloga. Cuarenta lecturas representan la base de variante. Se observa que todas las lecturas que representan la base variante en la posición comparten una primera secuencia común de octámero, un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de octámero, es decir, todas las lecturas que indican que la base variante cartografía una sola molécula de biblioteca sintetizada. Se observan otras 40 lecturas que abarcan la posición de bases, ninguna de las cuales indica la presencia de la base variante. Se observa que las 40 lecturas que no representan la base variante en la posición homóloga cartografían 10 moléculas de biblioteca sintetizadas distintas, como se indica mediante la evaluación de la primera secuencia de octámero, un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de secuencia objetivo y una segunda secuencia de octámero. Se concluye que las lecturas que representan la base variante son el resultado de un error de incorporación seguido de una amplificación diferencial del evento de síntesis erróneo. La información de secuencia se excluye del ensamblaje de secuencia.
La secuencia de una biblioteca generada como se describe en el presente documento se genera y analiza con respecto a una segunda posición supuestamente heterocigótica. Se observan lecturas de secuencias que difieren en una sola base en una sola posición homóloga. Cuarenta lecturas representan la base de variante. Se observa que 50 lecturas que representan la base variante en la posición cartografían 10 moléculas de biblioteca sintetizadas distintas, como se indica mediante la evaluación de la primera secuencia de octámero, un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de secuencia objetivo y una segunda secuencia de octámero. Se observan otras 40 lecturas que abarcan la posición de bases, ninguna de las cuales indica la presencia de la base variante. Se observa que las 40 lecturas que no representan la base variante en la posición homóloga cartografían 12 moléculas de biblioteca sintetizadas distintas, como se indica mediante la evaluación de la primera secuencia de octámero, un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de secuencia objetivo y una segunda secuencia de octámero. Se concluye que las lecturas que representan la base variante son el resultado de una representación precisa de la secuencia de muestra, como se indica por la variante que aparece en múltiples moléculas generadas independientemente en la biblioteca.
Ejemplo 14 - Evaluación de datos de secuencia: Cuantificación de secuencias repetitivas
Una biblioteca de secuencias como se genera en el presente documento se somete a secuencia por síntesis compatible con su adaptador A y su adaptador B, y se evalúan los resultados de secuencias. Independientemente, una segunda alícuota de la muestra original se prepara para la secuenciación usando el marcaje convencional de biblioteca basado en PCR que implica una amplificación sustancial basada en PCR del molde no marcado. Las bibliotecas se secuencian y los resultados se comparan.
Se observa que en los resultados de secuenciación de bibliotecas de secuencias tradicional se identifica una secuencia correspondiente a un transposón. Se observa que la unidad monomérica de transposón se encuentra adyacente a múltiples secuencias de borde no transposónicas, lo que sugiere que está presente en múltiples copias en la muestra. Las lecturas de transposones corresponden al 5 % de la secuencia total generada. Se concluye que los transposones representan el 5 % de la muestra de ácido nucleico.
Se genera y se analiza la secuencia de una biblioteca generada como se desvela en el presente documento. Se identifican lecturas de secuencia correspondientes a un transposón. Las lecturas de transposones corresponden al 5 % de la secuencia total generada. Se observa que las lecturas de secuencia que se cartografían en la secuencia del transposón se cartografían en una pluralidad de moléculas únicas de biblioteca sintetizada, como se indica mediante la evaluación de la primera secuencia de octámero, un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de secuencia objetivo y una segunda secuencia de octámero. Se observa que cada molécula única de biblioteca sintetizada que representa la secuencia del transposón está representada por no más de 2-3 lecturas de secuencia. En comparación, la lectura única promedia está representada por 10-20 lecturas de secuencia en este conjunto de datos particular. Esta pluralidad de lecturas de cartografiado de transposón, en total, representa el 30 % del número total de lecturas únicas en el conjunto de datos de secuencia.
Se concluye a partir del conjunto de datos de la secuencia generada a partir de la biblioteca de secuenciación generada como se desvela en el presente documento que la secuencia del transposón representa aproximadamente el 30 % de la secuencia de la muestra proporcionada, en lugar del 5 % que sugiere el análisis de las lecturas de secuencia de la biblioteca producida a través de métodos anteriores, y se concluye adicionalmente que la secuencia de transposón particular está mal amplificada con respecto a otra secuencia en el conjunto de datos.
Ejemplo 15 - Evaluación de datos de secuencia: Detección de reordenamientos de complejos
Una biblioteca de secuencias como se genera en el presente documento se somete a secuencia por síntesis compatible con su adaptador A y su adaptador B, y se evalúan los resultados de secuencias. Independientemente, una segunda alícuota de la muestra original se prepara para la secuenciación usando el marcaje convencional de biblioteca basado en PCR que implica una amplificación sustancial basada en PCR del molde no marcado. Las bibliotecas se secuencian y los resultados se comparan.
Se observar que una secuencia leída a partir del marcaje de bibliotecas convencional basado en PCR comprende una secuencia que cartografía dos cóntigos distintos que no se piensa que sean adyacentes en el genoma humano de referencia. Se genera una muestra separada y se usa PCR que usa cebadores recién sintetizados que flanquean la secuencia de unión identificada para confirmar que las secuencias son de hecho adyacentes.
Se genera y se analiza la secuencia de una biblioteca generada como se desvela en el presente documento. Se observar que las lecturas de secuencia que abarcan las dos secuencias de cóntigos no adyacentes cartografían una pluralidad de moléculas de biblioteca sintetizadas únicas, como se indica mediante la evaluación de la primera secuencia de octámero, un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de secuencia objetivo y una segunda secuencia de octámero. Se concluye que las lecturas de secuencia que abarcan las dos secuencias de cóntigos no adyacentes son de hecho adyacentes en la fuente de la muestra.
Ejemplo 16 - Generación de bibliotecas de secuenciación de ADNc
Se obtiene una muestra de ARN total de una población de 50 células. La muestra se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena. Los oligonucleótidos de primera cadena comprenden cada uno un adaptador de secuencia en posición 5' de un octámero aleatorio seguido de un OH en posición 3' al partir del que se produce la prolongación dirigida por molde.
La población de octámeros aleatorios de los oligos de síntesis de primera ronda representa todos los octámeros posibles, pero la abundancia relativa de cada octámero está sesgada para que coincida con la abundancia relativa de pares de bases GC frente a AT en el transcriptoma humano. Se añaden 4 ul de la población a la muestra.
También se añade a la composición un tampón de transcriptasa inversa de VIH que comprende reactivos coherentes con la actividad ADN polimerasa y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina, en una relación relativa del 99 % de desoxi NTP con respecto al 1 % de di-desoxi NTP. Se añaden 8 ul de la composición de tampón/NTP a la muestra.
La mezcla se diluye a un volumen total de 19 ul. La mezcla se calienta a 98 °C durante 3 minutos, tiempo durante el cual el ARN se "funde" en cadenas simples.
Después, la mezcla se enfría en hielo durante 2 minutos para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra de RNA. Se observa que algunos oligonucleótidos demuestran una complementariedad inversa completa entre su octámero aleatorio y la secuencia de RNA a la que se une cada uno. También se observa que algunos oligonucleótidos se unen a regiones de RNA que tienen una complementariedad inversa incompleta con el octámero aleatorio del oligo. La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
Se añade a la composición transcriptasa inversa de VIH (1 ul) que tiene actividad de desplazamiento de cadena y es capaz de incorporar biotina-ddNTP. La composición se calienta hasta la temperatura ambiente y se deja que continúe durante 30 minutos.
Se observa la prolongación desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Se observa adicionalmente que, a la luz de la relación 99 %/1 % de dNTP con respecto a complejos biotina-ddNTP, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotina-ddNTP.
Después, la composición se calienta a 98 °C durante 5 minutos, tiempo durante el cual se detiene la prolongación.
La muestra se somete a purificación, síntesis de segunda cadena y adición de marcador de biblioteca como se indica en los ejemplos 8-11, anteriormente.
Ejemplo 17 - Evaluación de datos de secuencia: Número de copias de transcrito
Se realiza Q-PCR tradicional sobre una alícuota de una muestra de ARN total obtenida de una población de 50 células. La muestra se transcribe en sentido inverso usando cebadores aleatorios y se realiza una PCR en presencia de SYBR-Green para cuantificar la síntesis de amplicón a lo largo del tiempo, como medida del número de copias de molde subyacente.
Se observa que un primer transcrito y un segundo transcrito de longitud similar conducen a la fluorescencia de SYBR de sus respectivos amplicones en un ciclo similar en el proceso de amplificación. Se concluye que el primer y el segundo transcrito se acumulan aproximadamente al mismo nivel en la población de 50 células de las que deriva el molde de ARN.
La biblioteca de secuencias de ADNc del Ejemplo 15 se secuencia y se analizan los resultados. Se observa que el primer transcrito está representado en 100 lecturas de secuencia, cartografiándose en 1 molde único como se indica mediante la evaluación de la primera secuencia de octámero, un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de secuencia objetivo y una segunda secuencia de octámero. El segundo transcrito está representado en 100 lecturas, cartografiándose en 50 moldes únicos como se indica mediante la evaluación de la primera secuencia de octámero, un punto de partida de la secuencia objetivo, una longitud de la secuencia objetivo, un punto final de la secuencia objetivo y una segunda secuencia de octámeros, y que cada uno está representado por 1-3 lecturas.
Se concluye que el segundo transcrito está presente a un nivel 50 veces mayor que el del primer molde. También se concluye que el molde único generado a partir del primer transcrito se amplifica de forma diferencial con respecto a los moldes de la segunda cadena.
Ejemplo 18 - Generación de bibliotecas de moldes largos
Se obtiene una muestra de ADN genómico y se fragmenta. Los fragmentos se seleccionan por tamaño para que tengan un tamaño mínimo de 10 kb. Los fragmentos seleccionados por tamaño se diluyen en no más de 100 fragmentos por cada alícuota y se distribuyen en tubos de reacción separados.
Cada muestra dividida en alícuotas se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena. Los oligonucleótidos de primera cadena comprenden cada uno una etiqueta única de tubo de reacción en posición 5' con respecto a un adaptador de secuencia en posición 5' de un octámero aleatorio seguido de un OH en posición 3' a partir del cual se produce la prolongación dirigida por molde. La secuencia de la etiqueta de tubo de reacción es común a todos los oligos de síntesis de primera cadena añadidos a un tubo dado, pero varía entre los tubos. El octámero aleatorio es único para un solo oligo, aunque los métodos que se desvelan en el presente documento toleran fácilmente un pequeño grado de redundancia, e incluso se acomoda un gran grado de redundancia.
Como se analiza en el Ejemplo 6, la población de octámeros aleatorios de los oligos de síntesis de primera ronda representa todos los octámeros posibles, pero la abundancia relativa de cada octámero está sesgada para que coincida con la abundancia relativa de pares de bases GC frente a AT en el genoma humano. Se añaden 4 ul de la población a la muestra.
También se añade a la composición un tampón de polimerasa que comprende reactivos coherentes con la actividad de ADN polimerasa y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina, en una relación relativa del 99 % de desoxi NTP con respecto al 1 % de di-desoxi NTP. Se añaden 8 ul de la composición de tampón/NTP a la muestra.
La mezcla se diluye a un volumen total de 19 ul. La mezcla se calienta a 98 °C durante 3 minutos, tiempo durante el cual el ADN genómico se "funde" en cadenas simples no unidas por enlaces de hidrógeno entre bases complementarias.
Después, la mezcla se enfría en hielo durante 2 minutos para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra genómica. Se observa que algunos oligonucleótidos demuestran una complementariedad inversa completa entre su octámero aleatorio y la secuencia genómica a la que se une cada uno. También se observa que algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el octámero aleatorio del oligo. La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
Se añade a la composición ADN polimerasa Sequenase (1 ul) que tiene actividad de desplazamiento de cadena y es capaz de incorporar biotina-ddNTP. La composición se calienta hasta la temperatura ambiente y se deja que continúe durante 30 minutos.
Se observa la prolongación desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Se observa adicionalmente que, a la luz de la relación 99 %/1 % de dNTP con respecto a complejos biotina-ddNTP, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotina-ddNTP.
Después, la composición se calienta a 98 °C durante 5 minutos, tiempo durante el cual se detiene la prolongación.
La muestra se somete a purificación y síntesis de segunda cadena como se indica en los ejemplos 8-11, anteriormente. Se añaden ciclos adicionales a las etapas de termociclado de marcador de biblioteca para tener en cuenta la cantidad baja de material de muestra de partida.
Ejemplo 19 - Evaluación de datos de secuencia: Cartografiado en fase de una sola molécula
Se realiza la secuenciación tradicional en una muestra genómica dividida en alícuotas de la muestra del Ejemplo 18 antes de la etapa de dilución. Se genera una biblioteca de secuenciación y se genera información de secuencia. Los datos de secuencia se ensamblan frente a un armazón de cóntigos de genoma humano. Se identifican un primer y un segundo polimorfismo de un solo nucleótido dentro de los datos de secuencia y la muestra se califica como heterocigótica en estos sitios. Los sitios heterocigóticos se cartografían en un solo cóntigo. No está claro a partir de la información de secuencia cuál es el estado de unión física entre los polimorfismos, es decir, no está claro qué polimorfismos están apareados entre sí, o en fase entre sí, en la misma molécula de ácido nucleico real, y qué polimorfismos no están unidos físicamente.
Una segunda muestra se prepara como se indica en el Ejemplo 18. La biblioteca marcada se masifica y se secuencia. Se identifican los mismos primeros y segundos polimorfismos. Los polimorfismos se cartografían cada uno en múltiples moldes que varían en su primera secuencia de octámeros aleatorios, sitio de inicio de secuencia objetivo, longitud de secuencia objetivo, sitio final de secuencia objetivo y segunda secuencia de octámeros aleatorios, lo que indica que los polimorfismos se generan independientemente a partir de la muestra y no son el resultado de un solo error en la síntesis de bibliotecas que después se amplificó diferencialmente.
Se observa que la primera variante del primer polimorfismo y la primera variante del segundo polimorfismo se cartografían en algunos moldes de bibliotecas que comparten un marcador de alícuota común en posición 5' de sus secuencias de octámeros aleatorios (diferentes) en posición 5'. Se observa que la segunda variante del primer polimorfismo y la segunda variante del segundo polimorfismo se cartografían en algunos moldes de bibliotecas que comparten un marcador de alícuota común, que difiere del de las primeras variantes mencionadas inmediatamente antes, en posición 5' de su primera secuencia de octámeros aleatorios en posición 5' (diferente).
Se concluye que la primera variante del primer polimorfismo y la primera variante del segundo polimorfismo están en fase, es decir, se cartografían en una sola molécula física. Se concluye que la segunda variante del primer polimorfismo y la segunda variante del segundo polimorfismo están en fase, es decir, que se cartografían en una sola molécula.
Esta conclusión no es incoherente con la presencia de algunas variantes que también se cartografían en algunos moldes de bibliotecas que tienen marcadores de alícuotas únicos. Se deduce que estas secuencias que se cartografían en marcadores de alícuotas únicos son el resultado de eventos por los que una molécula molde se escinde entre los loci de los dos polimorfismos.
Esta conclusión tampoco es incoherente con el hecho de que algunas lecturas de secuencias compartan un marcador de alícuota común a pesar de cartografiarse en regiones dispares del genoma. Como las alícuotas comprenden más de una sola molécula, diferentes lecturas de secuencias se cartografiarán en diferentes regiones del genoma. Siempre que dos fragmentos de ácido nucleico fuera de fase superpuestos no terminen en una sola alícuota, el análisis corriente abajo no se ve afectado. En el evento de que dos fragmentos de ácido nucleico fuera de fase superpuestos terminen en una sola alícuota, la presencia de ambos alelos en un locus indicará que hay presentes moléculas no unidas físicamente en una sola muestra.
Ejemplo 20 - Evaluación de datos de secuencia: Cartografiado de repetición
Se realiza la secuenciación tradicional en una muestra genómica dividida en alícuotas de la muestra del Ejemplo 18 antes de la etapa de dilución. Se genera una biblioteca de secuenciación y se genera información de secuencia. Los datos de secuencia se ensamblan frente a un armazón de cóntigos de genoma humano. Se obtiene la secuencia correspondiente a una unidad de repetición que se sabe que existe en 50 loci distintos del genoma. Se identifica un polimorfismo en la repetición de secuencia que puede afectar a la transcripción de genes en loci adyacentes. El polimorfismo está incluido en la secuencia de repetición y rodeado por ella, de manera que el polimorfismo no puede cartografiarse en ninguno de los 50 loci distintos del genoma.
Una segunda muestra se prepara como se indica en el Ejemplo 18. La biblioteca marcada se masifica y se secuencia. Se obtiene una secuencia correspondiente al polimorfismo analizado anteriormente que puede afectar a la transcripción de genes en loci adyacentes. El polimorfismo está incluido en la secuencia de repetición y rodeado por ella. El polimorfismo se cartografía en múltiples moldes que varían en su primera secuencia de octámeros aleatorios, sitio de inicio de secuencia objetivo, longitud de secuencia objetivo, sitio final de secuencia objetivo y segunda secuencia de octámeros aleatorios, lo que indica que los polimorfismos se generan independientemente a partir de la muestra y no son el resultado de un solo error en la síntesis de bibliotecas que después se amplificó diferencialmente.
Se observa que el polimorfismo se cartografía en algunos moldes de bibliotecas que comparten un marcador de alícuota común en posición 5' de sus secuencias de octámeros aleatorios en posición 5' (diferentes). Se observa que la secuencia correspondiente a la región de repetición que flanquea el polimorfismo comparte un marcador de alícuota común en posición 5' de sus secuencias de octámeros aleatorios en posición 5' (diferentes). Se identifican secuencias que abarcan un borde de repetición, correspondientes tanto a la secuencia de repetición como a la secuencia adyacente que se cartografía de forma única en una sola región del genoma humano, y se observa que comparten un marcador de alícuota común en posición 5' de sus secuencias de octámeros aleatorios en posición 5' (diferentes).
Se concluye que el polimorfismo que puede afectar a la transcripción de los genes en loci adyacentes se cartografía en la región de repetición inmediatamente adyacente al locus de la secuencia que se cartografía de forma única en una sola región del genoma, y no en las otras 49 regiones de repetición de secuencia altamente similar distribuidas en otros lugares del genoma.
Ejemplo 21 - Oligos de síntesis de primera cadena dirigida
Se genera una población de oligonucleótidos. Cada oligo comprende un adaptador de secuencia en posición 5' de un 25-mero específicamente sintetizado para hibridarse adyacente con una región de interés en el genoma humano. Los ejemplos de regiones de interés incluyen, pero sin limitación, exones, regiones promotoras, potenciadores de transcripción, regiones promotoras, regiones en las que se cartografían enfermedades genéticas, regiones que se sabe que son mutantes en estirpes celulares de cáncer o células tumorales, y loci que se sabe que son polimórficos en al menos una población humana. Los oligos se sintetizan para que se hibriden con cualquiera de las dos cadenas adyacentes a una región de interés, como se ha identificado anteriormente.
Ejemplo 22 - Generación dirigida de bibliotecas de moldes
Se obtiene una muestra de ADN genómico. La muestra se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena dirigida, como se ha descrito en el Ejemplo 20. Se añaden 4 ul de la población a la muestra.
También se añade a la composición un tampón de polimerasa que comprende reactivos coherentes con la actividad de ADN polimerasa y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina, en una relación relativa del 99 % de desoxi NTP con respecto al 1 % de di-desoxi NTP. Se añaden 8 ul de la composición de tampón/NTP a la muestra.
La mezcla se diluye a un volumen total de 19 ul. La mezcla se calienta a 98 °C durante 3 minutos, tiempo durante el cual el ADN genómico se "funde" en cadenas simples no unidas por enlaces de hidrógeno entre bases complementarias.
Después, la mezcla se enfría en hielo durante 2 minutos para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra genómica. Se observa que algunos oligonucleótidos demuestran una complementariedad inversa completa entre su octámero aleatorio y la secuencia genómica a la que se une cada uno. También se observa que algunos oligonucleótidos se unen a regiones genómicas que tienen una complementariedad inversa incompleta con el octámero aleatorio del oligo. La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
Se añade a la composición ADN polimerasa SEQUENASE (1 ul) que tiene actividad de desplazamiento de cadena y es capaz de incorporar biotina-ddNTP. La composición se calienta hasta la temperatura ambiente y se deja que continúe durante 30 minutos.
Se observa la prolongación desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Se observa adicionalmente que, a la luz de la relación 99 %/1 % de dNTP con respecto a complejos biotina-ddNTP, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotina-ddNTP. Después, la composición se calienta a 98 °C durante 5 minutos, tiempo durante el cual se detiene la prolongación.
La muestra se somete a purificación y síntesis de segunda cadena como se indica en los ejemplos 8-11, anteriormente.
Ejemplo 23 - Evaluación de datos de secuencia: Eficiencia de la secuenciación de bibliotecas dirigida
Se realiza la secuenciación tradicional en una muestra genómica dividida en alícuotas a partir de la muestra del Ejemplo 22. Se genera una biblioteca de secuenciación y se genera información de secuencia. Los datos de secuencia se ensamblan frente a un armazón de cóntigos de genoma humano. La gran mayoría de la información de secuencia generada no sirve para el diagnóstico del individuo del que se obtiene la muestra.
También se realiza la secuenciación en la biblioteca de secuenciación dirigida generada en el Ejemplo 21. Se ha descubierto que las lecturas de secuencia están sustancialmente enriquecidas para la secuencia de uso para el diagnóstico de un individuo del que se obtiene la muestra, y que se necesitan sustancialmente menos reactivos y menos capacidad de computación para obtener la información pertinente.
Ejemplo 24 - Biblioteca de secuenciación dirigida al cáncer
Se genera una biblioteca de oligonucleótidos de primera cadena de secuenciación dirigida que tiene regiones de hibridación en posición 3' que marcan cada miembro de un panel de locus de cáncer de 102 miembros (véase la Fig. 19). Las regiones de hibridación se seleccionan para la hibridación a intervalos de aproximadamente 20 pb en todo el locus de cada miembro del panel en cada dirección.
Se aísla una muestra de ácido nucleico genómico de un tumor diagnosticado como benigno y que no muestra características de metástasis o malignidad. El tejido comprende células con un polimorfismo sustancial en la secuencia genómica de al menos un locus enumerado en el panel de locus genómico.
Para evaluar el estado de mutación del tejido tumoral se usa PCR tradicional usando un panel de cebadores que abarcan cada locus. Se generan amplicones, se marcan para formar una biblioteca, y se secuencian. Cada locus está presente en el producto final en el tamaño esperado para alelos de tipo silvestre de cada locus.
La biblioteca de oligonucleótidos de primera cadena dirigida al panel de cáncer que tiene regiones de hibridación en posición 3' que marcan cada miembro del panel de locus de cáncer de 102 miembros se aplica a una alícuota de la muestra de ácido nucleico genómico aislada del tumor.
A partir de la misma se genera una biblioteca de secuenciación y se analiza. Se determina que hay presentes copias de tipo silvestre de cada miembro del panel de cáncer de 102 miembros en la muestra.
En un subconjunto de lecturas que se cartografían en un represor de la división celular, se determina que el locus está interrumpido por una translocación, como indica la presencia de lecturas independientes, a juzgar por la presencia de distintas posiciones de inicio de la secuencia de octámeros aleatorios y de la secuencia de locus de cáncer, que abarcan independientemente una unión entre el locus de interés y la secuencia translocada.
En un subconjunto de lecturas que se cartografían en un represor del crecimiento celular, se determina que el locus ha experimentado un evento de supresión, como indica la presencia de lecturas independientes, a juzgar por la presencia de distintas posiciones de inicio de la secuencia de octámeros aleatorios y de la secuencia de locus de cáncer, que abarcan independientemente un sitio de supresión en el que los extremos del locus están presentes pero unidos en ausencia de una secuencia intermedia.
Se encuentra que los datos de biblioteca de secuencia de panel de cáncer confirman los resultados del ensayo de panel de cebadores de PCR, en concreto, que hay presentes copias de tipo silvestre de cada locus en la muestra genómica. Además, los datos de secuenciación de panel de cáncer identifican mutaciones en dos loci que pueden ser indicativas de progresión tumoral. La muestra no es homocigótica para ninguna de estas mutaciones y se espera que cada una esté presente en una clara minoría de la muestra en su conjunto.
Ninguna de estas mutaciones se identifica mediante el ensayo de panel de cebadores de PCR. La translocación, con toda probabilidad, no se amplifica de forma diferencial, ya que los cebadores que se dirigen al locus están demasiado separados para generar un amplicón, y el amplicón de tipo silvestre se amplifica con la suficiente eficacia para secuestrar la gran mayoría de los cebadores que se dirigen al locus. Es poco probable que se detecte la supresión, ya que el efecto es acercar los cebadores lo suficiente como para que su amplicón sea comparable en tamaño a un dímero de cebador u otro artefacto de amplificación, y difícil de purificar para la secuenciación.
El ejemplo demuestra cómo el panel de cáncer, y los métodos que se desvelan en el presente documento, en general, son capaces de generar datos de secuencia, fácilmente verificable mediante comparación de marcadores y el sitio de inicio de secuencia, correspondientes a eventos raros en muestras genómicas que se pasan por alto fácilmente en los protocolos más tradicionales de generación de secuencias dirigidas.
Ejemplo 25 - PCR hemiespecífica: Síntesis de cebadores
Para generar una Biblioteca Aleatoria, se sintetiza una población de oligos de síntesis de primera ronda. Los oligonucleótidos de primera cadena comprenden cada uno una región A ubicada en posición 5' de un adaptador de secuencia, ubicado a su vez en posición 5' de un octámero aleatorio seguido de un OH en posición 3' a partir del que se produce la prolongación dirigida por molde. La población se sintetiza de manera que todos los octámeros aleatorios estén representados en la población de oligonucleótidos de primera cadena. Sin embargo, para aumentar la eficacia de la hibridación y, posteriormente, de la síntesis de primera cadena, la población se sintetiza de manera que incluya un sesgo para octámeros aleatorios que tengan un porcentaje de GC de aproximadamente el 40 %, de manera que la distribución global de la secuencia de octámeros en la biblioteca de síntesis de primera cadena refleje la del genoma humano en su conjunto.
Un primer cebador de oligonucleótidos se diseña para que sea idéntico a la región de adaptador A de la biblioteca de síntesis de oligonucleótidos de primera cadena anterior, y para que tenga un OH en posición 3' ubicado en posición 5' con respecto a la secuencia de adaptador de secuencia.
Se sintetiza un segundo cebador que tiene una temperatura de hibridación y de fusión similar a la del primer cebador de región de "adaptador A", y que tiene una especificidad de manera que se hibrida con su OH en posición 3' dirigido de manera que la prolongación se dirija hacia una región de ácido nucleico de interés.
Ejemplo 26 - PCR hemiespecífica: Análisis de los datos
Se obtiene una muestra de ácido nucleico genómico. Se dividen 50 ng de la muestra en alícuotas en un tampón de reacción de PCR que comprende reactivos necesarios para la amplificación. Se añade un par de cebadores suficiente para la amplificación de una región de interés. Se añade una ADN polimerasa termoestable activada por calor, y la mezcla se somete a un termociclado (98 °C, 30 segundos; seguido de seis ciclos de 95 °C, 30 segundos, 60 °C, 20 segundos, 72 °C, 30 segundos; un final a 72 °C durante 2 minutos, y después almacenamiento a 4 °C) para amplificar la región de interés.
Se analiza una alícuota de la reacción. Se determina que la cantidad de amplicón generada es insuficiente para el análisis adicional.
Se dividen otros 50 ng de la muestra en alícuotas en un tampón de reacción de PCR que comprende reactivos necesarios para la amplificación. Se añade un par de cebadores suficiente para la amplificación de una región de interés. Se añade una ADN polimerasa termoestable activada por calor, y la mezcla se somete a un termociclado (98 °C, 30 segundos; seguido de treinta ciclos de 95 °C, 30 segundos, 60 °C, 20 segundos, 72 °C, 30 segundos; un final a 72 °C durante 2 minutos, y después almacenamiento a 4 °C) para amplificar la región de interés.
Se analiza una alícuota de la reacción. Se determina que la cantidad de amplicón generada es suficiente para el análisis adicional. También se encuentra que el amplicón comprende mutaciones puntuales coherentes con eventos raros de incorporación equivocada en la amplificación que, cuando se producen al principio de la amplificación, pueden representar una gran fracción del producto final.
Se realiza la síntesis de oligos de la primera cadena aleatorios como en el Ejemplo 7 en 50 ng de la misma muestra de partida. Una muestra se divide en alícuotas en un tampón de reacción de PCR que comprende reactivos necesarios para la amplificación. Se añade un primer cebador idéntico a una región del adaptador A, y un segundo cebador específico para una región de interés y suficiente para la amplificación de una región de interés.
Se añade una ADN polimerasa termoestable activada por calor, y la mezcla se somete a un termociclado (98 °C, 30 segundos; seguido de seis ciclos de 95 °C, 30 segundos, 60 °C, 20 segundos, 72 °C, 30 segundos; un final a 72 °C durante 2 minutos, y después almacenamiento a 4 °C) para amplificar la región de interés.
Se analiza una alícuota de la reacción. Se determina que la cantidad de amplicón generada es suficiente para el análisis adicional. También se ha comprobado que, debido a la síntesis de primera cadena realizada antes de la amplificación por PCR, se genera una gran cantidad de molde, de manera que se necesitan menos ciclos de amplificación para generar una cantidad suficiente de amplicón para los análisis corriente abajo. Debido al menor número de ciclos y a la mayor cantidad de molde de partida, los errores de incorporación en los primeros ciclos tienen pocas posibilidades de ser amplificados diferencialmente como para representar una cantidad desproporcionada del producto de reacción.
Se examina el adaptador de secuencia, la secuencia de octámeros aleatorios y la posición de la unión entre el octámero aleatorio y la secuencia objetivo de cada amplicón. Se identifican los amplicones duplicados y se descarta la información de secuencia duplicada para que cada secuencia de molécula de síntesis de primera cadena se evalúe en proporciones iguales. La información de variante de secuencia que no está respaldada independientemente por dos secuencias de molde de primera cadena distintas se descarta porque representa un error en la síntesis. La información de secuencia corroborada por dos moléculas de primera cadena sintetizadas independientemente se mantiene como representativa de la secuencia de muestra de partida.
Ejemplo 27 - Generación de bibliotecas libres de PCR
Se obtiene una muestra de ADN de 1 ug y se fragmenta. Los fragmentos se seleccionan por tamaño para que tengan un tamaño mínimo de 10 kb. Los fragmentos seleccionados por tamaño se diluyen en no más de 100 fragmentos por cada alícuota y se distribuyen en tubos de reacción separados.
Cada muestra dividida en alícuotas se pone en contacto con una población de oligonucleótidos de síntesis de primera cadena. Los oligonucleótidos de primera cadena comprenden cada uno un adaptador de secuencia de longitud completa en posición 5' de un octámero aleatorio seguido de un OH en posición 3' al partir del que se produce la prolongación dirigida por molde. El octámero aleatorio es único para un solo oligo, aunque los métodos que se desvelan en el presente documento toleran fácilmente un pequeño grado de redundancia, e incluso se acomoda un gran grado de redundancia. Los oligonucleótidos de síntesis de primera cadena se diseñan para que formen estructuras de horquilla para disminuir la formación de dímeros de cebador.
Como se analiza en el Ejemplo 6, la población de octámeros aleatorios de los oligos de síntesis de primera ronda representa todos los octámeros posibles, pero la abundancia relativa de cada octámero está sesgada para que coincida con la abundancia relativa de pares de bases GC frente a AT en el genoma humano. Se añaden 4 ul de la población a la muestra.
También se añade a la composición un tampón de polimerasa que comprende reactivos coherentes con la actividad de ADN polimerasa y una población de nucleótidos que comprende dATP, dTTP, dCTP y dGTP, y una población de ddATP marcado con biotina, ddTTP marcado con biotina, ddCTP marcado con biotina y ddGTP marcado con biotina, en una relación relativa del 99 % de desoxi NTP con respecto al 1 % de di-desoxi NTP. Se añaden 8 ul de la composición de tampón/NTP a la muestra.
La mezcla se diluye a un volumen total de 19 ul. La mezcla se calienta a 98 °C durante 3 minutos, tiempo durante el cual el ADN se "funde" en cadenas simples no unidas por enlaces de hidrógeno entre bases complementarias.
Después, la mezcla se enfría en hielo durante 2 minutos para permitir el apareamiento de bases complementario inverso entre los oligonucleótidos de síntesis de primera cadena y la muestra genómica. Se observa que algunos oligonucleótidos demuestran una complementariedad inversa completa entre su octámero aleatorio y la secuencia genómica a la que se une cada uno. También se observa que algunos oligonucleótidos se unen a regiones que tienen una complementariedad inversa incompleta con el octámero aleatorio del oligo. La incapacidad para conseguir un apareamiento de bases con complementariedad inversa completa no perjudica las etapas posteriores del proceso de preparación de bibliotecas aleatorias.
Se añade a la composición ADN polimerasa Sequenase (1 ul) que tiene actividad de desplazamiento de cadena y es capaz de incorporar biotina-ddNTP. La composición se calienta hasta la temperatura ambiente y se deja que continúe durante 30 minutos.
Se observa la prolongación desde el OH en posición 3' de los oligonucleótidos de síntesis de primera cadena, dando como resultado una secuencia complementaria inversa con el molde en el sitio de hibridación de cada oligo hibridado que se incorpora en el extremo 3' de cada oligo hibridado. La prolongación continúa hasta que se incorpora una molécula de ddNTP etiquetado con biotina, momento en el que termina la prolongación. Se observa adicionalmente que, a la luz de la relación 99 %/1 % de dNTP con respecto a complejos biotina-ddNTP, el 50% de los oligos de primera cadena sobre los que se produce prolongación demuestran una prolongación de más de 50 bases antes de la incorporación de una molécula de biotina-ddNTP.
Después, la composición se calienta a 98 °C durante 5 minutos, tiempo durante el cual se detiene la prolongación.
La muestra se somete a purificación y síntesis de segunda cadena como se indica en los ejemplos 8-11, anteriormente. La biblioteca resultante después se somete a selección por tamaño a través de electroforesis en gel.
Ejemplo 28 - Ensayos maternos no invasivos
Se obtiene una muestra de sangre de una mujer embarazada. Esta muestra de sangre contiene ADN fetal sin células que circula libremente en el torrente sanguíneo materno en fragmentos de aproximadamente 200 pb de tamaño. El ADN fetal sin células se separa del plasma materno mediante la adición de formaldehído para estabilizar las células maternas intactas, centrifugación, aislamiento y purificación del sobrenadante, y selección por tamaño mediante electroforesis en gel. El ADN fetal sin células purificado se usa después como el ácido nucleico molde en los métodos descritos anteriormente.
Ejemplo 29 - Determinación del locus objetivo
Se realiza una reacción de síntesis de la primera cadena como se describe en el presente documento usando una población de oligos de la primera cadena que comprende oligos que tienen una región de unión al adaptador 5', una región de código de barras y que tiene una región adecuada para la hibridación con un ácido nucleico de muestra. La población de oligos se pone en contacto con la muestra en condiciones adecuadas para la hibridación y la prolongación. El complejo muestra-oligo se pone en contacto con una composición de reacción de prolongación que comprende dNTP, un tampón adecuado, una ADN polimerasa capaz de incorporar ddNTP etiquetados con biotina y una pequeña proporción de un ddNTP etiquetado con biotina.
La composición se pone en contacto con una población de perlas de estreptavidina en condiciones de unión de manera que las perlas de primera cadena sintetizadas se unan a las perlas de estreptavidina. La composición se trata para fundir cualquier complejo de ácido nucleico bicatenario y se lava de manera que las moléculas sintetizadas de primera cadena monocatenarias permanezcan en las perlas.
Las moléculas sintetizadas de primera cadena unidas se ponen en contacto con una población de oligonucleótidos de segunda cadena que comprenden una secuencia de 25 bases que se hibrida específicamente con un locus de interés.
Se añaden a la composición un cebador de adaptador y un exceso de oligonucleótidos de segunda cadena, junto con reactivos suficientes para la amplificación de ácidos nucleicos mediada por polimerasas termoestables. Se generan amplicones y se secuencian, determinando de este modo la secuencia del locus objetivo.
Ejemplo 30 - Determinación del locus objetivo
Se realiza una reacción de síntesis de la primera cadena como se describe en el presente documento usando una población de oligos de la primera cadena que comprende oligos que tienen una región de unión al adaptador 5', una región de código de barras y que tiene una región adecuada para la hibridación no específica con un ácido nucleico de muestra. La población de oligos se pone en contacto con la muestra en condiciones adecuadas para la hibridación y la prolongación. El complejo muestra-oligo se pone en contacto con una composición de reacción de prolongación que comprende dNTP, un tampón adecuado, una ADN polimerasa capaz de incorporar ddNTP etiquetados con biotina y una pequeña proporción de un ddNTP etiquetado con biotina.
La composición se pone en contacto con una población de perlas de estreptavidina en condiciones de unión de manera que las perlas de primera cadena sintetizadas se unan a las perlas de estreptavidina. La composición se trata para fundir cualquier complejo de ácido nucleico bicatenario y se lava de manera que las moléculas sintetizadas de primera cadena monocatenarias permanezcan en las perlas.
Las moléculas sintetizadas de primera cadena unidas se ponen en contacto con una población de oligonucleótidos de segunda cadena que comprenden una secuencia de 25 bases que se hibrida específicamente con un locus de interés. Se realiza la síntesis de segunda cadena para generar una molécula bicatenaria.
Se añade una población de "oligonucleótidos anidados" al molde bicatenario. El "oligonucleótido anidado" comprende una región de adaptador en posición 5', una secuencia de marcador y una secuencia de 25-meros seleccionada para hibridarse con el mismo locus objetivo que el oligonucleótido de segunda cadena, pero corriente abajo (3') del sitio de unión del oligonucleótido de segunda cadena.
La prolongación se realiza para generar una segunda molécula bicatenaria que tiene una región de adaptador en cada extremo, cada adaptador adyacente a un marcador aleatorio, flanqueando una región central de la secuencia de locus objetivo.
La segunda molécula bicatenaria se amplifica usando oligos complementarios a las regiones de adaptador en cada extremo de la molécula, para formar amplicones adecuados para la secuenciación.
Usando el oligonucleótido anidado, la proporción de moléculas bicatenarias generadas espuriamente, es decir, las moléculas que no comprenden la secuencia adyacente al oligo de 25-meros en el genoma objetivo u otra muestra objetivo se reducen sustancialmente.
Ejemplo 31 - Determinación del locus objetivo
Se realiza una reacción de síntesis de la primera cadena como se describe en el presente documento usando una población de oligos de la primera cadena que comprende oligos que tienen una región de unión al adaptador 5', una región de código de barras y que tiene una región de 25 bases adecuada para la hibridación específica con un locus objetivo de ácido nucleico de muestra. La población de oligos se pone en contacto con la muestra en condiciones adecuadas para la hibridación y la prolongación. El complejo muestra-oligo se pone en contacto con una composición de reacción de prolongación que comprende dNTP, un tampón adecuado, una ADN polimerasa capaz de incorporar ddNTP etiquetados con biotina y una pequeña proporción de un ddNTP etiquetado con biotina.
La composición se pone en contacto con una población de perlas de estreptavidina en condiciones de unión de manera que las perlas de primera cadena sintetizadas se unan a las perlas de estreptavidina. La composición se trata para fundir cualquier complejo de ácido nucleico bicatenario y se lava de manera que las moléculas sintetizadas de primera cadena monocatenarias permanezcan en las perlas.
Las moléculas sintetizadas de primera cadena unidas se ponen en contacto con una población de oligonucleótidos de segunda cadena que comprenden oligos que tienen una región de unión a adaptador en posición de 5', una región de código de barras y que tiene una región adecuada para la hibridación no específica con un ácido nucleico de muestra.
Se realiza una reacción de prolongación usando una ADN polimerasa que tiene actividad de desplazamiento de cadena.
Se añade a la composición un cebador de adaptador y un exceso de oligonucleótidos de primera cadena, junto con reactivos suficientes para la amplificación de ácidos nucleicos mediada por polimerasas termoestables. Se generan amplicones y se secuencian, determinando de este modo la secuencia del locus objetivo.
Ejemplo 32 - Determinación del locus objetivo
Se realiza una reacción de síntesis de la primera cadena como se describe en el presente documento usando una población de oligos de la primera cadena que comprende oligos que tienen una región de unión al adaptador 5', una región de código de barras y que tiene una región de 25 bases adecuada para la hibridación específica con un locus objetivo de ácido nucleico de muestra. La población de oligos se pone en contacto con la muestra en condiciones adecuadas para la hibridación y la prolongación. El complejo muestra-oligo se pone en contacto con una composición de reacción de prolongación que comprende dNTP, un tampón adecuado, una ADN polimerasa capaz de incorporar ddNTP etiquetados con biotina y una pequeña proporción de un ddNTP etiquetado con biotina.
La composición se pone en contacto con una población de perlas de estreptavidina en condiciones de unión de manera que las perlas de primera cadena sintetizadas se unan a las perlas de estreptavidina. La composición se trata para fundir cualquier complejo de ácido nucleico bicatenario y se lava de manera que las moléculas sintetizadas de primera cadena monocatenarias permanezcan en las perlas.
Las moléculas sintetizadas de primera cadena unidas se ponen en contacto con una población de oligonucleótidos de segunda cadena que comprenden oligos que tienen una región de unión a adaptador en posición de 5', una región de código de barras y que tiene una región adecuada para la hibridación no específica con un ácido nucleico de muestra.
Se realiza una reacción de prolongación usando una ADN polimerasa que tiene actividad de desplazamiento de cadena.
Se añade a la composición un exceso de cebador de adaptador y "oligo de primera cadena anidado", junto con reactivos suficientes para la amplificación de ácidos nucleicos mediada por polimerasas termoestables. El oligo de primera cadena anidado comprende una secuencia de adaptador, una secuencia de código de barras y una secuencia de 25-meros que se hibrida con el mismo locus objetivo pero en posición 3' con respecto al primer sitio de hibridación del oligo.
Se generan amplicones y se secuencian, determinando de este modo la secuencia del locus objetivo.
Ejemplo 33 - Síntesis de primera cadena ciclada de alta fidelidad
Se realiza una reacción de síntesis de la primera cadena como se describe en el presente documento usando una población de oligos de primera cadena aleatoria. La cantidad de molde de primera cadena sintetizada en la reacción resulta insuficiente para un análisis corriente abajo satisfactorio.
Se realiza una reacción de síntesis de la primera cadena como se describe en el presente documento usando una población de oligos de primera cadena aleatoria. Antes de la unión a la estreptavidina, la muestra se calienta para desnaturalizar la muestra de la primera cadena sintetizada y se realiza una segunda ronda de síntesis de primera cadena. El proceso se repite para generar múltiples rondas de molde de síntesis de primera cadena. Se encuentra que el molde de primera cadena generado a través de estos ciclos múltiples comprende moléculas generadas a partir del molde de muestra original, así como moléculas generadas a partir de moldes procedentes de ciclos anteriores de molde de primera cadena. Se encuentra que las moléculas no generadas a partir de molde de muestra original incorporan información de secuencia artefactual, tal como una mayor frecuencia de incorporación errónea de bases y una frecuencia no nula de eventos de translocación y transposición artefactuales.
Se realiza una reacción de síntesis de primera cadena como se describe en el presente documento usando una población de oligos de primera cadena aleatorios y un conjunto de dNTP en el que el dATP se reemplaza por 2,6-diamino-dATP y el dTTP se reemplaza por 2-tiotimidina. Se incorporan 2,6-diaminopurina y 2-tiotimidina en las primeras cadenas a medida que se sintetizan.
Antes de la unión a la estreptavidina, la muestra se calienta para desnaturalizar la muestra de la primera cadena sintetizada y se realiza una segunda ronda de síntesis de primera cadena. Los oligos se hibridan tanto con el molde de la muestra como con las moléculas de primera cadena sintetizadas, pero la presencia de las bases modificadas bloquea la síntesis de nuevas moléculas dirigidas por las moléculas de primera cadena sintetizadas anteriormente.
La cantidad de molde de primera cadena sintetizada en la reacción resulta suficiente para un análisis corriente abajo satisfactorio. Se encuentra que el molde de primera cadena generado a través de estos ciclos múltiples comprende moléculas generadas a partir del molde de muestra original, pero no moléculas generadas a partir de moldes procedentes de ciclos anteriores de molde de primera cadena. Se ha encontrado que las moléculas de primera cadena generadas a través de este proceso cíclico no incorporan información de secuencia artefactual, tal como una mayor frecuencia de incorporación errónea de bases, y se ha encontrado que no incorporan eventos de translocación y transposición artefactuales.
Ejemplo 34 - Flujo de trabajo del proceso
Una sola muestra de ácido nucleico de genoma humano se distribuye en 24 pocillos de entrada. Cada una de estas entradas se distribuye en reacciones de 48 nanolitros. Se incluyen 48 cebadores etiquetados distintos para la reacción de síntesis de primera cadena "A". Después de la reacción A, el material se recoge y se combina de nuevo en los 24 pocillos de entrada originales. El material de 24 pocillos para una muestra se usa para terminar la reacción "B" de segunda cadena en 24 tubos individuales. Se usan 24 conjuntos de cebadores de PCR con código de barras para amplificar e incorporar los adaptadores de longitud completa. El resultado del flujo de trabajo del proceso produce 24 x 48 = 1.152 combinaciones de etiquetas. 48 etiquetas provienen de la reacción A, y cada una está en combinación con las 24 etiquetas adicionales de la reacción de PCR. El resultado de este flujo de trabajo es que se realiza el equivalente a 24 preparaciones por muestra.
Ejemplo 35 - Reacción de secuenciación de genoma humano
Se usó una muestra que comprendía ácidos nucleicos genómicos humanos para preparar una biblioteca de ácidos nucleicos y se secuenció la biblioteca. Los parámetros de reacción fueron como se indican a continuación:
1. Reacción A
a.) Preparar la reacción combinando los siguientes reactivos (preferentemente en un tubo de microcentrífuga LoBind de A d N de Eppendorf):
x |jl ADN (1 - 2 ng)
4 j l Cebador A 25 jM
2 j l 10X Tampón de Thermo Sequenase
4 j l Mezcla de dNTP/ddNTP
Agua sin nucleasas para un volumen final de 19 j l
Si se trabaja con múltiples muestras, se recomienda preparar una mezcla maestra con un 10 % adicional para compensar la pérdida durante el pipeteo.
b. ) Incubar la reacción a 95 °C durante 3 minutos para desnaturalizar el ADN. Colocar el tubo en hielo durante al menos 2 minutos.
c. ) Añadir 1 j l de Thermo Sequenase a la reacción. Mezclar suavemente.
d. ) Transferir la reacción a un termociclador. Proceder con el siguiente programa en el instrumento:
1. ) 16 °C durante 10 minutos
2. ) Rampa lenta (0,1 °C/s) a 60 °C
3. ) 60 °C durante 10 minutos
4. ) 95 °C durante 30 segundos
5. ) Volver a la etapa 1; realizar esta etapa 9 veces (para un total de 10 ciclos (~ 5 horas))
6. ) Mantener a 4 °C
Nota: Para la aplicación de lectura larga, todos los componentes de la reacción A, excepto el cebador, deben combinarse y cargarse en un dispositivo de partición pertinente. Después de dividir la reacción y combinarla con los cebadores con código de barras, debe transferirse a un termociclador, desnaturalizarse por calor a 95 °C durante 2 minutos y posteriormente termociclarse de acuerdo el programa detallado anteriormente.
Después de la reacción A, las muestras se almacenan temporalmente a 4 °C o en hielo, o se congelan a -20 °C para su almacenamiento a largo plazo. Poco antes de continuar con la Etapa 2, calentar las muestras a 98 °C durante 3 minutos, después transferirlas a hielo.
2. Capturar ADN con perlas magnéticas
a. ) Agitar bien el tubo de perlas de captura para resuspender las perlas y transferir 40 j l de las perlas a un tubo nuevo LoBind de ADN de Eppendorf de 0,5 ml. Colocar el tubo en un soporte magnético y esperar a que la solución se aclare (0,5 - 1 minuto). Retirar con cuidado el sobrenadante con una pipeta y descartarlo.
b. ) Retirar el tubo del soporte magnético y añadir 200 j l de tampón de HS a las perlas. Pipetear la muestra hacia arriba y hacia abajo para mezclar los componentes, y devolver el tubo al soporte magnético. Esperar a que la solución se aclare. Retirar con cuidado y descartar el sobrenadante.
c. ) Retirar el tubo del soporte magnético y resuspender las perlas en 40 j l de tampón de HS. El tubo se deja en la mesa de laboratorio a temperatura ambiente hasta que se complete la Etapa 1.
d. ) Añadir el producto de la reacción A (de la Etapa 1) a las perlas de captura (de la etapa anterior) e incubar la muestra a temperatura ambiente durante 20 minutos. Mezclar la muestra pipeteando hacia arriba y hacia abajo después de 10 minutos.
e. ) Colocar el tubo en el soporte magnético y esperar a que la solución se aclare. Retirar con cuidado y descartar el sobrenadante.
f. ) Retirar el tubo del soporte magnético y resuspender las perlas en 200 j l de tampón de lavado de perlas. Devolver el tubo al soporte magnético, dejar que la solución se aclare y descartar el sobrenadante.
g. ) Repetir la etapa de lavado (etapa anterior) dos veces adicionales. Retirar con cuidado cualquier líquido restante después del último lavado.
3. Reacción B
a.) Añadir los reactivos que se enumeran a continuación al tubo que contiene las perlas de captura (de la Etapa 2 g):
8 j l 5X Tampón de Sequenase
3 j l dNTP 2 mM
4 j l Cebador B 25 jM
24 j l Agua sin nucleasas
1 |jl Sequenase (relación 1:1 de Sequenase y Pirofosfatasa Inorgánica) Total = 40 j l
Si se trabaja con múltiples muestras, se recomienda preparar una mezcla maestra con un 10 % adicional para compensar la pérdida durante el pipeteo.
b. ) Incubar la reacción durante 20 minutos a 24 °C (preferentemente en un termociclador o bloque calentador). c. ) Colocar el tubo en el soporte magnético. Dejar que la solución se aclare y descartar el sobrenadante.
d. ) Retirar el tubo del soporte magnético y resuspender las perlas en 200 j l de tampón de lavado de perlas. Devolver el tubo al soporte magnético, dejar que la solución se aclare y descartar el sobrenadante.
e. ) Repetir la etapa de lavado (etapa anterior) dos veces adicionales. Retirar con cuidado cualquier líquido restante después del último lavado.
4. PCR
a.) Resuspender las perlas de la Etapa 3e en 42 j l de agua sin nucleasas. Transferir las perlas a un tubo de PCR de pared fina. Añadir los siguientes componentes:
4 j l Cebador Universal I de PCR 25 jM
4 j l Cebador II de PCR 25 jM (códigos de barras 1 - 12)
50 j l 2X Mezcla de amplificación de PCR KAPA HiFi
Total = 100 j l
Introducir los siguientes parámetros en un termociclador y realizar una PCR:
1 ciclo
98 °C, 2 minutos
15 ciclos
98 °C, 20 segundos
60 °C, 30 segundos
72 °C, 30 segundos
1 ciclo
72 °C, 5 minutos
4 °C, mantenido
5. Limpieza basada en perlas AmpureXP
a. ) Colocar el tubo de PCR en un soporte magnético, esperar a que la solución se aclare y transferir el sobrenadante a un tubo nuevo LoBind de ADN de Eppendorf de 0,5 ml. Descartar el tubo de PCR que contiene las perlas de captura.
b. ) Añadir 100 j l de perlas AmpureXP al sobrenadante, pipetear para mezclar e incubar el tubo a temperatura ambiente durante 10 minutos.
c. ) Colocar el tubo en el soporte magnético, dejar que la solución se aclare y descartar el sobrenadante. d. ) Añadir 200 j l de etanol al 80 % al tubo. Esperar 30 segundos, después retirar y descartar el etanol. No es necesario retirar el tubo del soporte magnético durante esta etapa.
e. ) Repetir la etapa de lavado con otros 200 j l de etanol al 80 %.
f. ) Abrir el tapón del tubo y dejar que las perlas se sequen al aire durante 10 - 15 minutos en la mesa del laboratorio. g. ) Añadir 20 - 30 j l de T ris-HCl 10 mM (pH 7,8) a las perlas. Mezclar pipeteando hacia arriba y hacia abajo. Dejar que el tubo repose a temperatura ambiente durante 2 minutos.
h. ) Colocar el tubo en el soporte magnético, dejar que la solución se aclare y transferir el sobrenadante que contiene el ADN eluido a un tubo nuevo LoBind de ADN de Eppendorf.
La biblioteca se generó según el protocolo mencionado anteriormente y se cuantificó en un Bioanalizador Agilent usando un chip de ADN de sensibilidad alta antes de la secuenciación.
Las estadísticas de secuenciación se presentan en la Tabla 7
Tabla 7 - Resultados de secuenciación de bibliotecas
Figure imgf000072_0001
continuación
Figure imgf000073_0001
De estos resultados se desprende lo siguiente. Más del 98 % de las lecturas se alinearon en el ensamblaje de genoma. La tasa de discordancia y la tasa de error se situaron ambas por debajo del 1 %, y la tasa de inserciones y deleciones se situó por debajo del 0,1 %. La longitud media de lectura fue de aproximadamente 142 bases. El tamaño de inserto máximo fue de aproximadamente 280 bases, que se reduce aproximadamente a cero con un tamaño de inserto entre 700 y 800. La mediana del tamaño de inserto fue de 350, y la media de 369 bases. En la Fig. 24 se proporciona una distribución de tamaños de inserto.
La biblioteca se secuenció y se analizaron los resultados.
En la Fig. 25 se proporciona un gráfico de cobertura de bases.
Las estadísticas de secuenciación se proporcionan en la Tabla 8.
Tabla 8
Figure imgf000073_0002
continuación
Figure imgf000074_0002
Ejemplo 36 - Reacción de secuenciación de genoma humano
Se usó una muestra que comprendía ácidos nucleicos genómicos humanos para preparar una biblioteca de ácidos nucleicos y se secuenció la biblioteca. Los parámetros de reacción fueron los proporcionados en el Ejemplo 35, anteriormente.
Las estadísticas de secuenciación se presentan en la Tabla 9
Tabla 9 - Resultados de secuenciación de bibliotecas
Figure imgf000074_0001
De estos resultados se desprende lo siguiente. Más del 99 % de las lecturas se alinearon en el ensamblaje de genoma. La tasa de discordancia y la tasa de error se situaron ambas por debajo del 1 %, y la tasa de inserciones y deleciones se situó por debajo del 0,01 %. La longitud media de lectura fue de aproximadamente 142 bases. El tamaño de inserto máximo fue de aproximadamente 250 bases, que se reduce aproximadamente a cero con un tamaño de inserto entre 700 y 800. La mediana del tamaño de inserto fue de 345, y la media de 365 bases. En la Fig. 26 se proporciona una distribución de tamaños de inserto.

Claims (14)

REIVINDICACIONES
1. Un método de generación de un conjunto de datos almacenados en ordenador que comprende una población de secuencias de moléculas de ácido nucleico marcadas por afinidad no idénticas, que comprenden cada una un subconjunto de secuencias de una muestra de ácido nucleico, comprendiendo el método:
a) almacenar en un ordenador una primera secuencia de molécula de ácido nucleico que comprenda una primera secuencia de marcador molecular en posición 5' y una primera secuencia de inserción que tiene una primera longitud de dicha muestra de ácido nucleico, en donde el método comprende obtener dicha primera secuencia de ácido nucleico a través de
(i) poner en contacto un primer cebador que comprende una primera secuencia de marcador molecular de una primera población de oligonucleótidos aleatorios con una primera molécula de ácido nucleico de dicha muestra de ácido nucleico;
(ii) realizar la prolongación de ácido nucleico que comprende poner en contacto dicha primera molécula de ácido nucleico y dicho primer cebador con una polimerasa de ácido nucleico que incorpora un ddNTP marcado por afinidad en una cadena de ácido nucleico de prolongación para producir un primer producto de prolongación de una población de primeros productos de prolongación que tienen cada uno un número indeterminado de bases complementarias con dicha muestra de ácido nucleico;
(iii) poner en contacto dicho primer producto de prolongación de dicha población de primeros productos de prolongación con un segundo cebador que comprende una segunda secuencia de marcador molecular de una población de oligonucleótidos aleatorios;
(iv) realizar la prolongación de ácido nucleico para producir una primera molécula de ácido nucleico bicatenario de una población de moléculas de ácido nucleico bicatenario que comprende dicha primera secuencia de marcador molecular, una primera secuencia de molécula de ácido nucleico que tiene una primera longitud, y dicha segunda secuencia de marcador molecular; y
(v) secuenciar la primera molécula de ácido nucleico para obtener dicha primera secuencia de molécula de ácido nucleico;
b) almacenar en dicho ordenador una segunda secuencia de molécula de ácido nucleico que comprende una tercera secuencia de marcador molecular, una segunda secuencia de molécula de ácido nucleico que tiene una segunda longitud, y una cuarta secuencia de marcador molecular;
c) excluir dicha segunda secuencia de molécula de ácido nucleico del conjunto de datos cuando:
dicha tercera secuencia de marcador molecular es idéntica a dicha primera secuencia de marcador molecular; dicha cuarta secuencia de marcador molecular es idéntica a dicha segunda secuencia de marcador molecular; dicha segunda secuencia de molécula de ácido nucleico es idéntica a dicha primera secuencia de molécula de ácido nucleico; y
dicha segunda longitud de secuencia de molécula de ácido nucleico es idéntica a dicha primera longitud de secuencia de molécula de ácido nucleico;
d) incluir la segunda secuencia de molécula de ácido nucleico en el conjunto de datos cuando:
dicha tercera secuencia de marcador molecular es diferente de dicha primera secuencia de marcador molecular;
dicha cuarta secuencia de marcador molecular es diferente de dicha segunda secuencia de marcador molecular;
dicha segunda secuencia de molécula de ácido nucleico es diferente de dicha primera secuencia de molécula de ácido nucleico; o
dicha segunda longitud de secuencia de molécula de ácido nucleico es diferente de dicha primera longitud de secuencia de molécula de ácido nucleico,
generando de este modo dicho conjunto de datos almacenados en ordenador que comprende dicha población de moléculas de ácido nucleico marcadas no idénticas que comprenden cada una un subconjunto de secuencia de dicha muestra de ácido nucleico.
2. El método de la reivindicación 1, en donde dicho marcador de afinidad comprende biotina.
3. El método de la reivindicación 1, en donde dicha segunda secuencia de molécula de ácido nucleico de la etapa b) se genera poniendo en contacto un segundo cebador de dicha población de oligonucleótidos aleatorios con dicha muestra de ácido nucleico.
4. El método de la reivindicación 1, en donde cada uno de dicha población de oligonucleótidos aleatorios comprende un número de bases de ácido nucleico seleccionado de la lista que consiste en 6, 7, 8, 9 y 10 bases de nucleótidos y en donde cada uno de dicha población de oligonucleótidos aleatorios comprende una secuencia de adaptador ubicada en posición 5' con respecto a dicha secuencia de oligonucleótidos aleatorios.
5. El método de la reivindicación 1, en donde dicha prolongación de ácido nucleico comprende ddNTP en una cantidad que varía del 0,01 % al 5 %.
6. El método de la reivindicación 1, en donde dicha polimerasa de ácido nucleico tiene actividad de desplazamiento de cadena.
7. El método de la reivindicación 1, en donde dicha prolongación de ácido nucleico comprende al menos uno de dichos ddNTP unido a un marcador de afinidad.
8. El método de la reivindicación 7, en donde dicho marcador de afinidad comprende biotina.
9. El método de la reivindicación 7 u 8, que comprende poner en contacto dicha primera molécula de ácido nucleico bicatenario con un agente de unión de marcador de afinidad.
10. El método de la reivindicación 1, en donde dicho conjunto comprende una población de un par de dNTP natural y una población de un par de dNTP semicompatible.
11. El método de la reivindicación 3, en donde cada uno de dicha población de oligonucleótidos aleatorios se selecciona para reflejar el contenido de GC de la muestra de ácido nucleico.
12. El método de una cualquiera de las reivindicaciones 1-8, en donde dicha segunda secuencia de molécula de ácido nucleico se genera poniendo en contacto un segundo cebador que comprende una secuencia de oligonucleótidos específica de locus y una segunda secuencia de marcador molecular con dicha muestra de ácido nucleico.
13. El método de la reivindicación 1, en donde las etapas i)-v) se realizan en un solo tubo.
14. El método de la reivindicación 1, en donde no se altera sustancialmente ningún enlace covalente de dicha muestra de ácido nucleico.
ES15766717T 2014-09-09 2015-09-09 Métodos y composiciones para la preparación rápida de bibliotecas de ácidos nucleicos Active ES2880335T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462048136P 2014-09-09 2014-09-09
US201462048138P 2014-09-09 2014-09-09
US201462051480P 2014-09-17 2014-09-17
US201562104431P 2015-01-16 2015-01-16
PCT/US2015/049249 WO2016040524A1 (en) 2014-09-09 2015-09-09 Methods and compositions for rapid nucleic acid library preparation

Publications (1)

Publication Number Publication Date
ES2880335T3 true ES2880335T3 (es) 2021-11-24

Family

ID=54148643

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15766717T Active ES2880335T3 (es) 2014-09-09 2015-09-09 Métodos y composiciones para la preparación rápida de bibliotecas de ácidos nucleicos

Country Status (6)

Country Link
US (3) US10450562B2 (es)
EP (2) EP3913066A1 (es)
AU (2) AU2015315103B2 (es)
CA (1) CA2960821A1 (es)
ES (1) ES2880335T3 (es)
WO (1) WO2016040524A1 (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109082462B (zh) 2012-05-21 2022-10-28 斯克利普斯研究所 样品制备方法
KR102291045B1 (ko) 2013-08-05 2021-08-19 트위스트 바이오사이언스 코포레이션 드 노보 합성된 유전자 라이브러리
DK3102722T3 (da) 2014-02-04 2020-11-16 Jumpcode Genomics Inc Genom fraktionering
CA2960821A1 (en) 2014-09-09 2016-03-17 Igenomx International Genomics Corporation Methods and compositions for rapid nucleic acid library preparation
WO2016126882A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
US9981239B2 (en) 2015-04-21 2018-05-29 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
US10844373B2 (en) 2015-09-18 2020-11-24 Twist Bioscience Corporation Oligonucleic acid variant libraries and synthesis thereof
CN108698012A (zh) 2015-09-22 2018-10-23 特韦斯特生物科学公司 用于核酸合成的柔性基底
US11339427B2 (en) 2016-02-12 2022-05-24 Jumpcode Genomics, Inc. Method for target specific RNA transcription of DNA sequences
EP3433382B1 (en) 2016-03-25 2021-09-01 Karius, Inc. Synthetic nucleic acid spike-ins
EP3465502B1 (en) * 2016-05-26 2024-04-10 Becton, Dickinson and Company Molecular label counting adjustment methods
KR101969905B1 (ko) * 2016-06-20 2019-04-17 한국표준과학연구원 염기서열분석을 위한 라이브러리용 프라이머 세트 및 라이브러리 제조방법
US10417457B2 (en) 2016-09-21 2019-09-17 Twist Bioscience Corporation Nucleic acid based data storage
WO2018089377A1 (en) 2016-11-08 2018-05-17 Cellular Research, Inc. Methods for cell label classification
JP7232180B2 (ja) 2016-11-08 2023-03-02 ベクトン・ディキンソン・アンド・カンパニー 発現プロファイル分類の方法
CA3054303A1 (en) 2017-02-22 2018-08-30 Twist Bioscience Corporation Nucleic acid based data storage
WO2019079769A1 (en) 2017-10-20 2019-04-25 Twist Bioscience Corporation HEATED NANOWELLS FOR THE SYNTHESIS OF POLYNUCLEOTIDES
JP2021506314A (ja) * 2017-12-21 2021-02-22 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 単一方向デュアルプローブプライマー伸長による標的濃縮
US11905553B2 (en) 2018-01-29 2024-02-20 St. Jude Children's Research Hospital, Inc. Method for nucleic acid amplification
SG11202011467RA (en) 2018-05-18 2020-12-30 Twist Bioscience Corp Polynucleotides, reagents, and methods for nucleic acid hybridization
US11093547B2 (en) 2018-06-19 2021-08-17 Intel Corporation Data storage based on encoded DNA sequences
SG11202109283UA (en) 2019-02-26 2021-09-29 Twist Bioscience Corp Variant nucleic acid libraries for antibody optimization
CN113766930A (zh) 2019-02-26 2021-12-07 特韦斯特生物科学公司 Glp1受体的变异核酸文库
US20220259638A1 (en) * 2019-07-22 2022-08-18 Igenomx International Genomics Corporation Methods and compositions for high throughput sample preparation using double unique dual indexing
CN115298323A (zh) * 2020-01-17 2022-11-04 嘉普科德基因组学公司 靶向测序方法
WO2022086880A1 (en) * 2020-10-19 2022-04-28 Morava Inc. Improved next generation sequencing
US11970697B2 (en) 2020-10-19 2024-04-30 Twist Bioscience Corporation Methods of synthesizing oligonucleotides using tethered nucleotides
US11280028B1 (en) * 2021-02-24 2022-03-22 Agency For Science, Technology And Research (A*Star) Unbiased and simultaneous amplification method for preparing a double-stranded DNA library from a sample of more than one type of nucleic acid
CN113517026B (zh) * 2021-06-16 2022-08-19 苏州拉索生物芯片科技有限公司 应用于生物制品的标签序列的生成方法、系统、智能终端及计算机可读存储介质

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4437975A (en) 1977-07-20 1984-03-20 Mobil Oil Corporation Manufacture of lube base stock oil
US4318846A (en) 1979-09-07 1982-03-09 Syva Company Novel ether substituted fluorescein polyamino acid compounds as fluorescers and quenchers
US4957858A (en) 1986-04-16 1990-09-18 The Salk Instute For Biological Studies Replicative RNA reporter systems
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
JPH0626844Y2 (ja) 1985-07-22 1994-07-20 能美防災株式会社 光電式煙感知器の発光素子および受光素子の取付構造
US4757141A (en) 1985-08-26 1988-07-12 Applied Biosystems, Incorporated Amino-derivatized phosphite and phosphate linking agents, phosphoramidite precursors, and useful conjugates thereof
US5091519A (en) 1986-05-01 1992-02-25 Amoco Corporation Nucleotide compositions with linking groups
US5151507A (en) 1986-07-02 1992-09-29 E. I. Du Pont De Nemours And Company Alkynylamino-nucleotides
CA1340843C (en) 1987-07-31 1999-12-07 J. Lawrence Burg Selective amplification of target polynucleotide sequences
CA1340807C (en) 1988-02-24 1999-11-02 Lawrence T. Malek Nucleic acid amplification process
JP2650159B2 (ja) 1988-02-24 1997-09-03 アクゾ・ノベル・エヌ・ベー 核酸増幅方法
SE8801070D0 (sv) 1988-03-23 1988-03-23 Pharmacia Ab Method for immobilizing a dna sequence on a solid support
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5066580A (en) 1988-08-31 1991-11-19 Becton Dickinson And Company Xanthene dyes that emit to the red of fluorescein
KR0148265B1 (ko) 1988-12-16 1998-10-15 에프.지이.엠 헤르만스 자가-지속 서열 복제 시스템
CA2020958C (en) 1989-07-11 2005-01-11 Daniel L. Kacian Nucleic acid sequence amplification methods
US5366860A (en) 1989-09-29 1994-11-22 Applied Biosystems, Inc. Spectrally resolvable rhodamine dyes for nucleic acid sequence determination
US5188934A (en) 1989-11-14 1993-02-23 Applied Biosystems, Inc. 4,7-dichlorofluorescein dyes as molecular probes
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
WO1992003567A1 (en) 1990-08-24 1992-03-05 The University Of Tennessee Research Corporation Dna amplification fingerprinting
WO1992007095A1 (en) 1990-10-15 1992-04-30 Stratagene Arbitrarily primed polymerase chain reaction method for fingerprinting genomes
US5270184A (en) 1991-11-19 1993-12-14 Becton, Dickinson And Company Nucleic acid target generation
US5422252A (en) 1993-06-04 1995-06-06 Becton, Dickinson And Company Simultaneous amplification of multiple targets
US6027923A (en) 1993-07-23 2000-02-22 Bio-Rad Laboratories, Inc. Linked linear amplification of nucleic acids
US5500356A (en) 1993-08-10 1996-03-19 Life Technologies, Inc. Method of nucleic acid sequence selection
US6401267B1 (en) 1993-09-27 2002-06-11 Radoje Drmanac Methods and compositions for efficient nucleic acid sequencing
US5654419A (en) 1994-02-01 1997-08-05 The Regents Of The University Of California Fluorescent labels and their use in separations
US5648245A (en) 1995-05-09 1997-07-15 Carnegie Institution Of Washington Method for constructing an oligonucleotide concatamer library by rolling circle replication
US5800996A (en) 1996-05-03 1998-09-01 The Perkin Elmer Corporation Energy transfer dyes with enchanced fluorescence
US5847162A (en) 1996-06-27 1998-12-08 The Perkin Elmer Corporation 4, 7-Dichlororhodamine dyes
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
US6309824B1 (en) 1997-01-16 2001-10-30 Hyseq, Inc. Methods for analyzing a target nucleic acid using immobilized heterogeneous mixtures of oligonucleotide probes
US6322901B1 (en) 1997-11-13 2001-11-27 Massachusetts Institute Of Technology Highly luminescent color-selective nano-crystalline materials
US6207392B1 (en) 1997-11-25 2001-03-27 The Regents Of The University Of California Semiconductor nanocrystal probes for biological applications and process for making and using such probes
US5990479A (en) 1997-11-25 1999-11-23 Regents Of The University Of California Organo Luminescent semiconductor nanocrystal probes for biological applications and process for making and using such probes
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US6251303B1 (en) 1998-09-18 2001-06-26 Massachusetts Institute Of Technology Water-soluble fluorescent nanocrystals
US6426513B1 (en) 1998-09-18 2002-07-30 Massachusetts Institute Of Technology Water-soluble thiol-capped nanocrystals
DE60042775D1 (de) 1999-01-06 2009-10-01 Callida Genomics Inc Verbesserte sequenzierung mittels hybridisierung durch verwendung von sondengemischen
GB9901475D0 (en) 1999-01-22 1999-03-17 Pyrosequencing Ab A method of DNA sequencing
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
WO2001023610A2 (en) 1999-09-29 2001-04-05 Solexa Ltd. Polynucleotide sequencing
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
US7582420B2 (en) * 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
GB0021977D0 (en) 2000-09-07 2000-10-25 Pyrosequencing Ab Method of sequencing DNA
US6649138B2 (en) 2000-10-13 2003-11-18 Quantum Dot Corporation Surface-modified semiconductive and metallic nanoparticles having enhanced dispersibility in aqueous media
AU2002246612B2 (en) 2000-10-24 2007-11-01 The Board Of Trustees Of The Leland Stanford Junior University Direct multiplex characterization of genomic DNA
US6576291B2 (en) 2000-12-08 2003-06-10 Massachusetts Institute Of Technology Preparation of nanocrystallites
JP4567436B2 (ja) 2001-07-20 2010-10-20 ライフ テクノロジーズ コーポレーション 発光ナノ粒子およびそれらの調製方法
JP2005535283A (ja) 2001-11-13 2005-11-24 ルビコン ゲノミクス インコーポレイテッド ランダムフラグメント化により生成されたdna分子を用いたdna増幅および配列決定
US7670810B2 (en) 2003-06-20 2010-03-02 Illumina, Inc. Methods and compositions for whole genome amplification and genotyping
US8114978B2 (en) 2003-08-05 2012-02-14 Affymetrix, Inc. Methods for genotyping selected polymorphism
WO2006073504A2 (en) 2004-08-04 2006-07-13 President And Fellows Of Harvard College Wobble sequencing
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
EP2292788B1 (en) 2005-06-23 2012-05-09 Keygene N.V. Strategies for high throughput identification and detection of polymorphisms
GB0514936D0 (en) * 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
WO2007120208A2 (en) 2005-11-14 2007-10-25 President And Fellows Of Harvard College Nanogrid rolling circle dna sequencing
DK1966394T3 (da) * 2005-12-22 2012-10-29 Keygene Nv Forbedrede strategier til transkriptprofilering under anvendelse af high throughput-sekventeringsteknologier
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
US20090036325A1 (en) 2007-05-25 2009-02-05 Applera Corporation Directed assembly of amplicons to enhance read pairing signature with massively parallel short read sequencers
US8518640B2 (en) 2007-10-29 2013-08-27 Complete Genomics, Inc. Nucleic acid sequencing and process
CN103952482A (zh) 2009-04-02 2014-07-30 弗卢伊蒂格姆公司 用于对目标核酸进行条形码化的多引物扩增方法
WO2011142836A2 (en) 2010-05-14 2011-11-17 Fluidigm Corporation Assays for the detection of genotype, mutations, and/or aneuploidy
WO2013010062A2 (en) * 2011-07-14 2013-01-17 Life Technologies Corporation Nucleic acid complexity reduction
CN109082462B (zh) 2012-05-21 2022-10-28 斯克利普斯研究所 样品制备方法
CA2960821A1 (en) 2014-09-09 2016-03-17 Igenomx International Genomics Corporation Methods and compositions for rapid nucleic acid library preparation

Also Published As

Publication number Publication date
AU2015315103A1 (en) 2017-04-27
US20170247689A1 (en) 2017-08-31
WO2016040524A1 (en) 2016-03-17
WO2016040524A8 (en) 2020-06-11
EP3191604B1 (en) 2021-04-14
US20190390192A1 (en) 2019-12-26
AU2022202625A1 (en) 2022-05-12
CA2960821A1 (en) 2016-03-17
EP3913066A1 (en) 2021-11-24
EP3191604A1 (en) 2017-07-19
US20220073909A1 (en) 2022-03-10
US11214798B2 (en) 2022-01-04
AU2015315103B2 (en) 2022-01-27
US10450562B2 (en) 2019-10-22

Similar Documents

Publication Publication Date Title
ES2880335T3 (es) Métodos y composiciones para la preparación rápida de bibliotecas de ácidos nucleicos
KR102640255B1 (ko) 감소된 증폭 편향을 갖는 고속-대량 단일 세포 서열분석
KR102475710B1 (ko) 단일 세포 전체 게놈 라이브러리 및 이의 제조를 위한 조합 인덱싱 방법
EP3377625B1 (en) Method for controlled dna fragmentation
US10711269B2 (en) Method for making an asymmetrically-tagged sequencing library
ES2764096T3 (es) Bibliotecas de secuenciación de próxima generación
ES2904816T3 (es) Composiciones para recuento molecular
JP2020522243A (ja) 核酸のマルチプレックス末端タギング増幅
JP2018527947A (ja) 核酸配列増幅方法
AU2012304328A1 (en) Methods for obtaining a sequence
ES2947437T3 (es) Creación de Códigos de barra compartidos en el ADN, en un solo tubo con perlas, para la secuenciación, haplotipado y ensamblaje preciso y rentable
KR20190140961A (ko) 라이브러리 제작 및 서열 분석을 위한 조성물 및 방법
TW202012638A (zh) 用於癌症及贅瘤之評估的組合物及方法
JP2023519782A (ja) 標的化された配列決定の方法
US20170175182A1 (en) Transposase-mediated barcoding of fragmented dna
JP2023533418A (ja) シークエンシングライブラリーの収率を増加させるための方法
JP7004570B2 (ja) 基質分子
US11136576B2 (en) Method for controlled DNA fragmentation
KR102383799B1 (ko) 서열-기반의 유전 검사용 대조군을 제조하기 위한 조성물 및 방법
JP2023531720A (ja) 核酸を解析するための方法および組成物
US20220380755A1 (en) De-novo k-mer associations between molecular states
CA3229536A1 (en) Systems and methods for sample preparation for sequencing