ES2958715T3 - Composiciones y métodos para la secuenciación de polinucleótidos - Google Patents

Composiciones y métodos para la secuenciación de polinucleótidos Download PDF

Info

Publication number
ES2958715T3
ES2958715T3 ES19161148T ES19161148T ES2958715T3 ES 2958715 T3 ES2958715 T3 ES 2958715T3 ES 19161148 T ES19161148 T ES 19161148T ES 19161148 T ES19161148 T ES 19161148T ES 2958715 T3 ES2958715 T3 ES 2958715T3
Authority
ES
Spain
Prior art keywords
polynucleotide
pore
translocation
sequence
helicase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19161148T
Other languages
English (en)
Inventor
Eric Stava
Jens H Gundlach
Jeffrey Mandell
Kevin Gunderson
Ian Derrington
Hosein Himani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Application granted granted Critical
Publication of ES2958715T3 publication Critical patent/ES2958715T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/35Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Mycobacteriaceae (F)
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/447Systems using electrophoresis

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Microbiology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Electrochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

Métodos y composiciones para caracterizar un polinucleótido diana, que incluyen caracterizar la secuencia del polinucleótido diana, usando las etapas de translocación fraccionada mediante una helicasa Hel308 de la translocación del polinucleótido diana a través de un poro. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Composiciones y métodos para la secuenciación de polinucleótidos
Antecedentes
La presente descripción se refiere generalmente a métodos y composiciones para caracterizar un polinucleótido diana, que incluye, caracterizar la secuencia del polinucleótido diana.
Como la información codificada en un polinucleótido (por ejemplo, ADN o ARN) es de suma importancia para la medicina y la ciencia de la vida, existe la necesidad de secuenciar un polinucleótido de forma rápida y económica. En la actualidad, las técnicas de secuenciación comerciales requieren una muestra y preparación de bibliotecas, ambas son laboriosas. Además, las lecturas son más lentas que las deseadas para muchas aplicaciones. Por lo tanto, el rendimiento es limitado y el coste es relativamente alto. La secuenciación por nanoporos representa un nuevo método que se está desarrollando para secuenciar rápidamente y de forma económica un polinucleótido diana.
La secuenciación por nanoporos utiliza un nanoporo, que puede proporcionar un canal para una corriente eléctrica iónica. Un polinucleótido es impulsado electroforéticamente a través del nanoporo, y a medida que el polinucleótido pasa a través del nanoporo, reduce la corriente eléctrica a través del nanoporo. Cada nucleótido, o serie de nucleótidos que pasa, produce una corriente eléctrica característica, y el registro de los niveles de corriente corresponde a la secuencia del polinucleótido. Dado que algunos niveles de corriente están regidos por múltiples nucleótidos (generalmente 3-4), sigue existiendo la necesidad de mejorar el estado de la técnica para mejorar las precisiones. Cualquier información adicional sobre los niveles de corriente obtenidos a medida que el polinucleótido se transloca a través del nanoporo, tal como la forma y la duración, puede proporcionar ventajas.
Un desafío común para la secuenciación por nanoporos es que la translocación del polinucleótido a través del nanoporo es tan rápida que los niveles de corriente para los nucleótidos individuales son demasiado cortos para resolverse. Un enfoque para la secuenciación por nanoporos implica la translocación controlada de un polinucleótido a través del nanoporo bajo la guía de una proteína de unión a polinucleótidos, tal como una helicasa, translocasa o polimerasa, frente a un potencial de voltaje. A pesar de esta translocación controlada, todavía existen varios modos de error de secuenciación y contribuyen a precisiones de secuenciación deficientes. El documento WO2013/057495 describe un método para caracterizar un polinucleótido diana poniéndolo en contacto con un poro transmembrana y una helicasa Hel308 de manera que la helicasa controle el movimiento del polinucleótido a través del poro y sus nucleótidos interactúen con el poro y midiendo una o más características
Por lo tanto, existe la necesidad de métodos y composiciones que proporcionen una translocación controlada adicional de un polinucleótido a través del nanoporo y una mejor resolución de la translocación de nucleótidos en la discriminación de nucleótidos. La presente descripción satisface esta necesidad y proporciona ventajas relacionadas.
Resumen de las realizaciones
Se proporciona un método para caracterizar un polinucleótido diana según las reivindicaciones. La caracterización del polinucleótido diana incluye identificar uno o más de: (1) la secuencia del polinucleótido diana; (2) la modificación del polinucleótido diana; (3) la longitud del polinucleótido diana; (4) la identidad del polinucleótido diana; (5) la fuente del polinucleótido diana, o (6) la estructura secundaria del polinucleótido diana. También se proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana a través de un poro y una composición para caracterizar un polinucleótido diana, que comprende un poro, una helicasa Hel308 y un polinucleótido diana contenido en una solución de menos de 1 mM de ATP o una solución de un análogo de nucleótido.
Breve descripción de los dibujos
La Figura 1A muestra el modelo electrostático de oruga para la translocación de un polinucleótido por una helicasa.
La Figura 1B ilustra esquemáticamente una primera composición ilustrativa que incluye un poro en contacto con una helicasa Hel308.
La Figura 1C ilustra esquemáticamente las etapas en un método para caracterizar un polinucleótido diana.
La Figura 2A muestra una comparación de los eventos de translocación de la polimerasa Phi29 y la helicasa Hel308 Tga, según algunas realizaciones. Las etapas de translocación fraccionada observadas con una helicasa Hel308 Tga se muestran en comparación con las etapas de translocación observadas con una ADN polimerasa phi29.
La Figura 2B muestra una comparación de eventos de translocación de la polimerasa Phi29 y la helicasa Hel308 Tga, según algunas realizaciones. Las etapas de translocación fraccionada observadas con una helicasa Hel308 Tga se muestran en comparación con los niveles de corriente pronosticados generados por una plantilla de polinucleótidos de hebra única que se transloca a través de un nanoporo MspA-M2 usando una polimerasa Phi29 como motor molecular con los observados usando una helicasa Hel308 Tga como motor molecular.
La Figura 2C muestra una comparación de eventos de translocación de la polimerasa Phi29 y la helicasa Hel308 Tga, según algunas realizaciones. Las etapas de translocación fraccionada observadas con una helicasa Hel308 Tga se muestran en comparación con las etapas de translocación observadas con una ADN polimerasa phi29 para una secuencia de nucleótidos repetida simple (SEQ ID NO: 74).
La Figura 3 muestra un mecanismo “ basado en sujeción” propuesto para una etapa de translocación fraccionada, según algunas realizaciones.
Las Figuras 4A y 4B muestran el efecto ilustrativo de la concentración de ATP sobre el tiempo de permanencia de las etapas de translocación fraccionada, según algunas realizaciones.
La Figura 5 representa la precisión de reconstrucción de secuenciación (modelo oculto de Markov (HMM)) para la etapa completa (rombos) y media etapa (cuadrados) en trazas de corriente generadas por ordenador (descritas a continuación) con diversos niveles de ruido añadido, según algunas realizaciones.
La Figura 6A representa transiciones de estado con probabilidad distinta de cero necesaria para que un HMM decodifique la secuencia en un nanoporo donde el polinucleótido se mueve por la enzima motora, según algunas realizaciones. El motor es phi29 ADNP o un polinucleótido de traslación de enzima similar en etapas de 1 nucleótido.
La Figura 6B representa transiciones de estado con probabilidad distinta de cero necesaria para que un HMM decodifique la secuencia en un nanoporo donde el polinucleótido es movido por la enzima motora, según algunas realizaciones. El motor es la helicasa Hel308 o una enzima similar que permite el movimiento fraccionado del polímero.
La Figura 7 representa la precisión esperada de encontrar patrones de corriente en función del desplazamiento gaussiano, según algunas realizaciones. Los rombos representan un motor que tiene una etapa de nucleótidos completa. Los círculos representan un motor que tiene una etapa de translocación fraccionada, y los cuadrados representan un motor que tiene una etapa de translocación fraccionada combinada con valores de duración.
La Figura 8 muestra la modulación ilustrativa de la actividad de helicasa Hel308 con concentraciones variables de pirofosfato, según algunas realizaciones.
La Figura 9 muestra la modulación ilustrativa de la actividad de helicasa Hel308 con el inhibidor de nucleótidos ortovanadato de sodio y con el análogo de nucleótido hidrato de la sal de adenosina 5'-(p, Y-imido)trifosfato de litio, según algunas realizaciones.
La Figura 10 representa un ejemplo de un método para usar información proporcionada por la etapa de translocación fraccionada adicional que puede obtenerse a partir de dos lecturas de secuencia independientes, mediante el uso de niveles y duración de nivel, según algunas realizaciones.
La Figura 11 representa un ejemplo de un método para usar información proporcionada por la etapa de translocación fraccionada adicional que puede obtenerse a partir de dos lecturas de secuencia concurrentes, usando niveles y duración de nivel, según algunas realizaciones.
La Figura 12 representa un ejemplo de un método para usar información proporcionada por la etapa de translocación fraccionada adicional usando trazas de corriente, con o sin información de duración, según algunas realizaciones.
Las Figuras 13A-13E muestran la translocación de polinucleótidos controlada por la helicasa Hel308 basada en un complejo de polinucleótidos ternario con un sitio de unión saliente 3' de helicasa Hel308 y un anclaje bicapa de colesterol, según algunas realizaciones. El círculo relleno (•) indica un fosfato 5'. El rombo relleno (♦ ) indica un colesterol 3'. El círculo semitransparente relleno con muesca indica la helicasa Hel308. Las líneas discontinuas indican una longitud arbitraria. Las flechas grises grandes indican la dirección del movimiento del polinucleótido (con o contra el campo aplicado) del polinucleótido dentro o fuera del poro. Las flechas negras grandes indican la dirección de la translocación de la helicasa a lo largo del polinucleótido, que va de 3' a 5'. El poro (objeto cónico con forma de embudo) se asienta en la membrana (líneas horizontales dobles).
Las Figuras 14A-14D muestran la translocación de polinucleótidos controlada por la helicasa Hel308 basada en un complejo de polinucleótidos ternario con un sitio de unión saliente 3' de helicasa Hel308 y un anclaje bicapa de colesterol, según algunas realizaciones. El círculo relleno (•) indica un fosfato 5'. El rombo relleno (♦ ) indica un colesterol 3'. El círculo semitransparente relleno con muesca indica la helicasa Hel308. Las líneas discontinuas indican una longitud arbitraria. Las flechas grises grandes indican la dirección del movimiento del polinucleótido (con o contra el campo aplicado) del polinucleótido dentro o fuera del poro. Las flechas negras grandes indican la dirección de la translocación de la helicasa a lo largo del polinucleótido, que va de 3' a 5'. El poro (objeto cónico con forma de embudo) se asienta en la membrana (líneas horizontales dobles). Los símbolos son los mismos que en las Figuras 13A-13E. En este esquema, hay un único polinucleótido de hibridación “ i” que crea un saliente 3' en el polinucleótido “ ii” para que la helicasa Hel308 se una a, y también contiene un resto de colesterol opcional. Las Figuras 15A-15C muestran la translocación controlada en la misma dirección que la fuerza de gradiente, según algunas realizaciones. El círculo semitransparente relleno con muesca indica la helicasa Hel308. Las líneas discontinuas indican una longitud arbitraria. Las flechas grises grandes indican la dirección del movimiento del polinucleótido con el campo aplicado en el poro. Las flechas negras grandes indican la dirección de la translocación de la helicasa a lo largo del polinucleótido, que va de 3' a 5'. El poro (objeto cónico con forma de embudo) se asienta en la membrana (líneas horizontales dobles). La Figura 16 ilustra esquemáticamente diversos motivos (SEQ ID NOS 75-81, respectivamente, en orden de aparición) que se han identificado en la familia SF2, por ejemplo, helicasas DEAD-caja (SEQ ID NO: 2), de las cuales Hel308 es un miembro (adaptado de Tuteja y col., “ Unraveling DNA Helicases: Motif, structure, mechanism and function” , European Journal of Biochemistry 271(10): 1849-1863 (2004)).
Las Figuras 17A-17D muestran señales ilustrativas generadas con la helicasa Hel308 Mbu, la helicasa Hel308 Tga y los eventos de translocación de la polimerasa phi29 usando ciertos parámetros, según algunas realizaciones. La Figura 18 ilustra esquemáticamente las etapas en un procedimiento ilustrativo para realizar ensayos usando translocación fraccionada para caracterizar códigos de barras de polinucleótidos, según algunas realizaciones. La Figura 19A ilustra esquemáticamente un aspecto de un modelo oculto de Markov (HMM) ilustrativo utilizado para caracterizar una señal de translocación de una sola etapa de un polinucleótido a través de un poro.
La Figura 19B ilustra esquemáticamente un aspecto de un HMM ilustrativo usado para caracterizar señales de la translocación por etapas fraccionadas de un polinucleótido a través de un poro usando una helicasa Hel308, según algunas realizaciones.
La Figura 20A ilustra resultados ilustrativos de secuenciación de novo usando etapas fraccionadas, según algunas realizaciones.
Las Figuras 20B-20C ilustran resultados ilustrativos de coincidencia de patrones usando etapas fraccionadas, según algunas realizaciones.
Las Figuras 21A-21C ilustran esquemáticamente señales que pueden generarse en función del tiempo para diferentes translocaciones de un polinucleótido a través de un poro, según algunas realizaciones.
Las Figuras 22A-22D ilustran etapas en métodos ilustrativos para usar información proporcionada por la translocación fraccionada de un polinucleótido a través de un poro, según algunas realizaciones.
La Figura 23 ilustra señales simuladas ilustrativas que pueden generarse en función del tiempo para una primera secuencia polinucleotídica ilustrativa (SEQ ID NO: 89) y una segunda secuencia polinucleotídica ilustrativa (SEQ ID NO: 90) adecuada para su uso como códigos de barras respectivos, según algunas realizaciones.
Las Figuras 24A-24D ilustran señales simuladas ilustrativas que pueden generarse en función del tiempo para la primera y segunda secuencias de polinucleótidos ilustrativas adecuadas para su uso como códigos de barras respectivos, según algunas realizaciones.
Las Figuras 25A y 25B ilustran respectivamente señales simuladas ilustrativas que pueden generarse en función del tiempo para la primera y segunda secuencias de polinucleótidos ilustrativas adecuadas para su uso como códigos de barras respectivos, según algunas realizaciones.
Las Figuras 26A-26D ilustran respectivamente señales medidas ilustrativas que se generaron en función del tiempo para las secuencias de polinucleótidos ilustrativas primera y segunda adecuadas para su uso como códigos de barras respectivos, según algunas realizaciones.
Descripción detallada de las realizaciones
La presente descripción proporciona métodos y composiciones para caracterizar un polinucleótido diana, que incluye, caracterizar la secuencia de un polinucleótido diana, mediante el uso de una o más etapas de translocación fraccionada de la translocación del polinucleótido diana a través de un poro.
En el desarrollo de la tecnología de secuenciación por nanoporos, puede lograrse un cierto nivel de translocación controlada de un polinucleótido a través de un nanoporo bajo la guía de un motor molecular, tal como una helicasa, translocasa o polimerasa frente a (por ejemplo, para resistir la fuerza generada por) una diferencia de potencial eléctrico. Los motores moleculares pueden mover el polinucleótido de manera escalonada, normalmente con uno o más nucleótidos por etapa. Este trinquete controlado ralentiza la translocación de polinucleótidos a través del nanoporo de una tasa nativa de ps/nucleótido a ms/nucleótido.
Los motores moleculares pueden usar la energía de la hidrólisis de nucleótidos para impulsar la translocación de los polinucleótidos a través del nanoporo. Una helicasa es un ejemplo en el cual la hidrólisis de ATP es la fuente de energía para la translocación de polinucleótidos. El dibujo en la Figura 1 ilustra el modelo electrostático de oruga para la translocación de un polinucleótido a través de la helicasa (véase Fick y col., Current Pharmaceutical Design, 12:1315-1338 (2006). En este modelo, un polinucleótido monocatenario se mantiene en una hendidura cargada negativamente que separa los dos dominios RecA de una helicasa de un tercer dominio. En ausencia de ATP, un residuo marcador (por ejemplo, T rp501 en la helicasa de VHC) y un residuo de pinza (por ejemplo, Arg393 en la helicasa de VHC) evitan que el polinucleótido monocatenario se deslice a través de una hendidura. Tras la unión de ATP, los dominios RecA giran, moviendo la pinza de Arg cargada positivamente. La pinza de Arg atrae el polinucleótido monocatenario cargado negativamente, lo que a su vez elimina el marcador. El polinucleótido monocatenario es repelido entonces por la hendidura cargada negativamente, y el polinucleótido monocatenario se transloca a través de la helicasa hasta que el ATP se hidroliza. Por lo tanto, en este modelo ilustrativo, la translocación de polinucleótidos a través de una helicasa implica al menos dos etapas: una primera etapa donde la helicasa se une a ATP y experimenta un cambio conformacional, y una segunda etapa donde se hidroliza el ATP y el polinucleótido se transloca a través de la helicasa.
La Figura 1B ilustra esquemáticamente una primera composición ilustrativa que incluye un poro en contacto con una helicasa Hel308. En la Figura 1B, el círculo semitransparente relleno con muesca indica una helicasa Hel308 tal como se proporciona en el presente documento. La línea recta indica el polinucleótido, y las líneas discontinuas indican una longitud arbitraria del polinucleótido. La flecha gris grande indica la dirección del movimiento del polinucleótido del polinucleótido hacia dentro o hacia fuera del poro, y la flecha negra grande indica la dirección de la translocación de la helicasa a lo largo del polinucleótido, que va de 3' a 5'. En la realización ilustrada, el poro (objeto cónico con forma de embudo) se asienta en una membrana (líneas horizontales dobles), aunque pueden usarse otras configuraciones de poros adecuadamente. En la realización ilustrada en la Figura 1B, la dirección del movimiento del polinucleótido puede ser con el campo aplicado generado por una diferencia de potencial a través del poro (ilustrativamente una diferencia de potencial eléctrico de 180 V, aunque pueden usarse otras diferencias de potencial adecuadamente). Para hacer que la dirección del movimiento del polinucleótido se encuentre en el campo aplicado generado por una diferencia de potencial a través del poro, la orientación del ADN puede voltearse tal como se describe con mayor detalle a continuación con referencia a las Figuras 15A-15C. Como se proporciona con mayor detalle en el presente documento, las helicasas Hel308 pueden causar la translocación fraccionada de un polinucleótido a través de un poro, lo que puede facilitar la caracterización del nucleótido. Por ejemplo, dicha translocación fraccionada puede producir una o más señales, en base a las cuales se puede caracterizar el polinucleótido. La una o más señales pueden incluir una señal eléctrica tal como se describe en otra parte del presente documento, o puede incluir una señal óptica tal como se describe en otra parte de la presente descripción. Las señales eléctricas ilustrativas pueden ser una medición seleccionada de la medición de corriente, voltaje, efecto túnel, resistencia, potencial, voltaje, conductancia y medición eléctrica transversal.
Ilustrativamente, a medida que la helicasa Hel308 transloca fraccionalmente el polinucleótido a través del poro, el paso de diferentes bases de nucleótidos dentro del poro puede causar cambios medibles en una corriente eléctrica a través del poro; una corriente eléctrica de este tipo puede denominarse corriente de “ bloqueo” . Como se describe con mayor detalle en el presente documento, una o más características del polinucleótido, tales como una secuencia del polinucleótido, una modificación del polinucleótido, una longitud del polinucleótido, una identidad del polinucleótido, una fuente del polinucleótido o una estructura secundaria del polinucleótido, o cualquier combinación adecuada de los mismos, pueden determinarse basado en los cambios en la señal, por ejemplo, en función de los cambios en una corriente a través del poro, cambios que se basan en las etapas de translocación fraccionada por la helicasa Hel308 del polinucleótido a través del poro. En realizaciones en las que el poro es asimétrico, por ejemplo, incluye una boca de poro con un diámetro mayor que una base de poro (por ejemplo, tal como para MspA), la helicasa Hel308 puede estar en contacto con la boca de poro, tal como se ilustra en la Figura 1B. Dicha configuración puede denominarse configuración “ directa” . Más generalmente, una “ configuración hacia delante” puede referirse a la dirección en la cual las moléculas pueden transitar por la naturaleza del poro, independientemente de si el poro incluye una boca de poro más ancha que la base de poros. Como alternativa, “ dirección hacia delante” se puede definir arbitrariamente.
La Figura 1C ilustra esquemáticamente las etapas en un método para caracterizar un polinucleótido diana. El método puede incluir una etapa de aplicar una diferencia de potencial a través de un poro en contacto con una helicasa Hel308 y un polinucleótido diana (etapa 110). De una manera análoga a la descrita más adelante con referencia a las Figuras 13A-13E y 14A-14D, la translocación del polinucleótido puede ser en una dirección opuesta a la fuerza aplicada causada por la diferencia de potencial en el polinucleótido que se transloca a través del poro, o la translocación del polinucleótido puede ser en una dirección con la fuerza aplicada causada por la diferencia de potencial en el polinucleótido que se transloca a través del poro. Opcionalmente, las etapas 110-130 pueden repetirse una o más veces. La etapa de translocación fraccionada (etapa 120) puede incluir una primera etapa de translocación fraccionada de un ciclo de translocación completo de la helicasa Hel308, o puede incluir una segunda etapa de translocación de un ciclo completo de translocación de la helicasa Hel308.
Como se usa en el presente documento, el término “ polinucleótido” se refiere a ácido desoxirribonucleico (ADN), ácido ribonucleico (ARN) o un análogo del mismo. Un polinucleótido puede ser monocatenario, bicatenario o contener tanto una secuencia monocatenaria como bicatenaria. Las moléculas de polinucleótidos pueden originarse en forma de ADN bicatenario (ADNbc) (por ejemplo, ADN genómico, productos de PCR y amplificación y similares) o pueden haberse originado en forma monocatenaria, como ADN (ADNmc) o ARN, y haberse convertido a la forma ADNbc y viceversa. La secuencia precisa de una molécula de polinucleótido puede ser conocida o desconocida. Los siguientes son ejemplos ilustrativos de polinucleótido: un gen o fragmento de gen (por ejemplo, una sonda, cebador, etiqueta EST o SAGE), ADN genómico, fragmento de ADN genómico, exón, intrón, ARN mensajero (ARNm), ARN de transferencia, ARN ribosómico, ribozima, ADNc, polinucleótido recombinante, polinucleótido sintético, polinucleótido ramificado, plásmido, vector, ADN aislado de cualquier secuencia, ARN aislado de cualquier secuencia, sonda de ácido nucleico, cebador o copia amplificada de cualquiera de los anteriores.
Un polinucleótido puede estar compuesto de nucleótidos o análogos de nucleótidos. Un nucleótido contiene normalmente un azúcar, una nucleobase y al menos un grupo fosfato. Un nucleótido puede ser abásico (es decir, que carece de una nucleobase). Los nucleótidos incluyen desoxirribonucleótidos, desoxirribonucleótidos modificados, ribonucleótidos, ribonucleótidos modificados, nucleótidos peptídicos, nucleótidos peptídicos modificados, nucleótidos de esqueleto de azúcar y fosfato modificados y mezclas de los mismos. Los ejemplos de nucleótidos incluyen, por ejemplo, monofosfato de adenosina (AMP), difosfato de adenosina (ADP), trifosfato de adenosina (ATP), monofosfato de timidina (TMP), difosfato de timidina (TDP), trifosfato de timidina (TTP), monofosfato de citidina (CMP), difosfato de citidina (CDP), trifosfato de citidina (CTP), monofosfato de guanosina (GMP), difosfato de guanosina (GDP), trifosfato de guanosina (GTP), monofosfato de uridina (UMP), difosfato de uridina (UDP), trifosfato de uridina (UTP), monofosfato de desoxitimidina (dAMP), difosfato de desoxiadenosina (dADP), trifosfato de desoxiadenosina (dATP), monofosfato de desoxitimidina (dTMP), difosfato de desoxitimidina (dTPD), trifosfato de desoxitimidina (dTTP), difosfato de desoxicitidina (dCDP), trifosfato de desoxicitidina (dCTP), monofosfato de desoxiguanosina (dGMP), difosfato de desoxiguanosina (dGDP), trifosfato de desoxiguanosina (dGTP), monofosfato de desoxiuridina (duma), difosfato de desoxiuridina (dUDP) y trifosfato de desoxiuridina (dUTP). Los análogos de nucleótidos que incluyen una nucleobase modificada también pueden usarse en los métodos descritos en el presente documento. Las nucleobases modificadas ilustrativas que se pueden incluir en un polinucleótido, ya sea que tengan un esqueleto nativo o una estructura análoga, incluyen, por ejemplo, inosina, xantina, hipoxantina, isocitocina, isoguanina, 2-aminopurina, 5-metilcitosina, 5-hidroximetil citosina, 2-aminoadenina, 6-metil adenina, 6-metil guanina, 2-propil guanina, 2-propil adenina, 2-tio-uracilo, 2-tiotimina, 2-tiocitosina, 15-halouracilo, 15-halocitosina, 5-propinil uracilo, 5-propinil citosina, 6-azo uracilo, 6-azo citosina, 6-azo timina, 5-uracilo, 4-tiouracilo, 8-halo adenina o guanina, 8-amino adenina o guanina, 8-tiol adenina o guanina, 8-tioalquil adenina o guanina, 8-hidroxil adenina o guanina, uracilo o citosina sustituido con 5-halo, 7-metilguanina, 7-metiladenina, 8-azaguanina, 8-azaadenina, 7-deazaguanina, 7-deazaadenina, 3-deazaguanina, 3-deazaadenina o similares. Como se conoce en la técnica, ciertos análogos de nucleótidos no pueden incorporarse en un polinucleótido, por ejemplo, análogos de nucleótidos tales como adenosina 5'-fosfosulfato.
Como se usa en el presente documento, el término “ poro” pretende significar una estructura que se extiende a través de una barrera, tal como una membrana, que permite que iones y/o moléculas hidrosolubles crucen desde un lado de la barrera al otro lado de la barrera. Los poros pueden estar presentes, pero no es necesario, en una membrana. Por ejemplo, una barrera que normalmente inhibe el paso de iones o moléculas hidrosolubles puede incluir una estructura de poros que se extiende a través de la barrera para permitir el paso de los iones o moléculas hidrosolubles de un lado de la barrera al otro lado de la barrera. Los poros (por ejemplo, poros transmembrana) incluyen, por ejemplo, poros biológicos, poros en estado sólido y poros híbridos biológicos y en estado sólido.
Como se usa en el presente documento, la expresión “ poro biológico” pretende significar un poro, que está hecho de materiales de origen biológico, que se extiende a través de una barrera, que incluye, por ejemplo, una membrana que permite que iones y/o moléculas hidrosolubles crucen desde un lado de la barrera al otro lado de la barrera. Origen biológico se refiere a material derivado o aislado de un entorno biológico tal como un organismo o célula, o una versión fabricada sintéticamente de una estructura biológicamente disponible. Los poros biológicos incluyen, por ejemplo, poros de polipéptidos y poros de polinucleótidos.
Como se usa en el presente documento, la expresión “ poro de polipéptido” pretende significar uno o más polipéptidos que se extienden a través de una barrera tal como una membrana, por ejemplo, y permite que los iones y/o moléculas hidrosolubles fluyan desde un lado de la barrera al otro lado de la barrera. Un poro de polipéptido puede ser un monómero, un homopolímero o un heteropolímero. Las estructuras de los poros de polipéptidos incluyen, por ejemplo, un poro de haz de hélice a y un poro de barril p, así como todos los demás bien conocidos en la técnica. Los poros de polipéptidos ilustrativos incluyen hemolisina a, porina A de Mycobacterium smegmatis, gramicidina A, maltocorina, OmpF, OmpC, PhoE, Tsx, F-pilus, SP1 (Wang y col., Chem. Commun., 49:1741-1743, 2013) y porina mitocondrial (VDAC)XX, Tom40, (patente US-6.015.714 y Derrington y col., Proc. Natl. Acad. Sci. USA, 107:16060 (2010)). “ La porina A de Mycobacterium smegmatis (MspA)” es una porina de membrana producida por micobacterias, que permite que las moléculas hidrófilas entren en la bacteria. MspA forma un octámero estrechamente interconectado y el barril beta transmembrana que se asemeja a una copa y contiene un canal/poro central.
Como se usa en el presente documento, la expresión “ poro de polinucleótido” pretende significar uno o más polinucleótidos que se extienden a través de una barrera tal como una membrana, por ejemplo, y permite que los iones y/o moléculas hidrosolubles fluyan desde un lado de la barrera al otro lado de la barrera. Un poro de polinucleótido puede incluir, por ejemplo, un polinucleótido origami.
Como se usa en el presente documento, la expresión “ poro en estado sólido” pretende significar un poro, que está hecho de materiales de origen no biológico, que se extiende a través de una barrera tal como una membrana, por ejemplo, que permite que iones y/o moléculas hidrosolubles crucen desde un lado de la barrera al otro lado de la barrera. Se pretende que el estado sólido signifique materiales que no son de origen biológico. Un poro en estado sólido puede ser de materiales inorgánicos u orgánicos. Los poros en estado sólido incluyen, por ejemplo, poros de nitruro de silicio, poros de dióxido de silicio y poros de grafeno.
Como se usa en el presente documento, la expresión “ poro híbrido biológico y en estado sólido” pretende significar un poro híbrido, que está hecho de materiales tanto de origen biológico como no biológico, que se extienden a través de una barrera tal como una membrana, por ejemplo, que permite que los iones hidratados y/o moléculas hidrosolubles crucen desde un lado de la barrera al otro lado de la barrera. Los materiales de origen biológico se han definido anteriormente e incluyen, por ejemplo, polipéptido y polinucleótido. Un poro híbrido biológico y en estado sólido incluye, por ejemplo, un poro híbrido polipéptido-en estado sólido y un poro polinucleótido-en estado sólido.
Como se usa en el presente documento, el término “ helicasa” pretende significar una proteína de unión a polinucleótido que tiene una actividad que utiliza energía derivada de la hidrólisis de, por ejemplo, un trifosfato de nucleótido (NTP) para desenrollar los polinucleótidos bicatenarios. El desenrollado de un polinucleótido bicatenario da como resultado la translocación del polinucleótido a lo largo de su sitio activo. El término pretende incluir polipéptidos que tienen actividades que translocan o unen polinucleótidos monocatenarios, así como polinucleótidos parcialmente bicatenarios. Una “ helicasa Hel308” es una helicasa de ADN dependiente de ATP y una helicasa de la superfamilia 2. El miembro fundador, Mus308 de Drosophila melanogaster, consiste en un dominio de helicasa SF2 N-terminal fusionado a un dominio de ADN polimerasa C-terminal. La Hel308 en Homo sapiens funciona como una SF2, una ADN helicasa de 3' a 5' con una procesabilidad limitada. La helicasa Hel308 se usa indistintamente con la helicasa similar a ski2. Los homólogos útiles pueden consistir solo en un dominio de helicasa (es decir, sin un dominio de polimerasa). Los homólogos de solo helicasa están presentes en metazoos y arqueas. Ejemplos de metazoos son Hel308 y Mus301 humanos. Ejemplos de arqueas son Tga y Mbu.
A menos que se describa explícitamente de otra manera en el presente documento, la expresión “ sustrato de helicasa Hel308” como se usa en el presente documento pretende significar un nucleótido o análogo de nucleótido que es capaz de hidrolizarse por la helicasa y proporcionar energía para desenrollar un polinucleótido bicatenario o parcialmente bicatenario o translocar un polinucleótido monocatenario. Un sustrato común para una helicasa Hel308 incluye ATP. Sin embargo, otros sustratos de helicasa Hel308 dentro del significado del término incluyen nucleótidos distintos de ATP, tales como los descritos anteriormente y análogos de nucleótidos que son capaces de hidrolizarse por una helicasa Hel308. Los análogos ilustrativos incluyen, por ejemplo, análogos de fosfato tales como análogos de gamma-tiol, análogos de alfa-tiol y similares, ATPyS, ATPaS, AMP, PNP, ApCpp, AppCp y AppNHp.
Como se usa en el presente documento, el término “ transloca” o “ translocación” pretende significar el movimiento de un polinucleótido diana a lo largo (o dentro de) una helicasa y/o un poro.
Como se usa en el presente documento, la expresión “ ciclo completo de translocación” cuando se usa en referencia a una helicasa pretende significar un intervalo completo para el movimiento de una unidad de uno o más nucleótidos de un polinucleótido diana a lo largo de la helicasa y/o el poro. El intervalo completo puede comenzar en cualquier punto del ciclo, y puede incluir, por ejemplo, el intervalo representado en la Figura 3 que incluye las etapas de la unión de ATP e hidrólisis del ATP unido. Por consiguiente, un ciclo completo de translocación como se usa en el presente documento puede comenzar con la unión del sustrato de nucleótido y finalizar con la hidrólisis del sustrato de nucleótido. Un ciclo completo de translocación puede comenzar de manera similar con la hidrólisis del sustrato de nucleótido y finalizar con la unión del nucleótido. De manera similar, un ciclo completo de translocación puede comenzar en cualquier punto entre los dos puntos de inicio ilustrados anteriormente, siempre que concluya en la etapa justo antes del punto de partida.
Como se usa en el presente documento, la expresión “ etapa de translocación fraccionada” cuando se usa en referencia a una helicasa se pretende que signifique un evento detectable que caracteriza una parte de un ciclo completo de translocación. Por ejemplo, una etapa de translocación fraccionada puede ser una translocación parcial de una unidad de uno o más nucleótidos de un polinucleótido diana a lo largo de la helicasa y/o el poro. En realizaciones particulares, puede producirse una etapa fraccionada entre la unión de ATP y la hidrólisis cuando se produce un cambio conformacional. El cambio conformacional divide efectivamente un ciclo completo de translocación en al menos dos etapas de translocación parcial o fraccionada. Una etapa fraccionada puede ser concomitante o no con el movimiento de ácido nucleico a lo largo de la helicasa.
Como se usa en el presente documento, el término “ señal” pretende significar un indicador que representa información. Las señales incluyen, por ejemplo, una señal eléctrica y una señal óptica.
Como se usa en el presente documento, la expresión “ señal eléctrica” pretende significar un indicador de una calidad eléctrica que representa información. El indicador puede ser, por ejemplo, corriente, voltaje, efecto túnel, resistencia, potencial, voltaje, conductancia; y medición eléctrica transversal. Una “ corriente electrónica” se refiere a un flujo de carga eléctrica. La carga eléctrica fluye cuando se aplica una diferencia de potencial eléctrico a través del poro.
Como se usa en el presente documento, la expresión “ señal óptica” pretende significar un indicador de una calidad óptica que representa información. Las señales ópticas incluyen, por ejemplo, una señal de fluorescencia y una señal Raman.
Como se usa en el presente documento, el término “ homología” pretende significar una similitud de secuencia entre dos polinucleótidos o entre dos polipéptidos. La similitud se puede determinar comparando una posición en cada secuencia, que puede alinearse con fines de comparación. Un grado de similitud entre las secuencias es una función del número de posiciones coincidentes u homólogas compartidas por las secuencias. La alineación de dos secuencias para determinar su porcentaje de similitud de secuencia se puede realizar usando programas de software conocidos en la técnica, tales como, por ejemplo, los descritos en Ausubel y col., Current Protocols in Molecular Biology, John Wiley and Sons, Baltimore, MD (1999). Preferiblemente, los parámetros predeterminados se usan para la alineación, cuyos ejemplos se exponen a continuación. Un programa de alineación bien conocido en la técnica que puede usarse es el conjunto BLAST en parámetros predeterminados. En particular, los programas son BLASTN y BLASTP, mediante el uso de los siguientes parámetros predeterminados: Código genético = estándar; filtro = ninguno; hebra = ambos; corte = 60; espera = 10; Matriz = BLOSUM62; Descripciones = 50 secuencias; ordenamiento por = ALTA PUNTUACIÓN; Bases de datos = no redundantes, GenBank EMBL DDBJ PDB GenBank C<d>S translations SwissProtein SPupdate PIR. Los detalles de estos programas se pueden encontrar en el Centro Nacional de Información Biotecnológica.
La presente descripción proporciona un método para caracterizar un polinucleótido diana. El método incluye: (a) aplicar una diferencia de potencial a través de un poro en contacto con una helicasa Hel308 y un polinucleótido diana; (b) medir una o más señales producidas por una o más etapas de translocación fraccionada del polinucleótido diana a través del poro, y (c) caracterizar el polinucleótido diana a partir de la señal eléctrica de las etapas de translocación fraccionada.
Como se describe en el presente documento, los polinucleótidos incluyen ácido desoxirribonucleico (ADN), ácido ribonucleico (ARN) o análogos de los mismos. Un polinucleótido generalmente contendrá enlaces fosfodiéster, aunque en algunos casos, un polinucleótido también puede tener esqueletos alternativos, que incluyen, por ejemplo, fosforamida (Beaucage, y col., Tetrahedron, 49(10):1925 (1993) y las referencias incluidas; Letsinger, J. Org. Chem., 35:3800 (1970); Sprinzl, y col., Eur. J. Biochem., 81:579 (1977); Letsinger, y col., Nucl. Acids Res., 14:3487 (1986); Sawai, y col., Chem. Lett., 805 (1984), Letsinger, y col., J. Am. Chem. Soc., 110:4470 (1988); y Pauwels, y col., Chemica Scripta, 26:141 (1986)), fosforotioato (Mag, y col., Nucleic Acids Res., 19:1437 (1991); y la patente US-5.644.048), fosforoditioato (Briu, y col., J. Am. Chem. Soc., 111:2321 (1989), enlaces O-metilfosforoamidita (véanse Eckstein, Oligonucleotides and Analogues: A Practical Approach, Oxford University Press) y esqueletos de ácidos nucleicos peptídicos y enlaces (véase Egholm, J. Am. Chem. Soc., 114:1895 (1992); Meier, y col., Chem. Int. Ed. Engl., 31:1008 (1992); Nielsen, Nature, 365:566 (1993); Carlsson, y col., Nature, 380:207 (1996)). Otros polinucleótidos incluyen aquellos con cadenas principales positivas (Denpcy, y col., Proc. Natl. Acad. Sci. USA, 92:6097 (1995)); esqueletos no iónicos (patentes US-5.386.023, US-5.637.684, US-5.602.240, US-5.216.141 y US-4.469.863; Kiedrowshi y col., Angew. Chem. Int. Ed. English, 30:423 (1991); Letsinger, y col., J. Am. Chem. Soc., 110:4470 (1988); Letsinger, y col., Nucleosides & Nucleotides, 13:1597 (1994); Capítulos 2 y 3, ASC Symposium Series 580, “ Carbohydrate Modifications in Antisense Research” , Ed. Y. S. Sanghui y P. Dan Cook; Mesmaeker, y col., Bioorganic & Medicinal Chem. Lett., 4:395 (1994); Jeffs, y col., J. Biomolecular NMR, 34:17 (1994); Tetrahedron Lett., 37:743 (1996) y esqueletos que no son de ribosa, incluidos los descritos en las patentes US-5.235.033 y US-5.034.506, y Capítulos 6 y 7, As C Symposium Series 580, “ Carbohydrate Modifications in Antisense Research” , Ed. Y. S. Sanghui y P. Dan Cook. Las moléculas de polinucleótido que contienen uno o más azúcares carbocíclicos también se incluyen dentro de la definición de polinucleótido (véase Jenkins, y col., Chem. Soc. Rev., (1995) págs. 169-176). Varios polinucleótidos se describen en Rawls, C & E News, 2 de junio de 1997, página 35.
El polinucleótido diana puede caracterizarse según los métodos de la presente descripción. El polinucleótido ilustrativo incluye, por ejemplo, un gen o fragmento de gen (por ejemplo, una sonda, cebador, etiqueta EST o SAGE), ADN genómico, fragmento de ADN genómico, exón, intrón, ARN mensajero (ARNm), ARN de transferencia, ARN ribosómico, ribozima, ADNc, polinucleótido recombinante, polinucleótido sintético, polinucleótido ramificado, plásmido, vector, ADN aislado de cualquier secuencia, ARN aislado de cualquier secuencia, sonda de ácido nucleico, cebador o copia amplificada de cualquiera de los anteriores.
Un polinucleótido diana usado en realizaciones particulares en el presente documento puede ser de cualquiera de una variedad de longitudes, siendo normalmente de longitud suficiente para extenderse a través de un poro y unirse en un lado del poro por una helicasa. En general, dicha longitud es al menos aproximadamente 10 nucleótidos de longitud. Sin embargo, numerosas longitudes más largas que este tamaño mínimo son aplicables para la caracterización mediante el uso de los métodos de la presente descripción. Las longitudes ilustrativas de un polinucleótido útil incluyen, por ejemplo, al menos aproximadamente 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 150, 200, 300, 400, 500, 1000, 5000 o 10.000, 100.000 nucleótidos o más. Alternativa o adicionalmente, la longitud puede no ser más larga que 1.000.000, 100.000, 10.000, 1.000, 100 nucleótidos o menos. Por consiguiente, un polinucleótido que puede secuenciarse usando los métodos de la presente descripción puede variar, por ejemplo, de polinucleótidos cortos, fragmentos, ADNc, genes y fragmentos genómicos.
El polinucleótido usado en los métodos de la presente descripción puede ser monocatenario, bicatenario o contener tanto secuencia monocatenaria como bicatenaria. Las moléculas de polinucleótidos pueden originarse en un polinucleótido bicatenario (por ejemplo, ADNbc) y pueden convertirse en un polinucleótido monocatenario. Las moléculas de polinucleótidos también pueden originarse en un polinucleótido monocatenario (por ejemplo, ADNmc, ARNmc) y el ADNmc puede convertirse en un polinucleótido bicatenario. En algunos aspectos de la presente descripción, el polinucleótido bicatenario o parcialmente bicatenario incluye un polinucleótido de bloqueo. Dichas especies de polinucleótidos pueden incluir las ilustradas en relación con las Figuras 13A-13E, 14A-14D y 15A-15C en el presente documento. Los modos ilustrativos de translocación de polinucleótidos a través de un poro se exponen en el documento WO 2013/057495.
En algunos aspectos, la presente descripción proporciona un método para caracterizar un polinucleótido diana. El método incluye identificar: (1) la secuencia del polinucleótido diana; (2) la modificación del polinucleótido diana; (3) la longitud del polinucleótido diana; (4) la identidad del polinucleótido diana; (5) la fuente del polinucleótido diana, o (6) la estructura secundaria del polinucleótido diana.
La secuencia del polinucleótido se refiere a la estructura primaria del polinucleótido o al orden secuencial de los nucleótidos en una molécula polinucleotídica. La secuencia del polinucleótido puede determinarse caracterizando los nucleótidos en el polinucleótido diana usando las señales producidas por las etapas de translocación fraccionada del polinucleótido diana a través del poro.
Una modificación del polinucleótido se refiere a cualquier modificación covalente o no covalente de un nucleótido en el polinucleótido, que incluye, por ejemplo, metilación o hidroximetilación de nucleótidos. De hecho, las modificaciones pueden incluir cualquier número de análogos de nucleótidos que pueden incorporarse en una cadena polinucleotídica, que incluye, por ejemplo, 8-oxoguanosina, 5-formilcitosina y 5-carboxilcitosina y otros expuestos en otra parte de la presente descripción. La modificación de un nucleótido proporciona un cambio correspondiente en la señal. Por consiguiente, una o varias modificaciones de un polinucleótido pueden determinarse caracterizando los nucleótidos modificados en el polinucleótido diana usando las señales producidas por las etapas de translocación fraccionada del polinucleótido diana a través del poro.
La longitud del polinucleótido se refiere a los números de nucleótidos en el polinucleótido. La longitud del polinucleótido puede determinarse, por ejemplo, determinando la secuencia primaria del polinucleótido o midiendo su tiempo de permanencia en un poro o contando el número de nucleótidos que pasan a través del poro. En algunas realizaciones, el tiempo de permanencia corresponde a la duración del cambio transitorio de corriente. Un cambio transitorio puede considerarse cualquier desviación en la corriente de poro, debido a la presencia de un polinucleótido. En algunas realizaciones, la desviación da como resultado una reducción de la magnitud de la corriente. Esta reducción generalmente puede ser como máximo 95 %, 90 %, 80 %, 60 %, 50 %, 40 %, 30 %, 20 % o 10 % o menos de la corriente de poro no bloqueada original. Alternativa o adicionalmente, la reducción puede ser al menos 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 % o 90 % o más. En algunos casos, el polinucleótido puede dar como resultado el aumento de la magnitud de la corriente con respecto al poro no bloqueado. La relación entre la duración y la longitud del polinucleótido puede describirse mediante una función matemática reproducible que depende de la condición experimental usada. La función puede ser una función lineal o no lineal (por ejemplo, sigmoidal o exponencial) para un tipo dado de polinucleótido (por ejemplo, ADN o ARN).
La identidad del polinucleótido se refiere al tipo de polinucleótido. La identidad también puede referirse al nombre del polinucleótido como se conoce en la técnica. Por ejemplo, la identidad de un polinucleótido puede ser, por ejemplo, ADN, ARN, un polinucleótido bicatenario, un polinucleótido monocatenario y/o un polinucleótido parcialmente bicatenario. La identidad de un polinucleótido también puede incluir la determinación del producto génico o la función estructural del polinucleótido. Por ejemplo, el polinucleótido puede codificar un polipéptido o puede ser un polinucleótido estructural tal como ARN ribosómico. La identidad de un polinucleótido puede determinarse a partir de la secuencia de nucleótidos de todo o parte del polinucleótido, la secuencia de un segundo polinucleótido que es complementaria a todo o parte del polinucleótido, la secuencia de un ARN que está codificada por todo o parte del polinucleótido o la secuencia de una proteína que está codificada por todo o parte del polinucleótido. En ejemplos particulares, un polinucleótido puede identificarse por una secuencia “ etiqueta” o “ código de barras” que forma parte del polinucleótido. En tales ejemplos, la identidad del polinucleótido puede asignarse mediante un patrón de señal esperado de la etiqueta o código de barras. La fuente del polinucleótido puede referirse a la especie de origen del polinucleótido o a un origen sintético. La identidad y la fuente del polinucleótido pueden determinarse alineando la secuencia del polinucleótido en la base de datos de secuencias de polinucleótidos, usando programas bien conocidos en la técnica, por ejemplo, el BLASTN.
La estructura secundaria del polinucleótido se refiere al emparejamiento intramolecular de bases de regiones de autocomplementariedad en una molécula de polinucleótido. Las estructuras secundarias ilustrativas incluyen, por ejemplo, una doble hélice, horquilla, bucle, protuberancia, dúplex, unión, tallo, pseudonudo, triple hélice, H-AD<n>, cabeza de martillo y ribozima de autocorte y empalme. La estructura secundaria del polinucleótido puede determinarse, por ejemplo, midiendo su cambio correspondiente en el tiempo de permanencia en un poro o midiendo el cambio correspondiente en la señal producida por las etapas de translocación fraccionada.
Un poro es una estructura que se extiende a través de una barrera, que incluye, por ejemplo, una membrana, que permite que iones y/o moléculas hidrosolubles crucen desde un lado de la barrera al otro lado de la barrera. Los poros pueden estar presentes, pero no es necesario, en una membrana. Por ejemplo, una barrera que normalmente inhibe el paso de iones o moléculas hidrosolubles puede incluir una estructura de poros que se extiende a través de la barrera para permitir el paso de los iones o moléculas hidrosolubles de un lado de la barrera al otro lado de la barrera. Una membrana de la presente descripción puede ser, por ejemplo, una barrera no permeable o semipermeable que separa dos cámaras de líquido que pueden tener las mismas o diferentes composiciones. Puede usarse cualquier membrana según la presente descripción, siempre que la membrana pueda configurarse para incluir un poro transmembrana y mantener una diferencia de potencial a través de la membrana. Las diferencias potenciales adecuadas se describen a continuación.
Se puede usar una variedad de membranas bien conocidas en la técnica en las composiciones y métodos de la presente descripción. Dichas membranas bien conocidas en la técnica incluyen una variedad de diferentes estructuras y composiciones. Por ejemplo, una membrana puede ser una estructura monocapa o multicapa siempre que pueda incorporarse un poro para la caracterización de un polinucleótido. Una capa en la membrana se refiere al material no permeable o semipermeable que forma la barrera. Los ejemplos de membranas monocapa y multicapa se describen más adelante.
El material formador de membrana puede ser de origen biológico o no biológico. Un material que es de origen biológico se refiere a material derivado o aislado de un entorno biológico tal como un organismo o célula, o una versión fabricada sintéticamente de una estructura biológicamente disponible. Una membrana ilustrativa que está hecha del material que es de origen biológico incluye una bicapa lipídica. Un material que no es de origen biológico también se denomina material en estado sólido y puede formar una membrana en estado sólido.
Las bicapas lipídicas adecuadas y los métodos para preparar u obtener bicapas lipídicas son bien conocidos en la técnica y se describen, por ejemplo, en la publicación de patente de Estados Unidos US 2010/0196203 y la publicación de patente PCT WO 2006/100484. Las bicapas lipídicas adecuadas incluyen, por ejemplo, una membrana de una célula, una membrana de un orgánulo, un liposoma, una bicapa lipídica plana y una bicapa lipídica soportada. Puede formarse una bicapa lipídica, por ejemplo, de dos capas opuestas de fosfolípidos, que están dispuestas de manera que sus grupos de cola hidrófobos se enfrentan entre sí para formar un interior hidrófobo, mientras que los grupos de cabeza hidrófilos de los lípidos están orientados hacia afuera hacia el entorno acuoso a cada lado de la bicapa. También se pueden formar bicapas lipídicas, por ejemplo, mediante el método de Montal y Mueller (Proc. Natl. Acad. Sci. USA., 1972; 69: 3561-3566), en el cual una monocapa lipídica se transporta en la interfase solución acuosa/aire más allá de cada lado de una abertura que es perpendicular a esa interfaz. Normalmente, el lípido se añade a la superficie de una solución de electrolito acuosa disolviéndolo primero en un disolvente orgánico y luego permitiendo que una gota del disolvente se evapore sobre la superficie de la solución acuosa a cada lado de la abertura. Una vez que el disolvente orgánico se ha evaporado, las interfaces de solución/aire a cada lado de la abertura se mueven físicamente hacia arriba y hacia abajo más allá de la abertura hasta que se forma una bicapa. Otros métodos comunes de formación de bicapa incluyen inmersión de puntas, pintura de bicapas y pinzamiento de parche de bicapas de liposomas. Una variedad de otros métodos para obtener o generar bicapas lipídicas son bien conocidas en la técnica y son igualmente aplicables para su uso en las composiciones y métodos de la presente descripción.
Las membranas en estado sólido son bien conocidas en la técnica y se describen, por ejemplo, en la publicación de patente PCT WO 2000/079257. Como se ha descrito anteriormente, la membrana en estado sólido está hecha de una o más capas de materiales que no son de origen biológico. La membrana en estado sólido puede ser una monocapa, tal como un recubrimiento o película sobre un sustrato de soporte, o un elemento independiente. La membrana en estado sólido también puede ser un compuesto de multicapa de materiales en una configuración de tipo sándwich. No existe limitación específica en cuanto a los materiales que pueden usarse según la presente descripción, siempre que la membrana de estado sólido resultante pueda configurarse para incluir un poro transmembrana y configurarse con una diferencia de potencial a través de la membrana. Las membranas en estado sólido pueden estar hechas de materiales orgánicos e inorgánicos, incluyendo, por ejemplo, materiales microelectrónicos, materiales aislantes tales como Si3N4, AbO3, y SiO, polímeros orgánicos e inorgánicos tales como poliamida, copolímeros tribloque (por ejemplo, copolímeros tribloque PMOXA-PDMS-PMOXA ABA anfífilos), plásticos tales como Teflón® o elastómeros, tales como caucho de silicona curado por adición de dos componentes, y vidrios. Además, la membrana en estado sólido puede fabricarse a partir de una monocapa de grafeno, que es una lámina atómicamente delgada de átomos de carbono densamente empaquetados en una red de nido de abeja bidimensional, una multicapa de grafeno o una o más capas de grafeno mezcladas con una o más capas de otros materiales en estado sólido (publicación de patente PCT WO 2013/016486). Una membrana en estado sólido que contiene grafeno puede incluir al menos una capa de grafeno que es una nanocinta de grafeno o nanogap de grafeno, que puede usarse como un sensor eléctrico para caracterizar el polinucleótido diana (véase la publicación de patente PCT W<o>2013/016486). La membrana en estado sólido puede fabricarse mediante los métodos bien conocidos en la técnica. Por ejemplo, la membrana de grafeno puede prepararse mediante deposición química de vapor (CVD) o exfoliación a partir de grafito (publicación de patente PCT<w>O 2013/016486).
Las composiciones y métodos de la presente descripción pueden emplear un poro que se asiente en una barrera para la caracterización de un polinucleótido diana. Un poro puede estar hecho de materiales que son de origen biológico o no biológico. Por consiguiente, un poro incluye, por ejemplo, un poro biológico, un poro en estado sólido y un poro híbrido biológico y en estado sólido.
Un poro puede tener una funcionalidad asociada con ella que facilita la detección de la secuencia de nucleótidos en un polinucleótido. Por ejemplo, un poro puede incluir una enzima tal como la helicasa u otra funcionalidad unida, asociada con, o localizada cerca del poro para controlar la velocidad a la que los polinucleótidos transitan a través del poro. Un poro puede tener un circuito de detección o sensor asociado con él que incluye, por ejemplo, un circuito de pinzamiento de parche, un circuito de electrodo de efecto túnel o un circuito de medición de conductancia transversal (tal como una nanocinta de grafeno o un nanogap de grafeno). Un poro también puede incluir un sensor óptico que detecta un marcador que incluye, por ejemplo, un resto fluorescente o un resto generador de señal Raman, en el polinucleótido que determina una secuencia de nucleótidos basada en la interacción de un fragmento con el poro (por ejemplo, cuando pasa el fragmento a través del poro).
En realizaciones particulares, puede usarse un poro biológico, que incluye un poro de polipéptido y un poro de polinucleótido, en las composiciones y métodos de la presente descripción, siempre que el poro tenga una zona de constricción que permita el paso del polinucleótido a través de la barrera (por ejemplo, membrana). Una zona de constricción es una ubicación en el lumen del poro donde el bloqueo por un analito (por ejemplo, un polinucleótido o nucleótido) afecta a una señal detectable producida por el poro. Los poros que tienen una variedad de longitudes de la zona de constricción pueden emplearse en la composición y los métodos de la presente descripción que incluyen, por ejemplo, longitudes de al menos 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 nucleótidos. Alternativa o adicionalmente, pueden usarse longitudes de como máximo aproximadamente 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 nucleótido(s). Sin embargo, la longitud de la zona de constricción puede afectar a la calidad de la señal. Por ejemplo, las zonas de constricción más cortas pueden dar como resultado una mejor resolución de la translocación de nucleótidos o la precisión de reconstrucción. En una realización, el poro biológico tiene una zona de constricción de aproximadamente cinco nucleótidos o menos, los cinco o menos de cinco nucleótidos ubicados en la zona de constricción modulan la señal eléctrica, que tiene una mejor resolución de la translocación de nucleótidos que la señal eléctrica obtenida de más de cinco nucleótidos. En algunos casos, la mejora de la señal a ruido no da como resultado una mejora de la precisión de secuenciación para la constricción que es menor de 2 nt. Esto puede ocurrir si los homopolímeros mayores que la constricción más pequeña ya no pueden detectarse y la falta de repetición de lectura reduce la precisión cuando los nucleótidos se omiten debido al movimiento estocástico de la enzima. Por consiguiente, pueden usarse poros de polipéptidos y poros de polinucleótidos adecuados que tienen una zona de constricción de cinco nucleótidos o menos según la presente descripción. Dadas las enseñanzas y las directrices proporcionadas en el presente documento, los expertos en la técnica entenderán qué longitud de la zona de constricción es aplicable para una necesidad particular. Por ejemplo, los expertos en la técnica pueden emplear poros que tengan zonas de constricción más cortas en aplicaciones que requieran resultados de mayor calidad.
Un poro biológico es un poro que está hecho de materiales de origen biológico, que se extiende a través de una barrera (por ejemplo, membrana) que permite que iones y/o moléculas hidrosolubles crucen desde un lado de la barrera al otro lado de la barrera. Como con las membranas usadas como se establece en el presente documento, cuando se refiere a poros, el origen biológico se refiere a una estructura derivada o aislada de un entorno biológico tal como un organismo o célula, o una versión fabricada sintéticamente de una estructura biológicamente disponible. Los materiales de origen biológico incluyen, por ejemplo, polipéptido y polinucleótido. Por consiguiente, los poros biológicos incluyen, por ejemplo, poros de polipéptidos y poros de polinucleótidos.
Un poro de polipéptido reconstituido en una barrera (por ejemplo, membrana), tal como una bicapa lipídica, puede usarse para la secuenciación por nanoporos. Hay una variedad de poros de polipéptidos que pueden usarse según la presente descripción, siempre que el o los polipéptidos puedan formar una zona de constricción que permita el paso del polinucleótido diana a través de la barrera (por ejemplo, membrana). Dependiendo del polipéptido o polipéptidos implicados, el poro de polipéptido puede ser un monómero, un homopolímero o un heteropolímero. El poro de polipéptido puede incluir varias subunidades de repetición, tales como 7 u 8 subunidades. Por consiguiente, el poro de polipéptido puede ser, por ejemplo, un poro hexamérico, heptamérico u octamérico.
Los poros de polipéptidos incluyen, por ejemplo, un poro de haz de hélice a y un poro de barril p, así como todos los demás bien conocidos en la técnica. El poro del haz de hélice a incluye un poro formado por hélices a. Los poros de haz de hélice a adecuados incluyen, por ejemplo, proteínas de membrana interna y proteínas de membrana externa a, tales como la toxina WZA y ClyA. El poro de barril p incluye un poro que está formado por hebras p. Los poros de barril p adecuados incluyen, por ejemplo, p-toxinas, tales como a-hemolisina, toxina de ántrax y leucocidinas, y proteínas/porinas de membrana externa de bacterias, tales como porina de Mycobacterium smegmatis (Msp), que incluye MspA, porina F de membrana externa (OmpF), porina G de membrana externa (OmpG), fosfolipasa A de membrana externa y lipoproteína autotransportadora de Neisseria (NalP). Otros poros incluyen, por ejemplo, lisenina (véase, por ejemplo, el documento WO 2013 153359 o el homólogo MspA de Norcadia farcinica.
Un polipéptido de a-hemolisina es un poro de polipéptido heptamérico que puede usarse en los métodos y composiciones de la presente descripción. Está compuesto por un vestíbulo de 3,6 nM conectado a un barril p de ~5 nM de longitud, que contiene una constricción de 1,4 nM que permite el paso del polinucleótido monocatenario pero no del polinucleótido bicatenario. El poro de barril p cilíndrico de ~5 nM de longitud de a-hemolisina puede acomodar hasta aproximadamente 10 nucleótidos de una vez. Los nucleótidos ubicados en este barril p modulan significativamente la corriente de poro y posteriormente diluyen la firma iónica específica para un solo nucleótido en la constricción de poros más estrecha de 1,4 nm, lo que reduce la resolución general de la translocación de nucleótidos en aplicaciones de secuenciación.
MspA es un poro de polipéptido octamérico que puede usarse en las composiciones y métodos de la presente descripción. Contiene una única constricción de diámetro ~1,2 nM con una longitud de constricción de ~0,5 nm; el poro interno forma una forma de embudo cónico, en oposición a la estructura cilíndrica de la hemolisina a. Derington y col. demostraron la capacidad de MspA genéticamente modificada para discriminar entre conjuntos de tri-nucleótidos (AAA, GGG, TTT, CCC) con una mejora significativa de 3,5 veces en la eficacia de separación de nucleótidos respecto a la ahemolisina nativa (Derington y col., Proc. Natl. Acad. Sci. USA, 107:16060 (2010)). Se ha descrito que en experimentos que implican un polinucleótido monocatenario inmovilizado, se observó que tan solo tres nucleótidos dentro o cerca de la constricción de MspA contribuyen a la corriente de poro, una mejora significativa sobre los -10 nucleótidos conocidos que modulan la corriente iónica en la a-hemolisina nativa. Los autores hipotetizan que esto podría mejorarse aún más a quizás un solo nucleótido mediante mutagénesis específica del sitio, un objetivo de futuros mutantes MspA.
En algunos aspectos, el poro de polipéptido es una porina A (MspA) de Mycobacterium smegmatis. En algunos aspectos, la MspA tiene una secuencia de aminoácidos de SEQ ID NO: 1 o que tiene al menos 15 %, al menos 20 %, al menos 25 %, al menos 30 %, al menos 35 %, al menos 40 %, al menos 45 %, al menos 50 %, al menos 55 %, al menos 60 %, al menos 65 %, o al menos 70 %, al menos 75 %, al menos 80 %, al menos 85 %, al menos 90 %, al menos 95 % o al menos 99 % de homología con la SEQ ID NO: 1.
MspA es un poro de polipéptido adecuado. Además, se pueden usar mutantes de MspA en las composiciones y métodos de la presente descripción para regular la translocación de polinucleótidos a través del poro. El poro MspA usado en las realizaciones en el presente documento puede tener la secuencia de aminoácidos de SEQ ID NO: 1, correspondiente a GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGAD EFEGTLELGYQIGFPWSLGVGINFSYTTPNILINNGNITAPPFGLNSVITPNLFPGVSISA RLGNGPGIQEVATFSVRVSGAKGGVAVSNAHGTVTGAAGGVLLRPFARLIASTGDS VTTYGEPWNMN, que es la secuencia de MspA con las siguientes mutaciones: D90N, D91N, D93N, D118R, D134R y E139K. El mutante de poro MspA de SEQ ID NO: 1 se denomina “ M2 NNN” . Se pueden usar otros mutantes MspA en las composiciones y métodos de la presente descripción, que tienen al menos 15 %, al menos 20 %, al menos 25 %, al menos 30 %, al menos 35 %, al menos 40 %, al menos 45 %, al menos 50 %, al menos 55 %, al menos 60 %, al menos 65 %, o al menos 70 %, al menos 75 %, al menos 80 %, al menos 85 %, al menos 90 %, al menos 95 % o al menos 99 % de homología con la SEQ ID NO: 1. Una región de polipéptido o polipeptídica (o una región de polinucleótido o polinucleotídica) que tiene un cierto porcentaje (por ejemplo, 50 %) de homología con otra secuencia significa que, cuando se alinean, ese porcentaje de aminoácidos (o bases de nucleótidos) son los mismos en comparación con las dos secuencias. La alineación de dos secuencias para determinar su porcentaje de identidad de secuencia puede realizarse mediante el uso de programas de software conocidos en la técnica, como se describe en el presente documento. Las mutaciones en el polipéptido MspA nativo, incluyendo inserciones, deleciones, sustituciones u otras modificaciones seleccionadas de regiones particulares o residuos de aminoácidos específicos, pueden prepararse según métodos que son bien conocidos en la técnica, incluyendo mutagénesis específica del sitio del ácido nucleico que codifica el polipéptido MspA (Zoller, M.J., Curr. Opin. Biotechnol., 3:348-354, (1992)). Los mutantes MspA útiles también se exponen en el documento US 2012/0055792A1.
Un polipéptido MspA nativo o mutante usado en las composiciones y métodos de la presente descripción puede aislarse mediante una variedad de métodos bien conocidos en la técnica, por ejemplo, sistemas de expresión recombinante, precipitación, filtración en gel, intercambio iónico, fase inversa y cromatografía de afinidad, y similares. Otros métodos bien conocidos se describen en Deutscher y col., Guide to Protein Purification: Methods in Enzymology, Vol. 182, (Academic Press, (1990). Como alternativa, el polipéptido MspA nativo o mutante aislado de la presente descripción puede obtenerse mediante el uso de métodos recombinantes bien conocidos. Los métodos y condiciones para la purificación bioquímica del polipéptido MspA nativo o mutante de la presente descripción pueden elegirse por los expertos en la técnica, y la purificación puede monitorizarse, por ejemplo, mediante un ensayo funcional.
Un método ilustrativo para preparar un polipéptido MspA nativo o mutante es expresar el polinucleótido que codifica el polipéptido en una célula hospedadora adecuada, tal como una célula bacteriana, una célula de levadura u otra célula adecuada, mediante el uso de métodos bien conocidos en la técnica, y recuperar el polipéptido MspA nativo o mutante expresado, de nuevo usando métodos de purificación bien conocidos, tales como los descritos en el presente documento. Un polipéptido MspA nativo o mutante puede aislarse directamente a partir de células que se han transformado con vectores de expresión como se describe en el presente documento. El polipéptido MspA nativo o mutante expresado de forma recombinante también puede expresarse como polipéptidos de fusión con etiquetas de afinidad apropiadas, tales como glutatión S transferasa (GST) o poli His y purificarse por afinidad. Un polipéptido MspA nativo o mutante también puede producirse mediante síntesis química usando un método de síntesis de polipéptidos bien conocido por un experto en la técnica.
Un poro de polinucleótido reconstituido en una barrera (por ejemplo, membrana), tal como una bicapa lipídica, también puede usarse para secuenciación por nanoporos. El poro de polinucleótido es uno o más polinucleótidos que se extienden a través de una barrera (por ejemplo, membrana) y permiten que los iones y/o moléculas hidrosolubles fluyan desde un lado de la barrera al otro lado de la barrera. Cualquier poro de polinucleótido puede usarse según realizaciones particulares de la presente descripción, siempre que el polinucleótido o polinucleótidos puedan formar una zona de constricción que permita el paso del polipéptido diana a través de la barrera (por ejemplo, membrana). Los poros de polinucleótidos ilustrativos incluyen, por ejemplo, un poro de polinucleótido origami. El poro de polinucleótido origami cuyos patrones se extienden en dos o tres dimensiones se puede producir usando “ origami” como se describe en Rothemund, Nature, 440:297-302 (2006). El origen es una técnica genérica que hace uso de una cadena larga de polinucleótido genómico y muchas cadenas de polinucleótido “ grapa” sintéticas más cortas para crear una estructura extendida. Las estructuras originales de origami eran estructuras sustancialmente bidimensionales. La técnica del origami se ha extendido a estructuras tridimensionales (Douglas y col., Nature 459:414-418 (2009); Ke y col., Nano Letters, 6:2445-2447 (2009); Andersen y col., Nature 459:73-76 (2009)).
También se puede usar un poro en estado sólido en las composiciones y métodos de la presente descripción. El poro en estado sólido es un poro, que está hecho de materiales de origen no biológico, que se extiende a través de una barrera (por ejemplo, membrana) que permite que iones y/o moléculas hidrosolubles crucen desde un lado de la barrera al otro lado de la barrera.
Se puede formar un poro en estado sólido creando un poro en la barrera en estado sólido (por ejemplo, membrana). Por consiguiente, de manera similar a la membrana en estado sólido y como se describe en el presente documento, el poro en estado sólido puede estar formado por una variedad de materiales, que abarca tanto materiales inorgánicos como orgánicos.
Los poros en estado sólido adecuados incluyen, por ejemplo, óxido de aluminio, óxido de tantalio, óxido de titanio, dióxido de silicio, óxido de hafnio, óxido de circonio, nitruro de boro, nitruro de silicio, grafeno o nanoláminas de los mismos (por ejemplo, grafeno-AbO3), o cualquier combinación de los mismos (publicación de patente PCT WO 2013016486A1). El poro en estado sólido se puede hacer usando una herramienta de modelado de haz de iones controlada por retroalimentación personalizada, o usando un haz de electrones convergente enfocado de una pistola de emisión de campo (FEG) TEM para pulverizar de forma descompuesta un nanoporo en la membrana, o cualquier otro método bien conocido en la técnica (publicación de patente PCT WO 2013016486A1). Por ejemplo, un poro de nanoláminas de grafeno, tal como un poro de grafeno-AbO3, se puede hacer mediante perforación a través de una membrana de grafeno-AbO3usando un haz de electrones convergente enfocado de un FEG TEM (Venkatesan y col., ACS Nano., 6:441-450 (2012).
Se puede usar un poro híbrido biológico y en estado sólido en las composiciones y métodos de la presente descripción. El poro híbrido biológico y en estado sólido es un poro híbrido, que está hecho de materiales tanto de origen biológico como no biológico, que se extienden a través de una barrera (por ejemplo, membrana) que permite que iones y/o moléculas hidrosolubles crucen desde un lado de la barrera al otro lado de la barrera. Los materiales de origen biológico se han definido anteriormente e incluyen, por ejemplo, polipéptido y polinucleótido. Los materiales de origen no biológico se denominan materiales en estado sólido, como se describe en el presente documento.
Por consiguiente, los poros híbridos biológicos y en estado sólido incluyen, por ejemplo, un poro híbrido polipéptido-en estado sólido y un poro híbrido polinucleótido-en estado sólido. El poro híbrido polipéptido-en estado sólido incluye uno o más polipéptidos y material en estado sólido. El poro híbrido polinucleótido en estado sólido incluye uno o más polinucleótidos y material en estado sólido. Los poros híbridos biológicos y en estado sólido se preparan mediante la modificación del poro de polipéptido o polinucleótido con el poro en estado sólido (véase la publicación de patente PCT WO 2013/016486). Los ejemplos de poros de polipéptidos, poros de polinucleótidos y poros en estado sólido se han descrito anteriormente.
Un aparato de secuenciación por nanoporos puede tener poros singulares o múltiples. Pueden usarse múltiples poros como una matriz de nanoporos para caracterizar más de un nucleótido diana, que tienen composiciones iguales o diferentes. Los números ilustrativos de los múltiples poros utilizados en el presente documento incluyen, por ejemplo, al menos 1,4, 16, 64, 256, 512, 1028, 4096, 16384, 32768, 100000, 1 millón, 10 millones de poros o más. En realizaciones preferidas, el número de múltiples poros será mayor de 4096. Las matrices de nanoporos son conocidas en la técnica y se describen, por ejemplo, en la publicación de patente PCT WO 2013/016486. Por ejemplo, las matrices de alta densidad de poros en estado sólido de ~15 nM de diámetro se pueden fabricar usando litografía por haz de electrones y etapas de grabado químico con iones reactivos en membranas de SiN/AbO3, que facilitan el análisis de alto rendimiento de moléculas de polinucleótidos.
Un método de la presente descripción puede utilizar una diferencia de potencial a través de una barrera (por ejemplo, una membrana). La diferencia de potencial puede ser una diferencia de potencial eléctrico, diferencia de potencial químico o una diferencia de potencial electroquímico. Se puede establecer una diferencia de potencial eléctrico a través de la barrera (por ejemplo, membrana) a través de una fuente de voltaje que inyecta o administra corriente a al menos uno de los grupos de líquidos. Se puede establecer un potencial químico a través de la barrera mediante una diferencia en la composición iónica de los dos grupos. Una diferencia de potencial electroquímico puede establecerse por una diferencia en la composición iónica de los dos grupos en combinación con un potencial eléctrico. La diferente composición iónica puede ser, por ejemplo, diferentes iones en cada grupo o diferentes concentraciones de los mismos iones en cada grupo.
La aplicación de un potencial eléctrico a través de un poro para forzar la translocación de un polinucleótido a través del poro es bien conocida en la técnica y puede usarse según la presente descripción (Deamer y col., Trends Biotechnol., 18:147-151 (2000); Deamer y col., Ace Chem Res., 35:817-825 (2002); y Li y col., Nat Mater., 2(9):611-615 (2003). Un método de la presente descripción puede llevarse a cabo con un voltaje aplicado a través de un poro. El intervalo del voltaje puede seleccionarse de 40 mV hasta más de 1 V. Normalmente, un método de la presente descripción se ejecutará en el intervalo de 100 a 200 mV. En casos específicos, el método se ejecuta a 140 mV o 180 mV. No se requiere que los voltajes sean estáticos durante el movimiento del motor. La polaridad del voltaje se aplica normalmente de tal manera que el polinucleótido cargado negativamente es impulsado electroforéticamente en el poro. En algunos casos, el voltaje se puede reducir, o la polaridad se invierte, para facilitar la función apropiada del motor.
En algunos casos, la aplicación de diferenciales de presión puede utilizarse para forzar la translocación de un polinucleótido a través de un poro. Pueden utilizarse diferenciales de presión en lugar de potenciales eléctricos u otras diferencias de potencial en los métodos ilustrados en el presente documento.
Los métodos de la presente descripción producen una o más señales que corresponden a la translocación de uno o más nucleótidos a través de un poro. Por consiguiente, a medida que un polinucleótido diana transita a través de un poro, la corriente a través de la barrera cambia debido al bloqueo dependiente de la base de la constricción, por ejemplo. La señal de ese cambio en la corriente puede medirse mediante el uso de cualquiera de una variedad de métodos como se describe en el presente documento o como se conoce de otra manera en la técnica. Cada señal es única para la especie de nucleótido o nucleótidos en el poro de manera que la señal resultante se puede usar para determinar una característica del polinucleótido como se ha descrito anteriormente. Por ejemplo, puede determinarse la identidad de una o más especies de nucleótidos que produce una señal característica. Las señales útiles en los métodos de la presente descripción incluyen, por ejemplo, señales eléctricas y señales ópticas, que se describen más adelante. En algunos aspectos, la señal eléctrica puede ser una medición de corriente, voltaje, efecto túnel, resistencia, voltaje, conducción; o medición eléctrica transversal (publicación de patente PCT WO 2013/016486. En algunos aspectos, la señal eléctrica es una corriente eléctrica que pasa a través de un poro.
Una señal eléctrica detectada en un método expuesto en el presente documento puede ser una corriente eléctrica, que es un flujo de carga eléctrica, que pasa a través de un poro (Deamer y col., Trends Biotechnol., 18:147-151 (2000); Deamer y col., Ace Chem Res., 35:817-825 (2002); y Li y col., Nat Mater., 2(9):611-615 (2003). Como se describe en el presente documento, las señales eléctricas pueden medirse usando el circuito de detección acoplado a un poro, por ejemplo, un circuito de pinzamiento de parche o un circuito de electrodo de efecto túnel. Los ejemplos de señales de voltaje, túnel, resistencia y conductancia que pueden detectarse y aparatos para su detección son conocidos en la técnica como se describe, por ejemplo, en Wanunu, Phys Life Rev., 9(2):125-58 (2012); y Venkatesan y col., Nat Nanotechnol., 6(10):615-24 (2011).
Las señales ópticas útiles en los métodos de la presente descripción incluyen, por ejemplo, fluorescencia y señal Raman. Las señales ópticas pueden generarse acoplando el nucleótido diana a una etiqueta generadora de señal óptica, por ejemplo, un resto fluorescente o un resto generador de señal Raman. Por ejemplo, en dela Torre y col., Nanotechnology, 23(38):385308 (2012), se empleó el esquema óptico de microscopía de fluorescencia de reflexión interna total (TIRF) para iluminar un área amplia de la membrana recubierta con TiO2. En Soni y col., Rev Sci Instrum., 81(1 ):014301 (2010), se usó un método para integrar dos realizaciones de medición de una sola molécula, a saber, microscopía de reflexión interna total y detección eléctrica de biomoléculas mediante el uso de nanoporos.
Como se describe en el presente documento, los poros pueden acoplarse con un circuito de detección, que incluye, por ejemplo, un circuito de pinzamiento de parche, un circuito de electrodo de efecto túnel o un circuito de medición de conductancia transversal (tal como una nanocinta de grafeno o un nanogap de grafeno), para registrar las señales eléctricas en las presentes realizaciones. Además, el poro también puede acoplarse con un sensor óptico que detecta marcadores, por ejemplo, un resto fluorescente o un resto generador de señal Raman, en los polinucleótidos.
Los métodos de secuenciación por nanoporos pueden emplear un mecanismo para ralentizar la translocación de un polinucleótido diana a través de un poro. Por ejemplo, una proteína de unión a polinucleótido, tal como una helicasa, translocasa o polimerasa, puede unirse o incorporarse para regular la tasa de translocación. La unión puede ser, por ejemplo, transitoria o persistente y puede estar mediada por el polinucleótido diana a medida que se extrae a través del poro o por una variedad de polipéptidos, enlazadores químicos o restos de captura bien conocidos en la técnica. Las técnicas ilustrativas se describen en Manrao y col., Nat Biotechnol., 30(4):349-353 (2012) y Cherf y col., Nat Biotechnol., 30(4):344-348 (2102). Se puede usar una helicasa u otro motor molecular para ralentizar o detener la translocación de un polinucleótido diana a través de un poro. Por ejemplo, cuando se usa un motor que hidroliza nucleótidos para efectuar la translocación, el nucleótido puede omitirse del motor y/o el motor puede someterse a un inhibidor (por ejemplo, un análogo de nucleótido no hidrolizable) de manera que el polinucleótido diana permanece unido al motor y no se transloca apreciablemente a través del poro. En algunas realizaciones, se puede permitir que la translocación se produzca administrando nucleótidos al motor y/o retirando el inhibidor. Un método de la presente descripción puede incluir una etapa de poner en contacto un poro con un polinucleótido diana y una helicasa Hel308 para controlar la tasa de translocación del polinucleótido a través del poro. Como se describe más adelante, una helicasa Hel308 puede caracterizarse como una helicasa de ADN dependiente de ATP y una helicasa de la superfamilia 2. Dadas las enseñanzas y orientación proporcionadas en el presente documento, un experto en la técnica podría seleccionar o adaptar adecuadamente cualquier helicasa Hel308 para su uso según las presentes realizaciones. Las helicasas Hel308 adecuadas se describen más adelante.
En algunos aspectos de un método expuesto en el presente documento, la translocación del polinucleótido diana está en una dirección opuesta a la dirección de una corriente a través del poro. En otros aspectos, una translocación del polinucleótido diana está en la misma dirección que la dirección de una corriente que pasa a través del poro.
Por consiguiente, un método de la presente descripción puede llevarse a cabo en al menos dos modos, donde una translocación del polinucleótido diana es opuesta o está en la misma dirección, por ejemplo, la dirección de una corriente u otro potencial a través de un poro. Este resultado se puede lograr uniendo una helicasa Hel308 de la presente descripción al extremo 5' o 3' del polinucleótido diana. Cuando se refiere a un polinucleótido bicatenario, la orientación 5' o 3' se refiere a una sola cadena dentro del polinucleótido bicatenario. Por lo tanto, una helicasa Hel308 puede sacar o alimentar el polinucleótido desde o hacia dentro del poro, es decir, en la dirección contra la fuerza sobre el polinucleótido generada por el gradiente de voltaje (véanse las figuras 13A-13E y 14A-14D), o usar la helicasa para regular la velocidad de translocación a medida que el polinucleótido se mueve en la misma dirección que la fuerza generada por el gradiente de voltaje u otro potencial (véanse las figuras 15A-15C).
Las Figuras 13A-13E ilustran la translocación de polinucleótidos controlada por la helicasa Hel308 contra la fuerza generada por un potencial tal como un gradiente de voltaje, por ejemplo, en función de un complejo de polinucleótido ternario con un sitio de unión saliente 3' de helicasa Hel308 y un anclaje bicapa de colesterol, según algunas realizaciones. El círculo relleno (•) indica un fosfato 5'. El rombo relleno (♦ ) indica un colesterol 3'. El círculo semitransparente relleno con muesca indica la helicasa Hel308. Las líneas discontinuas indican una longitud arbitraria. Las flechas grises grandes indican la dirección del movimiento del polinucleótido (con o contra el campo aplicado) del polinucleótido dentro o fuera del poro. Las flechas negras grandes indican la dirección de la translocación de la helicasa a lo largo del polinucleótido, que va de 3' a 5'. El poro (objeto cónico con forma de embudo) se asienta en la membrana (líneas horizontales dobles).
Las Figuras 13A-13E ilustran el uso de un complejo de polinucleótido ternario con un sitio de unión saliente 3' de helicasa Hel308 y un anclaje bicapa de colesterol para secuenciación de polinucleótidos. El polinucleótido marcado con colesterol “ i” es opcional y se usa para hibridarse con el polinucleótido diana “ ii” que se translocará a través del poro y facilita el reclutamiento de todo el complejo a la bicapa lipídica (Figura 13A). El fosfato 5' se empuja a través del poro mediante, por ejemplo, un gradiente de voltaje, lo que hace que el extremo 5' del polinucleótido diana “ ii” entre primero en el poro, lo que provoca que el polinucleótido marcado con colesterol se desprenda (Figura 13B). A medida que el polinucleótido que contiene fosfato se empuja a través del poro al lado trans, el segundo polinucleótido hibridado “ iii” se desprende porque el poro es demasiado estrecho para permitir que el polinucleótido bicatenario se transloque (Figura 13C). Un propósito del polinucleótido iii es crear un sitio de unión de helicasa Hel308, generalmente un saliente de polinucleótido monocatenario 3' de aproximadamente 8 nucleótidos, que pueda unirse preferiblemente una helicasa Hel308. Además, al forzar a la molécula de helicasa Hel308 a unirse al extremo 3' del polinucleótido de translocación, se maximiza la longitud del polinucleótido que se transloca a través del poro. El polinucleótido “ iii” del complejo puede ser de cualquier longitud, incluyendo una longitud arbitraria, y el extremo 3' no necesita ser adyacente al extremo 5' el polinucleótido “ i” . Al alcanzar la boca del poro, la helicasa Hel308 tira del polinucleótido contra el gradiente de voltaje mediante su actividad de translocasa 3' a 5' de vuelta a la cámara cis (Figuras 13D y 13E).
Las Figuras 14A-14D también ilustran la translocación de polinucleótidos controlada por la helicasa Hel308 contra la fuerza generada por un potencial tal como un gradiente de voltaje, por ejemplo, basado en un complejo de polinucleótido ternario con un sitio de unión saliente 3' de helicasa Hel308 y un anclaje bicapa de colesterol, según algunas realizaciones. El círculo relleno (•) indica un fosfato 5'. El rombo relleno (♦ ) indica un colesterol 3'. El círculo semitransparente relleno con muesca indica la helicasa Hel308. Las líneas discontinuas indican una longitud arbitraria. Las flechas grises grandes indican la dirección del movimiento del polinucleótido (con o contra el campo aplicado) del polinucleótido dentro o fuera del poro. Las flechas negras grandes indican la dirección de la translocación de la helicasa a lo largo del polinucleótido, que va de 3' a 5'. El poro (objeto cónico con forma de embudo) se asienta en la membrana (líneas horizontales dobles). Sin embargo, este esquema ilustra el uso de un único polinucleótido de hibridación “ i” para crear un saliente 3' en el polinucleótido diana “ ii” para que una helicasa Hel308 se una a, y también contenga un resto de colesterol opcional. Es posible que la helicasa Hel308 pueda unirse en cualquier lugar de las regiones monocatenarias del polinucleótido “ ii” . Se muestran múltiples moléculas de helicasa Hel308 y se indican por “ E1” , “ E2” y “ E3” La helicasa que llegue primero a la boca del poro iniciará el proceso de translocación controlada al lado cis. En caso de fallo, se produciría una translocación incontrolada hasta que la siguiente molécula de helicasa Hel308 unida alcance la boca del poro y comience la translocación controlada.
Las Figuras 15A-15C ilustran el uso de una helicasa Hel308 para regular la velocidad de translocación de polinucleótidos a medida que el polinucleótido se mueve en la misma dirección que la fuerza generada por un potencial tal como un gradiente de voltaje. El círculo semitransparente relleno con muesca indica la helicasa Hel308. Las líneas discontinuas indican una longitud arbitraria. Las flechas grises grandes indican la dirección del movimiento del polinucleótido con el campo aplicado en el poro. Las flechas negras grandes indican la dirección de la translocación de la helicasa a lo largo del polinucleótido, que va de 3' a 5'. El poro (objeto cónico con forma de embudo) se asienta en la membrana (líneas horizontales dobles). En este esquema ilustrativo, el polinucleótido diana entra primero en el extremo 3' del poro. La helicasa Hel308 controla la velocidad de translocación del polinucleótido en el poro a medida que se transloca de 3' a 5' a lo largo del polinucleótido de translocación.
Como se ha descrito anteriormente, una etapa de translocación fraccionada en el contexto de una helicasa Hel308 puede referirse a una translocación parcial de uno o más nucleótidos del polinucleótido diana a lo largo de la helicasa y/o el poro. Por consiguiente, una etapa de translocación fraccionada se refiere a una porción de una etapa de nucleótidos que es menor que el ciclo completo de translocación. Una etapa de translocación fraccionada puede ocurrir entre la unión de ATP y la hidrólisis cuando se produce un cambio conformacional. Se pueden requerir una o más etapas de translocación fraccionada para una etapa de nucleótidos completa. El cambio conformacional divide efectivamente un ciclo completo de translocación en al menos dos etapas de translocación parcial o fraccionada.
Las etapas de translocación parcial o fraccionada pueden emplearse de la misma manera para generar una señal única para caracterizar uno o más nucleótidos que transitan a través de un poro. Por lo tanto, los métodos de la presente descripción pueden producir al menos dos señales eléctricas debido a un cambio en la corriente correspondiente a cada etapa de translocación fraccionada para cada una o más translocación de nucleótidos a través de un poro. Por consiguiente, en algunos aspectos, una etapa de translocación fraccionada incluye una primera etapa de translocación fraccionada de un ciclo completo de translocación de la helicasa Hel308. En otros aspectos, la etapa de translocación fraccionada incluye una segunda etapa de translocación fraccionada de un ciclo completo de translocación de la helicasa Hel308. Cada primera o segunda etapa de translocación fraccionada se puede usar sola o junto con su pareja, por ejemplo, la segunda o primera etapa de translocación fraccionada, respectivamente, para caracterizar uno o más nucleótidos que transitan una zona de constricción de un poro.
Por ejemplo, como se describe adicionalmente en el Ejemplo I, una helicasa Hel308 puede unirse a ATP y sufrir un cambio conformacional, proporcionando una primera etapa de translocación fraccionada, y la helicasa Hel308 puede translocar uno o más nucleótidos del polinucleótido diana a lo largo de la helicasa y/o el poro mediante hidrólisis de ATP, proporcionando una segunda etapa de translocación fraccionada. Cualquiera o ambas de las primera y segunda etapas de translocación fraccionada pueden usarse para determinar, por ejemplo, el nucleótido o la secuencia de nucleótidos del uno o más nucleótidos que generan la señal. Cuando una señal se genera por más de un nucleótido, la porción del polinucleótido que genera la señal se denomina palabra. Por consiguiente, tales palabras de nucleótidos pueden tener una longitud de al menos 4, 5, 6, 7, 8, 9, 10 o más nucleótidos y corresponden a la longitud de la zona de constricción del poro. Como alternativa o adicionalmente, las palabras de nucleótidos pueden tener una longitud como máximo de 10, 9, 8, 7, 6, 5 o 4 o menos nucleótidos de longitud.
Como se ha descrito anteriormente y se ilustra más adelante en el Ejemplo III, uno o más residuos de nucleótidos en el polinucleótido pueden identificarse mediante el uso de señales eléctricas obtenidas de dos etapas fraccionadas de un ciclo completo de translocación. El empleo de las señales de ambas etapas de translocación fraccionada proporciona una señal duplicada para el mismo uno o más nucleótidos y permite una mayor precisión dentro de una sola determinación. Por consiguiente, el empleo de señales de ambas etapas fraccionadas de translación puede tener como resultado una mayor precisión de caracterización, con tasas de error reducidas entre el 25 y el 50 % en comparación con la identificación de uno o más nucleótidos usando una única señal eléctrica u otra obtenida de un ciclo de translocación completo. De manera similar, el empleo de señales de ambas etapas fraccionadas de traducción puede tener como resultado tasas de error reducidas en al menos el 5 %, 10 %, 20 %, 30 %, 40 %, 45 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 % 85 %, 90 % o más. Dadas las enseñanzas y las directrices proporcionadas en el presente documento, los expertos en la técnica sabrán cómo ajustar la precisión para un propósito determinado, tal como, por ejemplo, disminuyendo el tamaño de la zona de constricción como se ha descrito anteriormente para aumentar la resolución de la translocación de nucleótidos.
La información adicional obtenida de las etapas de translocación fraccionada se puede usar para hacer avanzar la secuenciación por nanoporos de varias formas. Por ejemplo, las mediciones obtenidas de las etapas de translocación fraccionada para la misma palabra de nucleótidos pueden usarse en algoritmos para mejorar la precisión de la lectura de nucleótidos del nanoporo. Las mediciones obtenidas de las etapas de translocación fraccionada para la misma palabra de nucleótidos se pueden usar para reducir las tasas de error de lectura de homopolímero porque la misma palabra de nucleótidos se lee dos veces dentro de una sola determinación. Por consiguiente, las mediciones obtenidas de etapas de translocación fraccionada para la misma palabra de nucleótido duplica la resolución resoluble de la respuesta de translocación de polinucleótidos nativa, lo que da como resultado una resolución mejorada de patrones específicos de secuencia. Una utilización de este último es los algoritmos de reconocimiento de patrones específicos de secuencia para detectar repeticiones de secuencia o polimorfismos de un solo nucleótido (SNP).
Como se ha expuesto anteriormente, un método puede incluir (a) causar una diferencia de potencial a través de un poro en contacto con una helicasa Hel308 y un polinucleótido diana; (b) medir una o más señales producidas por una o más etapas de translocación fraccionada del polinucleótido diana a través del poro, y (c) caracterizar el polinucleótido diana a partir de la señal eléctrica de las etapas de translocación fraccionada. En algunos aspectos, el método incluye además repetir las etapas (a) -(c) una o más veces. Al repetir las etapas (a) -(c), se pueden caracterizar nucleótidos adyacentes o palabras de nucleótidos adyacentes. La repetición de las etapas (a) -(c) se puede realizar según se desee hasta que parte o la totalidad del polinucleótido diana se caracterice. Por ejemplo, la secuencia de una porción o la totalidad de un polinucleótido diana puede determinarse mediante cualquier número deseado de iteraciones de las etapas (a) -(c). Por consiguiente, pueden determinarse una o más características para todo o parte de un polinucleótido diana.
Como se describe en el presente documento, cualquier helicasa Hel308 o variante de la misma puede usarse según las presentes realizaciones. Las helicasas Hel308 ilustrativas se presentan a continuación en las Tablas 1 y 2.
Tabla 1. Helicasas Hel308 ilustrativas
En la Tabla 2 a continuación se muestran más realizaciones de helicasas Hel308, así como los motivos Hel308, y los motivos Hel308 extendidos.
Tabla 2. Helicasas Hel308 ilustrativas, motivos Hel308 y motivos Hel308 extendidos.
______ ______
Una variante o mutante de una helicasa Hel308, que conserva la unión de polinucleótidos y las actividades enzimáticas de helicasa, también se puede usar en las presentes realizaciones. Dicha variante o mutante puede obtenerse según métodos que son bien conocidos en la técnica, que incluyen mutagénesis específica del sitio del ácido nucleico que codifica una helicasa Hel308 nativa (Zoller, M.J., Curr. Opin. Biotechnol., 3:348-354, (1992)).
Además, como se ha indicado anteriormente y como se conoce en la técnica, las helicasas Hel308 pertenecen a la familia SF2 y son helicasas 3' a 5' (que también pueden denominarse helicasas tipo A). Los dominios centrales de diversas helicasas pueden incluir motivos comunes entre sí, tales como los pliegues de unión a RecA que contienen el motivo Walker A (que también se puede denominar motivo I) y el motivo Walker B (que también se puede denominar motivo II) implicado en la unión a nucleótidos y la hidrólisis, y el motivo VI. Para más detalles, véase Flechsig y col., “ In Silico Investigation of Conformational Motions in Superfamily 2 Helicase Proteins” , PLoS One: 6(7): e 21809 (2011). Además, las helicasas de la familia SF2 pueden compartir nueve motivos conservados, que pueden denominarse Q, I, Ia, Ib, II, III, IV, V y VI. Debido a la secuencia del motivo II (DEAD (SEQ ID NO: 2) o DEAH (SEQ ID NO: 3) o DEXH), la familia de la helicasa SF2 también se puede definir como proteínas de caja DEAD (SEQ ID NO: 2) o helicasas de caja DEAH (SEQ ID NO: 3). Las helicasas incluidas en la familia SF2 incluyen la familia similar a RecQ y las enzimas similares a Snf2. Muchas helicasas SF2 son de tipo A, con algunas excepciones tales como la familia XPD. Los estudios de cristalografía de rayos X de la familia SF2 sugieren que los motivos de helicasa conservados están estrechamente asociados en la estructura terciaria de la proteína, y que pueden formar un gran dominio funcional. Para más detalles, véase Tuteja y col., “ Unraveling DNA Helicases: Motif, structure, mechanism and function” , European Journal of Biochemistry 271(10): 1849 1863 (2004), y Hall y col., “ Helicase motifs: the engine that powers DNA unwinding” , Molecular Microbiology 34: 867-877 (1999). La Figura 16, que está adaptada de Tuteja, ilustra esquemáticamente diversos motivos que se han identificado en la familia SF2, por ejemplo, helicasas de caja DEAD (SEQ ID NO: 2), de las cuales Hel308 es un miembro. Como se describe en Tuteja, los cuadros abiertos representan motivos conservados. La secuencia consenso de cada motivo de helicasa se representa mediante códigos de una sola letra, por ejemplo, “ C” en la Figura 16 puede ser D, E, H, K o R; “ O” en la Figura 16 puede ser S o T; y “X” en la Figura 16 puede ser cualquier aminoácido. Los nombres asignados a los motivos, por ejemplo, Q, I, Ia, Ib, II, III, IV, V y VI, también se muestran en la Figura 16. Como se señaló más arriba, el motivo I puede denominarse motivo Walker A, y se denomina en Tuteja como ATPaseA Walker I, y el motivo II puede denominarse motivo Walker B, y se hace referencia en Tuteja como ATPaseB Walker II. Los números entre los motivos, a los que apuntan las flechas, son intervalos típicos de residuos de aminoácidos interpuestos entre los motivos.
Además, como se describe en el documento WO 2013/057495, una helicasa Hel308 puede incluir restos de aminoácidos Q-X1-X2-G-R-A-G-R (SEQ ID NO: 66), en el cual X1 puede ser C, M o L; X1 puede ser C; X2 puede ser cualquier residuo, que incluye un residuo hidrófobo o neutro, tal como A, F, M, C, V, L, I, S, T, P o R. Opcionalmente, el terminal R en el motivo o motivos anteriores puede acoplarse a P.
Teniendo en cuenta las enseñanzas y orientación que se proporcionan en el presente documento, un experto en la técnica podría determinar si una helicasa de referencia es una helicasa Hel308 determinando la identidad de la secuencia o la alineación con una o más de las helicasas Hel308 ilustradas anteriores.
Además, dadas las enseñanzas y directrices proporcionadas en el presente documento, un experto en la técnica podría mutar adecuadamente una helicasa Hel308 para ralentizar la translocación fraccionada de un polinucleado a través de un poro, por ejemplo, ralentizar una etapa de hidrólisis que realiza la helicasa Hel308, mutando un motivo de la Hel308 análogamente como un motivo homólogo de otra proteína de una manera que puede ralentizar la hidrólisis. A modo de ejemplo, Tanaka y col., “ATPase/helicase motif mutants of Escherichia coli PriA protein essential for recombinationdependent DNA replication” , Genes to Cells 8: 251-261 (2003), describe mutantes de la proteína Pria (una helicasa tipo DEXH) que portan sustituciones de aminoácidos en sus motivos conservados de la ATPasa/ADN helicasa, concretamente los motivos Walker A, B y QXXGRXGR. Según Tanaka, ciertos mutantes estaban muy comprometidos en la hidrólisis de ATP en ciertas condiciones, y todas las proteínas mutantes de Walker A y Walker B mostraron actividad de ADN helicasa muy atenuada en ciertas condiciones. Por consiguiente, se puede esperar que las mutaciones en los motivos Walker A y Walker B de una helicasa Hel308 que son análogas a las descritas en Tanaka atenúen la actividad de la helicasa de ADN o la hidrólisis lenta de ATP, lo que puede esperarse que ralentice la translocación fraccionada de un polinucleótido a través de un poro y, por lo tanto, potencie la caracterización de ese polinucleótido. Como otro ejemplo, Hishida y col., “ Role of Walker Motif A of RuvB Protein in Promoting Branch Migration of Holliday Junctions: Walker motif A mutations affect ATP binding, ATP hydrolyzing, and DNA binding activities of RuvB” , Journal of Biological Chemistry 274(36): 25335-25342 (1999), describen mutantes de la proteína RuvB de Escherichia coli, una ADN helicasa hexamérica dependiente de ATP. Según Hishida, ciertas mutaciones puntuales en el motivo Walker A afectaron las actividades de RuvB de la hidrólisis de ATP y la unión de ATP, así como las de la unión al ADN, la formación de hexámeros y la promoción de la migración de ramas. Por consiguiente, se puede esperar que las mutaciones en los motivos Walker A de una helicasa Hel308 que son análogas a las descritas en Hishida afecten a la hidrólisis de ATP y la unión de ATP, lo que puede esperarse que ralentice la translocación fraccionada de un polinucleótido a través de un poro y, por lo tanto, puede mejorar la caracterización de ese polinucleótido en ciertas realizaciones.
Por consiguiente, la descripción proporciona un método para caracterizar un polinucleótido diana. El método puede incluir (a) aplicar una diferencia de potencial a través de un poro en contacto con una helicasa Hel308 y un polinucleótido diana; (b) medir una o más señales producidas por una o más etapas de translocación fraccionada por dicha helicasa Hel308 de dicho polinucleótido diana a través de dicho poro; y (c) caracterizar dicho polinucleótido diana a partir de dicha una o más señales producidas por dichas etapas de translocación fraccionada.
La descripción proporciona además un método para caracterizar un polinucleótido diana en donde la diferencia de potencial comprende una diferencia de potencial eléctrico. También se proporciona un método para caracterizar un polinucleótido diana en donde la señal incluye una señal eléctrica o una señal óptica. La señal eléctrica puede ser una medición seleccionada de corriente, voltaje, efecto túnel, resistencia, potencial, voltaje, conductancia; y medición eléctrica transversal. La señal eléctrica incluye una corriente eléctrica que pasa a través del poro.
En otros aspectos, la descripción proporciona un método para caracterizar un polinucleótido diana en donde la etapa de translocación fraccionada incluye una primera etapa de translocación fraccionada de un ciclo de translocación completo de la helicasa Hel308. La etapa de translocación fraccionada también puede incluir una segunda etapa de translocación fraccionada de un ciclo completo de translocación de la helicasa Hel308. La translocación del polinucleótido diana puede estar en una dirección opuesta a la fuerza aplicada sobre el polinucleótido que se transloca a través del poro o en la dirección de la fuerza aplicada en el polinucleótido que se transloca a través del poro.
Además, se proporciona un método para caracterizar un polinucleótido diana en donde uno o más residuos de nucleótidos en el polinucleótido diana se caracterizan usando señales eléctricas obtenidas de dos etapas fraccionadas de un ciclo de translocación completo con una precisión mayor del 50 % en comparación con la caracterización de uno o más nucleótidos usando una única señal eléctrica obtenida de un ciclo de translocación completo.
Además, se proporciona un método para caracterizar un polinucleótido diana en donde el poro es un poro biológico. El poro biológico puede ser un poro de polipéptido o un poro de polinucleótido. En algunos aspectos, el poro del polipéptido tiene una zona de constricción de cinco nucleótidos o menos. En otros aspectos, el poro de polipéptido incluye una porina A de Mycobacterium smegmatis (MspA). La MspA puede tener una secuencia de aminoácidos de SEQ ID NO: 1 o que tiene al menos 15 %, al menos 20 %, al menos 25 %, al menos 30 %, al menos 35 %, al menos 40 %, al menos 45 %, al menos 50 %, al menos 55 %, al menos 60 %, al menos 65 %, o al menos 70 % de homología con la SEQ ID NO: 1.
También se proporciona un método para caracterizar un polinucleótido diana en donde el poro es un poro en estado sólido o un poro híbrido biológico y en estado sólido. El poro híbrido biológico y en estado sólido incluye un poro híbrido polipéptido-en estado sólido o un poro híbrido polinucleótido-en estado sólido.
La descripción proporciona adicionalmente un método para caracterizar un polinucleótido diana en donde la helicasa Hel308 es una helicasa que se muestra en las Tablas 1 y 2 o una variante de la misma. Además, se proporciona un método para caracterizar un polinucleótido diana en donde el polinucleótido diana se selecciona del grupo que consiste en un polinucleótido monocatenario, bicatenario y parcialmente bicatenario.
En algunas realizaciones, la caracterización del polinucleótido a partir de dichas señales producidas por dichas etapas de translocaciones fraccionadas comprende aplicar un algoritmo de Viterbi modificado.
En algunas realizaciones, el método incluye además (d) después de la etapa (c), variar al menos un parámetro para variar una temporización de una o más etapas de translocación fraccionada por dicha helicasa Hel308 de dicho polinucleótido diana a través de dicho poro; y (e) repetir las etapas (a)-(c) usando el al menos un parámetro variado. El método puede incluir además combinar las señales producidas durante las etapas (c) y (e) y caracterizar dicho polinucleótido diana basándose en las señales combinadas. En algunas realizaciones, el al menos un parámetro variado se selecciona del grupo que consiste en temperatura, concentración de sal, concentración de cofactor, concentración de producto de ATP (tal como pirofosfato inorgánico), concentración de ADP, pH y la helicasa Hel308 particular usada.
En algunas realizaciones, dicha caracterización comprende detectar e identificar niveles en una o más señales y determinar y emitir una secuencia del polinucleótido diana basándose en los niveles detectados e identificados.
De manera ilustrativa, dicha detección e identificación de los niveles en una o más señales incluye emitir uno o más de niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel.
Dicha determinación y emisión de la secuencia del polinucleótido diana basándose en los niveles detectados e identificados puede incluir tomar como entrada uno o más de niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel, leer una pluralidad de secuencias basadas en dicha entrada, y seleccionar y emitir al menos una de las secuencias leídas basándose en información de confianza respecto a la pluralidad de secuencias leídas.
Dicha determinación y emisión de la secuencia del polinucleótido diana basándose en los niveles detectados e identificados puede incluir tomar como entrada uno o más de niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel, leer una pluralidad de secuencias basadas en dicha entrada, y seleccionar y concatenar entre sí partes de una pluralidad de las secuencias leídas basándose en información de confianza respecto a las partes de la pluralidad de secuencias leídas.
Dicha determinación y emisión de la secuencia del polinucleótido diana basándose en los niveles detectados e identificados puede incluir tomar como entrada uno o más de niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel, leer una pluralidad de secuencias basadas en dicha entrada, comparar las secuencias leídas con las secuencias modelo, y seleccionar y emitir al menos una de las secuencias leídas basándose en información de confianza respecto a la comparación de la secuencia leída con la secuencia modelo.
Dicha determinación y emisión de la secuencia del polinucleótido diana basándose en los niveles detectados e identificados puede incluir tomar como entrada uno o más de niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel, leer una pluralidad de secuencias basadas en dicha entrada, comparar las secuencias leídas con las secuencias modelo, y seleccionar y concatenar entre sí partes de una pluralidad de las secuencias leídas basándose en información de confianza respecto a la comparación de partes de la pluralidad de secuencias leídas con la secuencia modelo.
La presente descripción también proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana a través de un poro. El método puede incluir: (a) aplicar una diferencia de potencial a través de un poro en contacto con una helicasa Hel308 y un polinucleótido diana; (b) poner en contacto la helicasa Hel308 con una concentración de un sustrato de helicasa Hel308 que es diferente de una concentración de referencia del sustrato, produciendo la concentración de sustrato un cambio en la duración de una etapa de translocación fraccionada proporcional a una diferencia en la concentración de sustrato en comparación con la concentración de referencia, y (c) medir una señal producida por una etapa de translocación fraccionada del polinucleótido diana a través del poro. La etapa (b) puede incluir de manera similar el uso de un análogo o inhibidor de sustrato para lograr un cambio en la duración de una etapa de translocación fraccionada. Por consiguiente, cualquiera de los análogos de sustrato o inhibidores de nucleótidos descritos en el presente documento o conocidos en la técnica puede usarse en el método de la descripción para modular una etapa de translocación fraccionada como un sustrato de helicasa Hel308, un sustrato de Hel308 que se usa como una concentración de referencia o tanto un sustrato de helicasa Hel308 como un sustrato de Hel308 que se usa como una concentración de referencia.
Un sustrato de helicasa Hel308 que es capaz de modular una etapa de translocación fraccionada de un polinucleótido puede ser un nucleótido o análogo de nucleótido que puede hidrolizarse por la helicasa. El sustrato de nucleótido proporciona energía para desenrollar un polinucleótido bicatenario o parcialmente bicatenario o translocar un polinucleótido monocatenario a través de un poro. Un sustrato común para una helicasa Hel308 incluye, por ejemplo, ATP. Los sustratos de helicasa Hel308 también incluyen nucleótidos y análogos de nucleótidos que pueden hidrolizarse por la helicasa.
Como se describe en el presente documento, el tiempo de permanencia para una o más etapas de translocación fraccionada que están relacionadas con la unión del sustrato de nucleótidos puede ser inversamente proporcional a la concentración del sustrato de helicasa Hel308. Por ejemplo, en algunas condiciones probadas el tiempo de permanencia para solo una de las dos etapas de translocación fraccionada observada por translocación de nucleótidos es inversamente proporcional a la concentración del sustrato de helicasa Hel308. Por lo tanto, una etapa de translocación puede ser sensible a la concentración de sustrato mientras que otra etapa de translocación no lo es.
La modulación de una etapa de translocación fraccionada para obtener una longitud diferente de las etapas de translocación fraccionada puede lograrse cambiando la concentración del sustrato de helicasa Hel308. El grado o magnitud de modulación se puede determinar de modo que un experto en la técnica pueda seleccionar una longitud particular de etapas de translocación fraccionada adecuadas para una caracterización de polinucleótido diana deseada. El grado de modulación se puede determinar colocando una helicasa Hel308 en una concentración de un sustrato de helicasa Hel308 que sea diferente de una concentración de referencia del sustrato. El cambio en la concentración de sustrato en comparación con la concentración de referencia da como resultado un tiempo de permanencia diferente de una etapa de translocación fraccionada que es proporcional a la diferencia en la concentración de sustrato en comparación con la concentración de referencia.
Por consiguiente, la etapa de translocación fraccionada de un polinucleótido diana a través de un poro puede modularse mediante el uso de una concentración de un sustrato de helicasa Hel308 que sea diferente de una concentración de referencia del sustrato. Otros componentes dentro de la solución de helicasa o las condiciones de reacción también pueden usarse para alterar el tiempo de permanencia de una etapa de translocación fraccionada y, por lo tanto, la longitud de las etapas de translocación fraccionada para un solo ciclo de translocación. Las diferentes etapas de translocación fraccionada pueden usarse de manera similar para adquirir información de señal adicional para aumentar la precisión de la caracterización de polinucleótidos diana.
Los componentes de la reacción y las condiciones de reacción que influyen, por ejemplo, en la cinética del sustrato que se une a una helicasa Hel308 y la hidrólisis del sustrato por la helicasa pueden usarse para alterar el tiempo de permanencia de una etapa de translocación fraccionada. Dichos otros factores incluyen, por ejemplo, temperatura, concentración de metal, que incluye concentración de metal divalente, concentración de iones, viscosidad de disolvente de las condiciones de reacción. La etapa de hidrólisis puede verse influenciada, por ejemplo, por los factores y condiciones anteriores, así como por la concentración de fosfato y/o pirofosfato. Además, el voltaje a través del poro puede afectar, por ejemplo, a la unión al sustrato y/o la pausa de la helicasa que constituye el tiempo de permanencia de una helicasa Hel308. Otros factores incluyen, por ejemplo, el pH, el tipo de catión o concentración y tipo de catión divalente, mutaciones de helicasa, etc., todos los cuales pueden afectar a los tiempos de permanencia. A este respecto, por ejemplo, el aumento de la concentración de pirofosfato puede usarse para ralentizar la velocidad catalítica de una helicasa Hel308 y, por lo tanto, aumentar el tiempo de permanencia. Además, por ejemplo, el ortovanadato de sodio y el hidrato de sal de adenosina 5'-(p,Y-imido)trifosfato de litio también se pueden usar para ralentizar la actividad de la helicasa. El uso de pirofosfato y análogos de nucleótidos para modular la actividad de la helicasa se ilustra a continuación en el Ejemplo V.
A medida que aumentan las diferencias de corriente entre etapas secuenciales, también aumentan los beneficios de usar estados fraccionados para el análisis de datos. En la primera aproximación, las etapas de translocación fraccionada tomarán valores que están entre las etapas de translocación completa adyacente. Si una etapa de translocación fraccionada es mucho menor que A nucleótido, (0,3 Angstroms), el valor fraccionado puede ser, en algunos casos, o incluso en muchos casos, difícil o incluso imposible de observar. Si la etapa de translocación fraccionada es exactamente la longitud de A nucleótido, entonces la corriente resultante puede ser, en promedio, como máximo distinto de los valores de corriente anteriores y posteriores que corresponden a las etapas de nucleótidos completos. La modificación de la enzima puede permitir el reposicionamiento de subunidades de polímero en fracciones de un nanómetro. Esto puede suceder a través de modificaciones enzimáticas que aumentan o disminuyen la altura relativa del sitio de hidrólisis activa de la enzima, hasta la constricción limitante del nanoporo. En algunas realizaciones, esto puede lograrse mediante la adición o eliminación de aminoácidos de la helicasa, o la sustitución de aminoácidos con un radio hidrodinámico mayor. En otras realizaciones, esto se puede lograr mediante la alteración de la carga de aminoácidos que puede alterar la repulsión o atracción electrostática al borde del nanoporo. Sin desear quedar ligado a teoría alguna, si la hipótesis “ basada en la sujeción” es correcta (tal como se describe con mayor detalle con referencia a la Figura 3), puede ser posible que una mutación particular afectase al grado en que la helicasa empuja hacia arriba el complejo de helicasapolinucleótido, lo que puede traducirse en un cambio en el porcentaje de translocación del eje z del nucleótido.
Se contempla ajustar la duración de las etapas de translocación fraccionada: es razonable esperar que ciertas mutaciones en el dominio ATPasa de la helicasa afecten a la velocidad a la que se hidroliza el ATP. Esto, a su vez, se esperaría que afecte al tiempo de permanencia para una de las etapas de translocación fraccionada. Por ejemplo, si se ralentizó la velocidad de hidrólisis, entonces se espera que el tiempo de permanencia para una de las etapas de translocación fraccionada aumente. Otras mutaciones podrían afectar a la velocidad a la que el ATP se une a la helicasa (k<on>). En este caso, a medida que el tiempo que tarda un ATP en unirse aumenta, aumentará el tiempo de permanencia para la etapa de translocación fraccionada correspondiente.
Una concentración de referencia de una helicasa Hel308 puede ser, por ejemplo, la cantidad de sustrato generalmente usada en una caracterización de polinucleótidos diana o puede ser diferente. Por ejemplo, si la concentración de un sustrato de helicasa Hel308 que se usa generalmente es 1,0 mM, entonces 1 mM correspondería a la concentración de referencia. La concentración de referencia puede derivarse empíricamente u obtenerse de datos bien conocidos en la técnica. En este ejemplo específico, una concentración de sustrato distinta de 1 mM sería el sustrato de helicasa Hel308 que es diferente de la concentración de referencia. Como se describe más adelante, pueden emplearse diversas concentraciones de un sustrato de helicasa Hel308 y un sustrato de referencia para modular o determinar la cantidad de alteración de una etapa de translocación fraccionada.
La concentración de la concentración del sustrato de helicasa Hel308 y la concentración de sustrato de referencia pueden variar siempre que ambas concentraciones no sean concentraciones de saturación. De manera ilustrativa, una concentración de saturación de un sustrato de helicasa Hel308 es aproximadamente 1 mM de sustrato de nucleótido.
Por consiguiente, si una concentración de referencia es 1 mM, entonces la concentración del sustrato de helicasa Hel308 para variar puede ser cualquier concentración inferior a 1 mM, incluyendo, por ejemplo, 0,1<ji>M, 1,0<ji>M, 10<ji>M,
100 jiM, 200 jiM, 300 jiM, 400 jiM, 500 jiM, 600 jiM, 700 jiM, 800 jiM, 900 jiM. Dependiendo de la co sustrato de helicasa Hel308 y/o la referencia, otras concentraciones ilustrativas pueden ser, por ejemplo, 1,0 mM,
2,0 mM, 3,0 mM, 4,0 mM y 4,9 mM o menos. De manera similar, la concentración tanto del sustrato de helicasa Hel308 como de la concentración de sustrato de referencia pueden ser concentraciones que no sean saturantes siempre que difieran. Por consiguiente, el sustrato de helicasa Hel308 y las concentraciones de referencia pueden ser cualquiera de las concentraciones ilustrativas enumeradas anteriormente, así como cualquier concentración entre, por ejemplo, cualquier concentración que varíe de 0,01<ji>M a 5 mM y todas las concentraciones entre este intervalo.
Los métodos de la presente descripción para modular una etapa de translocación fraccionada se pueden realizar como se ha descrito anteriormente con respecto a métodos de caracterización de un polinucleótido diana. Una vez que se determina una concentración de sustrato de helicasa Hel308 que es adecuada para una necesidad particular, se puede emplear la concentración de sustrato en los métodos descritos en el presente documento para caracterizar un polinucleótido diana. De manera similar, se pueden realizar determinaciones similares con componentes y condiciones de la reacción que influyen, por ejemplo, en la cinética de la unión del sustrato e hidrólisis para determinar una concentración del componente o condición de reacción que es adecuada para una necesidad particular. Esa concentración o condición adecuada puede emplearse en un método de la presente descripción para caracterizar un polinucleótido diana. La nueva concentración de sustrato, concentración del componente de reacción y/o condición de reacción dará como resultado un tiempo de permanencia diferente que puede proporcionar información de señal de adición para mejorar la precisión de la determinación de una manera tal como se describe a continuación con referencia al Ejemplo IX.
Por consiguiente, la descripción proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana que incluye además caracterizar el polinucleótido diana a partir de una o más señales de una o más etapas de translocación fraccionada. La caracterización puede incluir identificar uno o más de: (1) la secuencia del polinucleótido diana; (2) la modificación del polinucleótido diana; (3) la longitud del polinucleótido diana; (4) la identidad del polinucleótido diana; (5) la fuente del polinucleótido diana, o (6) la estructura secundaria del polinucleótido diana.
La descripción también proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana en donde el método emplea una diferencia de potencial que incluye una diferencia de potencial eléctrico. Además, se proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana en donde la señal producida por una etapa de translocación fraccionada incluye una señal eléctrica o una señal óptica. Además, se proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana, la señal eléctrica es una medición seleccionada de corriente, voltaje, efecto túnel, resistencia, potencial, voltaje, conductancia; y medición eléctrica transversal. La señal eléctrica también puede ser una corriente eléctrica que pasa a través del poro.
Además se proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana en donde la concentración del sustrato es una concentración de subsaturación del sustrato de helicasa Hel308. En algunas realizaciones, la concentración de referencia es una concentración de saturación del sustrato de helicasa Hel308. En otros aspectos, tanto la concentración de sustrato como la concentración de referencia son concentraciones subsaturantes del sustrato de helicasa Hel308. Además, se proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana en donde el sustrato de helicasa Hel308 es trifosfato de adenosina (ATP).
Además, se proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana en donde la etapa de translocación fraccionada incluye una primera etapa de translocación fraccionada de un ciclo de translocación completo de la helicasa Hel308 o una segunda etapa de translocación fraccionada de un ciclo de translocación completo de la helicasa Hel308. Una translocación del polinucleótido diana puede estar en una dirección opuesta a la fuerza aplicada sobre el polinucleótido que se transloca a través del poro o en la dirección de la fuerza aplicada en el polinucleótido que se transloca a través del poro.
También se proporciona además en la descripción un método para modular una etapa de translocación fraccionada de un polinucleótido diana en donde uno o más residuos de nucleótidos en el polinucleótido diana se caracterizan usando señales eléctricas obtenidas de dos etapas fraccionadas de un ciclo de translocación completo con una precisión mayor del 50 % en comparación con la caracterización de uno o más nucleótidos usando una única señal eléctrica obtenida de un ciclo de translocación completo. En algunos aspectos del método de la descripción, uno o más residuos de nucleótidos en el polinucleótido diana se caracterizan por una mayor precisión a una concentración de sustrato más baja en comparación con la concentración de referencia.
Además, se proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana en donde el poro es un poro biológico. El poro biológico puede ser un poro de polipéptido o un poro de polinucleótido. En algunos aspectos, el poro del polipéptido tiene una zona de constricción de cinco nucleótidos o menos. En otros aspectos, el poro de polipéptido incluye una porina A de Mycobacterium smegmatis (MspA). La MspA puede tener una secuencia de aminoácidos de SEQ ID NO: 1 o que tiene al menos 15 %, al menos 20 %, al menos 25 %, al menos 30 %, al menos 35 %, al menos 40 %, al menos 45 %, al menos 50 %, al menos 55 %, al menos 60 %, al menos 65 %, al menos 70 %, al menos 75 %, al menos 80 %, al menos 85 %, al menos 90 %, al menos 95 % o al menos 99 % de homología con la SEQ ID NO: 1.
Además, se proporciona un método para modular una etapa de translocación fraccionada de un polipéptido diana en donde el poro es un poro en estado sólido o un poro híbrido biológico y en estado sólido. El poro híbrido biológico y en estado sólido puede ser un poro híbrido polipéptido-en estado sólido o un poro híbrido polinucleótido-en estado sólido.
También se proporciona un método para modular una etapa de translocación fraccionada de un polinucleótido diana en donde una helicasa Hel308 en el método incluye una helicasa que se muestra en las Tablas 1 y 2 o una variante de la misma. El polinucleótido diana se selecciona del grupo que consiste en un polinucleótido monocatenario, bicatenario y parcialmente bicatenario.
La presente descripción proporciona además una composición para caracterizar un polinucleótido diana. La composición incluye un poro, una helicasa Hel308 y un polinucleótido diana contenido en una solución inferior a ATP 1 mM o una solución de un análogo de nucleótido. En algunos aspectos de la composición, la solución de menos de ATP 1 mM es 0,1<ji>M, 1,0<ji>M, 10<ji>M, 100<ji>M, 0,5 mM o 0,9 mM de ATP.
Una composición de la presente descripción puede incluir cualquiera de los componentes descritos anteriormente o más abajo que se usan en los métodos de la presente descripción para caracterizar un polinucleótido o para modular una etapa de translocación fraccionada de una translocación de polinucleótidos diana. Por ejemplo, una composición puede incluir un poro como se ha descrito anteriormente. Según las enseñanzas y orientación proporcionadas en el presente documento, el poro puede ser, por ejemplo, un poro biológico tal como un poro de polipéptido o poro de polinucleótido. Como alternativa, el poro puede ser un poro en estado sólido o un poro híbrido como se ha descrito anteriormente.
Además, la composición incluirá un polinucleótido diana para la caracterización, una helicasa Hel308 y un sustrato de helicasa Hel308. Al igual que con el poro, el polinucleótido diana, la helicasa Hel308 y el sustrato de helicasa Hel308 pueden ser cualquiera de los polinucleótidos, helicasas Hel308, sustratos ilustrativos y variantes y análogos descritos en el presente documento, así como los bien conocidos en la técnica.
Por consiguiente, la descripción proporciona una composición para caracterizar un polinucleótido diana en donde el poro es un poro biológico. El poro biológico puede ser un poro de polipéptido o un poro de polinucleótido. El poro de polipéptido puede tener una zona de constricción de cinco nucleótidos o menos y puede ser una porina A (MspA) de Mycobacterium smegmatis. La MspA puede tener una secuencia de aminoácidos de SEQ ID NO: 1 o que tiene al menos 15 %, al menos 20 %, al menos 25 %, al menos 30 %, al menos 35 %, al menos 40 %, al menos 45 %, al menos 50 %, al menos 55 %, al menos 60 %, al menos 65 %, al menos 70 %, al menos 75 %, al menos 80 %, al menos 85 %, al menos 90 %, al menos 95 % o al menos 99 % de homología con la SEQ ID NO: 1.
También se proporciona una composición para caracterizar un polinucleótido diana en donde el poro es un poro en estado sólido. Además, se proporciona una composición para caracterizar un polinucleótido diana en donde el poro es un poro híbrido biológico y en estado sólido. El poro híbrido biológico y en estado sólido puede ser un poro híbrido polipéptido-en estado sólido o un poro híbrido polinucleótido-en estado sólido.
Además, se proporciona una composición para caracterizar un polinucleótido diana en donde la helicasa Hel308 es una helicasa que se muestra en las Tablas 1 y 2 o una variante de la misma. Además, se proporciona una composición para caracterizar un polinucleótido diana en donde el polinucleótido diana se selecciona del grupo que consiste en un polinucleótido monocatenario, bicatenario y parcialmente bicatenario.
Los siguientes ejemplos pretenden ilustrar, pero no limitar la presente descripción.
Ejemplo I
Etapa de translocación fraccionada con una helicasa Hel308
El ejemplo I describe las etapas de translocación fraccionada observadas con una helicasa Hel308 ilustrativa.
Las bicapas lipídicas se formaron a partir de 1,2-difitanoil-sn-glicero-3-fosfocolina (Avanti Polar Lipids). La bicapa abarcó una abertura horizontal de ~20 micrómetros de diámetro en Teflón. Se añadió M2-NNN-MspA al lado conectado a tierra de la bicapa a una concentración de ~2,5 ng/ml. Una vez que se insertó un solo poro, el compartimento se enjuagó con tampón experimental para evitar inserciones adicionales. Un amplificador de pinza de parche Axopatch-200B (Axon Instruments) aplicó un voltaje a través de la bicapa de 180 mV y midió las corrientes iónicas. La señal analógica se filtró a paso bajo a 50 kHz con un filtro Bessel de 4 polos y luego se digitalizó a cinco veces la frecuencia de filtro de paso bajo. La adquisición de datos se controló con software personalizado escrito en LabWindows/CVI (National Instruments). Los compartimentos de ~60 jil en ambos lados de la bicapa contenían un tampón experimental de KCl 0,3 M, EDTA 1 mM, DTT 1 mM, MgCl210 mM y HEPES/KOH 10 mM tamponado a pH 8,0. Se usó Hel 308 Tga de tipo silvestre o la polimerasa Phi29 de tipo silvestre como motor. En presencia de Hel308 Tga, el tampón se complementó con ATP 1 mM. En presencia de Phi29, el tampón se complementó con 100 μM de dCTP, dATP, dTTP y dGTP.
Las Figuras 2A-2C muestran la comparación de eventos de translocación de la polimerasa Phi29 y helicasa Hel308 Tga, según algunas realizaciones. La Figura 2A muestra las etapas de translocación fraccionada observadas con una helicasa Hel308 Tga en comparación con las etapas de translocación observadas con una ADN polimerasa phi29 (ADNP). El polinucleótido de translocación (SEQ ID NO: 67: /5Phos/AAACCTTCCXCCCGTACCGTGCCGTACCGTTCCGTTCCGTACCGTA TTTTTTTT TCTCACTATCGCATTCTCATGCAGGTCGTAGCC donde X=abásico) se hibridó con un polinucleótido que contiene colesterol (SEQ ID NO: 68: CCTGCATGAGAATGCGATAGTGAGA TTTTTTTTTTTTTTTTTTTT-CholTEG). Se usó el nanoporo MspA-M2. El número de niveles observados para la translocación del polinucleótido helicasa Hel308 Tga fue casi el doble del número de niveles observados para la ADNP phi29. Las líneas dibujadas entre trazos indican niveles correspondientes. La traza de phi29 (parte superior) es un consenso, mientras que la traza de helicasa Hel308 (parte inferior) es un único evento de translocación medido. Un consenso puede referirse a la combinación de niveles detectados de manera fiable de múltiples lecturas de la misma secuencia. Dicha combinación puede ser potencialmente más fiable que una sola lectura, porque puede no incluir necesariamente errores tales como los que pueden ocurrir con la translocación de una sola molécula, por ejemplo, la “omisión de nucleótidos” o la “ alternancia” de nucleótidos como se conoce en la técnica.
La Figura 2B muestra las etapas de translocación fraccionada observadas con una helicasa Hel308 Tga en comparación con los niveles de corriente predichos generados por una plantilla de polinucleótidos de hebra única que se transloca a través de un nanoporo MspA-M2 mediante el uso de una polimerasa Phi29 como motor molecular con los que se observan mediante el uso de una helicasa Hel308 Tga como motor molecular. El polinucleótido de translocación (SEQ ID NO: 69: /5Phos/ CTCACCTATCCTTCCACTXXCCCCCTTTGGGTTTAAATTTTTTCAGATCTCACTAT C TTTTTAAAGTTT TCTCACTATCGCATTCTCATGCAGGTCGTAGCC X=abásico) se hibridó con un polinucleótido que contiene colesterol (SEQ ID NO: 68: CCTGCATGAGAATGCGATAGTGAGATTTTTTTTTTTTTTTTTTTT-CholTEG). La traza de phi29 (parte superior) se predice, mientras que la traza de la helicasa Hel308 (parte inferior) es un evento de translocación medido. Una predicción, como un consenso, puede no incluir necesariamente errores tales como pueden ocurrir con la translocación de una sola molécula, por ejemplo, “ omisión” de nucleótidos o “ alternancia” de nucleótidos tal como se conoce en la técnica. Una predicción puede referirse a datos simulados basados en una tabla de k-meros que se haya recogido previamente. El patrón predicho de Phi29 se basa en una etapa completa por base, e ilustra un tipo de patrón que puede esperarse que sea un motor molecular de etapa completa. En comparación, se puede ver claramente que la helicasa Hel308 Tga tiene etapas fraccionadas.
La Figura 2C muestra las etapas de translocación fraccionada observadas con una helicasa Hel308 Tga, en comparación con las etapas de translocación observadas con una ADNP phi29. La secuencia del polinucleótido de translocación es: SEQ ID NO: 70: /5Pho s/CAT CATCATCAT CAT CATXXC CCCCTAAACAAGAAT AC CAC GACT AGCAT TTTTCAGATCTCACTATCGCATTCTCATGCAGGTCGTAGCC. El polinucleótido de translocación se hibridó con el polinucleótido que contenía colesterol (SEQ ID NO: 68: CCTGCATGAGAATGCGATAGTGAGA TTTTTTTTTTTTTTTTTTTT-CholTEG) y pasa a través del nanoporo MspA-M2. La secuencia repetida simple 5-CAT-3' se usó para mostrar un patrón repetido. El número de niveles observados para la translocación del polinucleótido por la helicasa Hel308 Tga fue el doble del número de niveles observados para la ADNP phi29. Tanto las trazas de la helicasa phi29 como de Hel308 son trazas de consenso. El uso de trazas de consenso puede facilitar la comparación de los tamaños de las etapas de translocación entre diferentes motores moleculares y puede reducir o eliminar artefactos tales como las omisiones y las alternancia que de otro modo potencialmente pueden complicar la interpretación.
Sin desear quedar ligado a teoría alguna, en la explicación adicional de las etapas de translocación fraccionada, se propone un mecanismo “ basado en la sujeción” . La Figura 3 muestra un mecanismo “ basado en sujeción” propuesto para una etapa de translocación fraccionada, según algunas realizaciones. El polinucleótido (línea continua negra) está unido por la helicasa (forma con relleno de línea horizontal). Tras la unión de ATP (Etapa 1), la helicasa experimenta un cambio conformacional (Etapa 2). Dado que el polinucleótido es sujetado por la helicasa, la ubicación del polinucleótido con respecto a la helicasa no cambia necesariamente. Un punto de referencia en la helicasa (triángulo gris) no se mueve con respecto al polinucleótido sujetado por la helicasa (véase el punto de referencia en el polinucleótido sujeto, el cuadrado gris). El cambio conformacional de la helicasa empuja el complejo de helicasapolinucleótido fuera de la parte superior del nanoporo, tirando del polinucleótido en la constricción del poro (línea negra a la que apunta una línea negra con cabeza de flecha) junto con ella. Un segundo punto de referencia de polinucleótido (círculo blanco) muestra el polinucleótido que se mueve con respecto a la constricción de poro durante el cambio conformacional (etapa 2), lo que da como resultado el cambio de corriente medido para la etapa fraccionada. Finalmente, el ATP se hidroliza y la helicasa se transloca a lo largo del polinucleótido (etapa 3). Esto hace que el polinucleótido mueva un nucleótido completo con respecto a la helicasa y el poro. En resumen, en la primera etapa de translocación fraccionada, la helicasa Hel308 se une al ATP y experimenta un cambio conformacional que tira del polinucleótido agarrado por la helicasa y desplaza el polinucleótido por una fracción de un nucleótido, lo que a su vez produce un cambio de corriente medible. En la segunda etapa de translocación fraccionada, el ATP se hidroliza, y la helicasa Hel308 completa la translocación del nucleótido a través del nanoporo. Otros mecanismos pueden usarse adecuadamente para explicar las presentes observaciones de las etapas de translocación fraccionada.
Ejemplo II
La relación entre las concentraciones de ATP y las etapas de translocación fraccionada
El Ejemplo II describe el efecto de la concentración de ATP en los tiempos de permanencia de las etapas de translocación fraccionada.
Para dilucidar más el mecanismo bioquímico de la etapa de translocación fraccionada, se examinaron los tiempos de permanencia de las etapas de translocación fraccionada con concentraciones variables de ATP. Los pocillos Cis y trans se llenaron primero con una solución tampón que consistía en KCl 400 mM, HEPES 10 mM, pH 8. Se formó una bicapa lipídica que consistía en DPhPC pintando una mezcla de hexadecano y lípido sobre un poro de teflón de ~25 μm de diámetro y se realizaron mediciones de conductancia para asegurar un sello Gigaohmios entre la bicapa lipídica y el poro de teflón. Todas las mediciones eléctricas se realizaron usando un amplificador de pinza de parche Axopatch 200B conectado a un par de electrodos Ag/AgCl conectados a los pocillos cis y trans. Después de la formación de la membrana, se inyectaron nanoporos MspA en el pocillo cis donde se monitorizó la incorporación de nanoporos en la bicapa lipídica mediante mediciones de conductancia. Tras la incorporación de un solo nanoporo en la bicapa, se perfundió la cámara cis para evitar la inserción de múltiples poros. A continuación, se inyectó un polinucleótido monocatenario en la cámara cis a una concentración final de 10 nM, se aplicó voltaje a través de la membrana y se detectó la translocación de polinucleótidos a través de poros mediante respuestas de corriente transitoria. Tras la detección de la translocación de polinucleótidos, el voltaje se estableció en 0 V y MgCb 1 mM, helicasa Hel308 115 nM y varias concentraciones de ATP (10 μM, 30 μM, 100 μM y 1 mM) se inyectaron en el pocillo cis. A continuación, el voltaje se estableció en un potencial de retención (140 mV para ATP 0,01, 0,1 y 1 mM; 180 mV para ATP 0,03 mM) y se registraron las corrientes. El polinucleótido de translocación (SEQ ID NO: 71: /5Phos/CATCATCATCATCATCATXXCCCCCTAAACAAGAATACCACGACTAGCAT TTTTCAGATCTCACTATCGCATTCTCATGCAGGTCGTAGCC X=abásico) se hibridó con un polinucleótido que contiene colesterol (SEQ ID NO: 68: CCTGCATGAGAATGCGATAGTGAGA TTTTTTTTTTTTTTTTTTTT-CholTEG) antes de la inyección en el pocillo cis como se muestra en las Figuras 14A-14D (descrito con mayor detalle en otra parte en el presente documento). De esta manera, el extremo 5' del polinucleótido se translocó primero a través del nanoporo y luego se retiró a través del nanoporo mediante el procesamiento de la helicasa Hel308. El amplificador Axopatch registró la respuesta de corriente del sistema a una frecuencia de muestreo de 50 kHz y con un filtro de paso bajo de 10 kHz. Las transiciones de etapa debido al procesamiento de la helicasa Hel308 del polinucleótido a través del nanoporo, incluidas las etapas de translocación fraccionada, fueron claramente identificables dentro de este intervalo de frecuencia. Después de la experimentación, se usaron algoritmos informáticos para identificar eventos de translocación de polinucleótidos. Los niveles de corriente estadísticamente significativos se identificaron dentro de estos eventos de translocación mediante el uso de una prueba t de Student, que se conoce comúnmente en la técnica para determinar la significación estadística entre los valores vecinos (para más detalles, véase Carter y col., citados en otra parte de la presente descripción, o John E. Freund, Matematic Statistics, 5a edición, Prentice Hall). Para las corrientes observadas de esta secuencia particular, casi había dos veces más niveles de corriente estadísticamente significativos identificados como nucleótidos procesados, teniendo la topología (picos y valles de los niveles de corriente) casi el doble de niveles entre cada pico y entre cada canal, medido por observación directa, que para un motor molecular de una sola etapa.
Para reducir el error experimental, los análisis de datos de las duraciones de la translocación de polinucleótidos a través de los nanoporos se realizaron en regiones de gran resolución de la translocación de nucleótidos. En la secuenciación de cadenas, y en particular, la secuenciación por nanoporos de polinucleótidos, una región abásica puede producir una relación señal/ruido relativamente alta debido a la diferencia significativa en el flujo de iones que se bloquea en comparación con la de las secuencias de polinucleótidos vecinas. Por esta razón, los niveles estadísticamente significativos dentro de las proximidades de una región abásica pueden ser potencialmente más probables debido al procesamiento de nucleótidos a través del nanoporo que debido a algún efecto ulterior “ ruidoso” . Por esta razón, se seleccionaron las duraciones de 27 niveles de corriente que rodean e incluyen un pico de corriente abásica para el análisis de datos basado en la duración del nivel de corriente.
Las Figuras 4A y 4B muestran el efecto ilustrativo de la concentración de ATP sobre el tiempo de permanencia de las etapas de translocación fraccionada, según algunas realizaciones. En la Figura 4A, los niveles de corriente que rodean la de un pico de corriente abásica de una secuencia de polinucleótidos que se translocan a través de un nanoporo con la inclusión de etapas de translocación fraccionada se marcaron secuencialmente como 1 a 27, y se trazaron las duraciones medias.
Los niveles de corriente se detectaron mediante un algoritmo que usa una prueba t de Student para determinar la significación estadística entre los valores de corriente vecinos (véase Carter y col., citados en otra parte en el presente documento). Otras técnicas son capaces de esto, incluyendo la umbralización de velocidad y la minimización de chicuadrado, y estos son todos conocidos en la técnica para cambios de corriente relacionados con el procesamiento de nucleótidos, así como para la detección de etapas en el procesamiento de imágenes. Hubo una duración asociada con cada uno de estos niveles, y al comparar el mismo nivel en múltiples polinucleótidos de la misma secuencia que atraviesa el poro, se calculó la duración media para cada nivel. Estas duraciones medias fueron representativas de la duración típica asociada con cada nivel. Sin embargo, debido a la distribución exponencial de los tiempos de permanencia, las constantes de tiempo de estos tiempos de permanencia son más indicativas de su dependencia de ATP. Por esta razón, en la Figura 4B, los histogramas de duración de niveles pares e impares (donde “ par” e “ impar"’ están asociados con los índices de Nivel en la Figura 4A), se ajustaron a curvas de decaimiento exponencial (a*e-t/T ), y se representaron las constantes de tiempo para cada uno. Los histogramas de las duraciones de los niveles se construyeron incorporando la duración de cada nivel en cada evento de translocación de polinucleótidos en recipientes de tamaño equivalente. A continuación, estos histogramas se ajustaron mediante el uso de un algoritmo de ajuste de curva comercializado (la Matlab Curve Fitting Toolbox), que usa el método de mínimos cuadrados para ajustar los datos al modelo de decaimiento exponencial. Este método minimiza la suma de los residuos cuadrados, donde un residuo se define como la diferencia entre un punto de datos y la respuesta ajustada a ese punto. Esta es una técnica estándar para ajustar datos a un modelo paramétrico. Las barras de error en la Figura 4B corresponden a los límites de confianza del 95 % de cada ajuste.
Como muestra la Figura 4B, el tiempo de permanencia para los niveles pares aumentó con la disminución de la concentración de ATP mientras que el tiempo de permanencia para los niveles impares permaneció constante. Por consiguiente, el tiempo de permanencia para los niveles pares, que correspondía con las primeras etapas de translocación fraccionada, se asoció ostensiblemente con la unión de ATP e inversamente proporcional a la concentración de ATP con una distribución exponencial, mientras que el tiempo de permanencia para los niveles impares, que correspondía con las segundas etapas de translocación fraccionada, se asoció ostensiblemente con la hidrólisis de ATP y dependiente de ATP.
Ejemplo III
Utilidad de las etapas de translocación fraccionada en la secuenciación de polinucleótidos
El ejemplo III describe la mayor precisión de secuenciación mediante el uso de señales eléctricas obtenida de dos etapas de translocación fraccionada de un ciclo completo de translocación en comparación con el uso de una única señal eléctrica obtenida de un ciclo completo de translocación.
Debido a que el “ cabezal de lectura” de MspA es sensible a un tramo de 4 nucleótidos (4-meros) dentro de la zona de constricción, las trazas de corriente se generaron a partir de un mapa de cuadrómero que mide las corrientes correspondientes a todas las combinaciones de 4 meros observadas en el nanoporo de MspA. Para obtener más detalles sobre la medición de las corrientes correspondientes a las combinaciones de 4 meros, véase Laszlo y col., “ Decoding long nanopore sequencing reads of natural DNA” , Nature Biotechnology 32: 829-833 (2014). Sin embargo, debe apreciarse que diferentes poros pueden ser sensibles a diferentes números de nucleótidos dentro de las zonas de constricción. En el presente ejemplo, se determinó la precisión de la secuenciación comparando los resultados del modelo oculto de Markov (HMM) con la secuencia original de Bruijn como se describe a continuación. Para niveles típicos de ruido experimental, como se ilustra en la Figura 5 (es decir, ~0,5-2 pA, o aproximadamente 0,5 a 1,5 pA), la precisión de la reconstrucción mediante el uso de etapas completas (rombos) se redujo en comparación con las etapas fraccionadas (cuadrados).
Brevemente, se establecieron poros con métodos descritos anteriormente (véase Butler y col., Proc. Natl. Acad. Sci. USA, 105:20647-20652 (2008); Manrao y col., PLoS ONE, 6:e25723 (2011)). Brevemente, se formaron bicapas lipídicas a través de una abertura horizontal de ~20 micrómetros de diámetro en teflón a partir de 1,2-difitanoil-sn-glicero l-3-fosfoco lina (Avanti Polar Lipids). Los compartimentos en ambos lados de la bicapa contenían tampón experimental de Hepes 10 mM, pH 8,0, KCl 400 mM, DTT 1 mM y MgCb 10 mM. Se usó un Axopatch-200 B (Axon Instruments) para aplicar un voltaje a través de la bicapa (140 mV o 180 mV) y medir la corriente iónica. Se añadió MspA al compartimento cis conectado a tierra a una concentración de ~2,5 ng/ml. Una vez que se insertó una única proteína MspA en la abertura de Teflón, el compartimento cis se lavó con tampón experimental para inhibir o evitar inserciones adicionales. Todos los experimentos se realizaron a 23 °C. La señal de corriente de ion analógico se filtró a paso bajo a 20 kHz con un filtro de Bessel de 4 polos y se digitalizó a 100 kHz usando un digitalizador 6363 de National Instruments. La adquisición de datos se controló con software personalizado escrito en LabWindows/CVI (National Instruments). Los datos se analizaron con software personalizado escrito en Matlab (The Mathworks). El ATP se usó normalmente a 1 mM, excepto para los experimentos de titulación de ATP, en cuyo caso las concentraciones de ATP variaron de 10 uM a 1 mM. Se usó el polinucleótido de translocación hibridado con un polinucleótido que contiene colesterol a 10 nM. Se usó helicasa Hel308 Tga a una concentración final de 115 nM. Se añadieron polinucleótidos y ATP a la cámara cis, seguido, por último, de una helicasa Hel308 Tga. Como alternativa, se pueden emplear sistemas de regeneración de ATP bien conocidos en la técnica. Un sistema ilustrativo incluye ATP 2 mM, sal disódica de creatina fosfato 10 mM, creatina cinasa 3,5 U/ml y pirofosfatasa inorgánica 0,6 U/ml.
La Figura 5 representa la precisión de reconstrucción de secuenciación (modelo oculto de Markov (HMM)) para la etapa completa (rombos) y media etapa (cuadrados) en trazas de corriente generadas por ordenador (descritas a continuación) con diversos niveles de ruido añadido, según algunas realizaciones. La Figura 5 muestra la precisión de reconstrucción de secuencia derivada de un análisis de algoritmo HMM/Viterbi de las trazas de bloqueo de corriente de modelo para una secuencia de Bruijn (256-meros). El algoritmo de HMM general es en algunos aspectos similar a lo que se describe en Timp y col., Biophys J 16 de mayo de 2012;102(10):L37-9. doi: 10.1016/j.bpj.2012.04.009. Este algoritmo puede recuperar el conjunto subyacente de M 'estados' de una serie de mediciones observadas. La forma básica de este algoritmo se basa en dos conjuntos determinados experimentalmente de probabilidades: una probabilidad de “ transición” de estado-estado, y probabilidad de “ emisión” de estado-observación. Mediciones dadas en las etapas i=1,2,3_N para N mediciones. Un conjunto de probabilidad es la matriz de transición que describe la probabilidad de que durante un tiempo determinado i, y un estado Si(donde S es un estado en el conjunto de M estados), el estado posterior Si+1 (donde Si+ 1 no es necesariamente Si). Para el sistema de nanoporos, con un nanoporo que es sensible a 4nt, y se examina los 4 nucleótidos canónicos (A, C, G, T), da como resultado 44 = 256 estados, correspondientes a cada combinación de 4 nt. Cada uno de estos estados solo puede transicionar a uno de los 4 estados adyacentes.
La Figura 6A representa transiciones de estado con probabilidad distinta de cero necesaria para que un HMM decodifique la secuencia en un nanoporo donde el polinucleótido se mueve por la enzima motora, según algunas realizaciones. El motor es phi29 ADNP o un polinucleótido de traslación de enzima similar en etapas de 1 nucleótido. La Figura 6B representa transiciones de estado con probabilidad distinta de cero necesaria para que un HMM decodifique la secuencia en un nanoporo donde el polinucleótido es movido por la enzima motora, según algunas realizaciones. El motor es la helicasa Hel308 o una enzima similar que permite el movimiento fraccionado del polímero.
Las probabilidades de transición no cero para la matriz de transición de este sistema se muestran en la Figura 6A para una enzima que se mueve en etapas de un solo nucleótido. Usando este tipo de enzima, cada estado de polinucleótido o n-mero debe ir a uno de los 4 estados de n-mero adyacentes. Para una enzima que requiere una etapa de translocación fraccionada, habrá más estados. A este respecto, un estado de etapa completa dado debe pasar a un estado de media etapa (o etapa fraccionada) antes de que se pueda observar otro estado de etapa completa. Por lo tanto, hay más estados disponibles con trayectorias más discernibles, ayudando así a la precisión de la caracterización del polinucleótido.
El número de estados viene dado por q*4 n+ 1, donde n es el tamaño de lectura del nanoporo, y q es el número de etapas necesarias para completar un ciclo completo de translocación. Para q = 2 y n=4, como se ve con la helicasa Hel308 y M2-NNN MspA, hay 2048 estados. La matriz de probabilidad de transición se describe gráficamente en la Figura 6B para una enzima que se mueve en etapas de nucleótidos fraccionadas. Cada estado correspondiente a un estado completo, puede pasar a solo uno de los 1024 “ medios estados” o “ estados fraccionados” , mientras que cada uno de los medios estados (o fraccionados) puede pasar a 4 estados diferentes, correspondientes a un nuevo interior del cabezal de lectura del nanoporo. Para el algoritmo de decodificación HMM, se usa otro conjunto de probabilidades: la probabilidad de que una medición de corriente en el tiempo t, Ct, pertenezca al estado Si. Este conjunto de probabilidades se determina experimentalmente, o se estima a partir de observaciones experimentales previas. Dicha estimación puede lograrse mediante la aplicación iterativa de algoritmos de alineación tal como se describe en Laszlo y col. 2014 (citado en otra parte del presente documento) o con maximización de expectativa de un HMM. Para evaluar la utilidad de las etapas de translocación fraccionada, la precisión de la secuenciación para una enzima con etapas de nucleótidos fraccionadas se comparó con la de una enzima con etapas de nucleótidos individuales. Los algoritmos de decodificación HMM Viterbi se implementaron con software personalizado implementado en MATLAB, y se generaron 10 simulaciones de Monte-Carlo por ordenador para cada condición. Los medios de secuenciación y las desviaciones estándar se obtuvieron de las desviaciones promedio y estándar de estas 100 simulaciones de Monte-Carlo. Los niveles de corriente se generaron en función de los resultados de Manrao 2012 (citados en otra parte del presente documento). Se añadió ruido gaussiano, con anchos gaussianos dados por los valores mostrados en el eje X de la Figura 5, para desplazar los valores de corriente observados por ordenador que se usaron en la reconstrucción de la secuencia, y un experimento típico de secuenciación por nanoporos tiene una fluctuación de aproximadamente 1 pArms en los niveles promedio. Para un cambio gaussiano añadido con el ancho de 0,5 pA, tanto la reconstrucción fraccionada como la etapa completa produjeron una precisión de secuenciación proporcional al 100 %. Por encima de los desplazamientos gaussianos añadidos con anchos por encima de 0,5 pA, la precisión de la secuenciación para las etapas de translocación fraccionada fue mayor que la precisión de la secuenciación para las etapas de translocación no fraccionada. Por lo tanto, la información adicional de las etapas de translocación fraccionada proporcionó o confirió una mayor precisión de reconstrucción de secuencia cuando se añadió más de 0,5 pA de ruido gaussiano a los niveles de corriente promedio.
Además de las fluctuaciones de ruido, los niveles omitidos causados por el movimiento estocástico de las enzimas reducirán, o se puede esperar que reduzcan, la precisión de la secuenciación. Esta reducción en la precisión es, o puede ser, parcialmente compensada por la repetición de la lectura de patrones de nucleótidos en cuadrómeros adyacentes. Con la etapa de translocación fraccionada añadida hay una repetición de la lectura adicional de los patrones de nucleótidos. Por ejemplo, la información acerca de un k-mero dado se incluye en las etapas fraccionadas vecinas, por lo que el k-mero es de “ repetición de la lectura” durante esas etapas fraccionadas vecinas. Por ejemplo, supongamos que un polinucleótido que tiene la secuencia ATCGTC se transloca de forma fraccionada a través de un nanoporo con un cabezal de lectura sensible a 4 nucleótidos. Sin desear estar limitado por ninguna teoría, para un motor de etapa completa, el TCGT de 4 meros solo se lee cuando la región entre C y G está centrada en el cabezal de lectura (es decir, la “etapa” anterior tendría “TC” centrado en el cabezal de lectura, y solo se leería ATCG; la siguiente etapa tendría “ GT” centrado en el cabezal de lectura y solo lee CGTC). Por lo tanto, si el motor omite la etapa de lectura TCGT, no se mide ninguna información asociada con ese 4-mero particular. Sin embargo, sin desear estar limitado por ninguna teoría, con un motor de etapa fraccionada tal como una helicasa Hel308, durante las etapas completas la región entre dos nucleótidos vecinos puede centrarse en el cabezal de lectura, mientras que durante las etapas fraccionadas se pueden centrar nucleótidos individuales en el cabezal de lectura. Por lo tanto, cuando “ CG” del polinucleótido mencionado anteriormente está centrado en el cabezal de lectura, se lee TCGT, ya que estaba en el caso de etapa completa. La etapa fraccionada anterior puede tener solo C centrado en el cabezal de lectura, y puede leerse la información sobre ATCGT; la siguiente etapa fraccionada tiene solo G centrado en el cabezal de lectura y se lee la información sobre TCGTC. Debido a que la información con respecto a “TCGT” se puede leer 3 veces en el caso de etapas fraccionadas y solo una vez en el caso de etapa completa, esta “ repetición de la lectura” adicional del 4-mero puede permitir obtener información sobre TCGT incluso si el motor omite una etapa asociada con él, lo que probablemente no es cierto en el caso de etapas completas. Para todas las fracciones de niveles eliminados, existe una mejora en la precisión de la secuenciación del 2-8 %. Esto se mostró con simulaciones adicionales de Monte Carlo por ordenador que realizan la eliminación aleatoria de los niveles de corriente. En conclusión, hubo un fuerte aumento en la precisión de la secuenciación para los modos de error observados en los experimentos de secuenciación por nanoporos. Las Figuras 10, 11 y 12 representan esquemas mediante los cuales se puede usar la información de etapa de translocación fraccionada adicional para mejorar la precisión de la secuencia. Estos esquemas se ilustran adicionalmente a continuación en el Ejemplo VI. Los esquemas descritos son usos ilustrativos y no pretenden ser limitantes.
Ejemplo IV
Utilidad de las etapas de translocación fraccionada en la coincidencia de patrones
El ejemplo IV describe el uso ilustrativo de etapas de translocación fraccionada para identificar los niveles mediante el uso de algoritmos conocidos. Usando un algoritmo de programación dinámica, tal como la alineación de Needleman-Wunsch, los niveles adicionales ayudaron en la búsqueda de patrones con precisión dentro de muchos niveles. Para más detalles sobre los algoritmos de alineación de Needleman-Wunsch, véase Durbin y col., Biological Sequence Analysis, ed. 11 (Cambridge University Press, Cambridge, Reino Unido 2006). Además de, o como alternativa a, las corrientes de nivel promedio, mediante el uso de las duraciones de nivel, las desviaciones estándar de corriente de nivel o las distribuciones de nivel, pueden mejorar aún más la precisión de la coincidencia de patrones. En este ejemplo, se usó un algoritmo de alineación de Needleman-Wunsch para identificar los niveles correspondientes a una secuencia de 15 bases incrustada dentro de los niveles correspondientes a una secuencia de 1000 bases. Se comparó el uso de lo siguiente: (1) niveles correspondientes a movimientos de nucleótidos completos, (2) niveles correspondientes a 2 movimientos de media etapa (o fraccionada), (3) niveles y duraciones correspondientes a 2 movimientos de media etapa (o etapa fraccionada). Se generaron observaciones por ordenador con 10 simulaciones de Monte Carlo con niveles desplazados por valores dados por valores aleatorios generados a partir de una distribución gaussiana de anchos variables. Los resultados se muestran en la Figura 7, que representa la precisión esperada de encontrar patrones de corriente en función del desplazamiento gaussiano, según algunas realizaciones. La desviación media y estándar de la precisión de alineación se generó a partir de la desviación media y estándar de las 10 simulaciones de Monte Carlo. En la Figura 7, los rombos representan un motor que tiene una etapa de nucleótidos completa, y los círculos representan un motor que tiene una etapa de translocación fraccionada, y los cuadrados representan un motor que tiene una etapa de translocación fraccionada combinada con valores de duración. Brevemente, los patrones de nivel correspondientes a 15 nucleótidos se incrustaron dentro de patrones de nivel correspondientes a una secuencia aleatoria de 1000 nucleótidos. Los niveles correspondían a un motor con etapas de nucleótidos completas (rombos) tales como phi29 ADNA (solo etapa de translocación completa), o a un motor con una etapa de translocación fraccionada (círculos), tal como la helicasa Hel308. Se usó la duración además de los valores de corriente para mejorar aún más las coincidencias (cuadrados). A partir de los resultados en la Figura 7, se puede entender que para aumentar el ruido, la calidad de coincidencia fue considerablemente mayor para los algoritmos que usan el movimiento de etapa de translocación fraccionada. La calidad de coincidencia mejoró aún más si también se usaban los valores de duración. Para igualar los niveles con el algoritmo Needleman-Wunsch, se usó una medida de similitud de nivel de entrada, o puntuación, para comparar los niveles. En las pruebas se empleó una prueba t de Student para comparar los niveles de corriente. Para comparar (puntuar) la similitud de dos duraciones, se determinó la diferencia del logaritmo natural de las duraciones y se añadió a la puntuación dada por la prueba t de Student. El término “ puntuación” puede definirse en la nomenclatura del algoritmo de Needleman-Wunsch. Estas funciones de puntuación representan ejemplos no limitantes de métodos que pueden usarse para comparar los niveles de señal (por ejemplo, valores de corriente) y duraciones.
Ejemplo V
Modulación de las etapas fraccionadas de la helicasa
El ejemplo V ilustra el uso de componentes de reacción variables para variar el tiempo de permanencia de la helicasa Hel308.
La Figura 8 muestra la modulación ilustrativa de la actividad de helicasa Hel308 con concentraciones variables de pirofosfato, según algunas realizaciones. La Figura 9 muestra la modulación ilustrativa de la actividad de helicasa Hel308 con el inhibidor de nucleótidos ortovanadato de sodio y con el análogo de nucleótido hidrato de la sal de adenosina 5'-(p, Y-imido)trifosfato de litio, según algunas realizaciones.
La actividad de la helicasa Hel308 se moduló aumentando la concentración de pirofosfato. Brevemente, las condiciones de reacción fueron las descritas en el Ejemplo III con la inclusión de diversas concentraciones de pirofosfato que varían de 0 a 50 mM, por ejemplo, 0 mM (control), 5 mM, 10 mM, 20 mM, 30 mM, 40 mM y 50 mM. Los resultados se muestran en la Figura 8 e indican el porcentaje de actividad helicasa en comparación con la actividad helicasa en ausencia de pirofosfato (control). Las concentraciones de pirofosfato 5 y 10 mM dieron como resultado la disminución de la actividad helicasa hasta más del 75 % de control. Las concentraciones de pirofosfato mayores de 10 mM dieron como resultado disminuciones adicionales en la actividad helicasa y, por lo tanto, el tiempo de permanencia de la helicasa. Se usó un ensayo de fluorescencia para controlar la capacidad de una helicasa para desenrollar el ADN dúplex. Un polinucleótido FRET de 49 nt (concentración final 50 nM) incluyó un grupo de fluoresceína 5' (/FAM/). Un polinucleótido que contiene un inhibidor de 40 nt (50 nM final) incluyó un inhibidor fluorescente, un inactivador de Clack Hole (/BHQ1/). Estos dos polinucleótidos se hibridaron entre sí calentándolos más allá de sus temperaturas de fusión a 75 °C y enfriando lentamente a temperatura ambiente usando métodos bien conocidos en la técnica. El dúplex incluía un saliente 3' de 9 bases al que puede unirse la helicasa 3' a 5'. Un polinucleótido FRET de 40 nt complementario que era 100%complementario al polinucleótido que contenía un inhibidor de 40 nt estaba presente en un exceso de 10 veces molar. Debido a que el inhibidor y el fluoróforo estaban inicialmente en estrecha proximidad, se inactivó la fluorescencia. Basándose en que la helicasa desenrolla el ADN dúplex, era más probable que el polinucleótido que contiene el inhibidor de 40 nt se uniera al polinucleótido complementario FRET de 40 nt que se volviera a unir al polinucleótido FRET de 49 nt. De este modo, el nuevo polinucleótido FRET de 49 nt monocatenario emitió fluorescencia en presencia de una fuente de luz excitante adecuada. El tampón de ensayo incluyó HEPES 10 mM, pH 8,0, KCl 400 mM, MgCb 1 mM, DTT 1 mM, ATP 1 mM. Se permitió que la reacción continuara durante 20 minutos a temperatura ambiente antes de leer la fluorescencia.
Se observó que la actividad de helicasa Hel308 y, por lo tanto, el tiempo de permanencia, se redujo en presencia de cualquiera de los inhibidores de nucleótidos o análogos de ortovanadato de sodio e hidrato de sal de adenosina 5'-(p,Y-imido)trifosfato de litio, respectivamente. Brevemente, las condiciones de reacción fueron las descritas en el Ejemplo III con la inclusión de ortovanadato de sodio (“ OrtovanadatoNa” en la Figura 9) o hidrato de sal de adenosina 5'-(p,Y-imido)trifosfato de litio (“AMP-PNP” en la Figura 9) a una concentración de 5 mM de inhibidor o análogo. Los resultados se muestran en la Figura 9 e indican el porcentaje de actividad helicasa en comparación con la actividad helicasa en ausencia del inhibidor o análogo de nucleótidos (control). Las concentraciones de inhibidor o análogo 5 mM dieron como resultado la disminución de la actividad helicasa hasta más del 85 % de control y, por lo tanto, se pueden esperar que aumenten el tiempo de permanencia de la helicasa, o el tiempo que tarda la helicasa para moverse a lo largo del ADN. Por ejemplo, un aumento en el tiempo de permanencia puede alargar el tiempo de una etapa fraccionada, permitiendo así más tiempo para adquirir una señal.
Ejemplo VI
Métodos para procesar información de la etapa fraccionada para mejorar la precisión de la secuenciación
El ejemplo VI ilustra tres métodos para procesar la información adicional obtenida de las etapas de translocación fraccionada para mejorar la precisión de la secuenciación.
La Figura 10 ilustra un método ilustrativo para procesar la información adicional obtenida de las etapas de translocación fraccionada usando información de nivel y duración actuales. El método se puede aplicar a dos lecturas de secuencia independientes. Usando este esquema, la traza de corriente se somete a un algoritmo de detección de etapas, en donde se encuentran los niveles de corriente y la duración de esos niveles. Basándose al menos en parte en las duraciones de los niveles, un HMM de dos estados identifica los niveles como una etapa completa (larga) o como una media etapa (o fraccionada) (corta), o como un potencial salto dentro de las observaciones. Estas etapas largas y cortas identificadas y la información de salto se usan entonces por un algoritmo HMM, Viterbi o de coincidencia de patrones, o una combinación adecuada de las mismas, para reconstruir la secuencia de polinucleótidos para los dos tipos de estados por separado (largo y corto, respectivamente correspondientes a los niveles de etapa de etapa completa y media (o fraccionada). A continuación, las secuencias leídas se comparan y se usan para mejorar la precisión de secuenciación de polinucleótidos, por ejemplo, ajustando el algoritmo HMM, Viterbi o de coincidencia de patrones. La alineación se puede usar para identificar ubicaciones mal coincidentes de las dos lecturas de secuencia independientes.
La Figura 11 ilustra un método ilustrativo para procesar la información adicional obtenida de las etapas de translocación fraccionada usando información del nivel de corriente y la duración. El método se puede aplicar a dos lecturas de secuencia concurrentes. En este método, la traza de corriente se somete primero a un algoritmo de detección de etapas para encontrar los niveles. La media (mediana) de los valores de corriente de nivel y la duración de cada nivel se introducen, como un par, en un algoritmo bidimensional HMM, Viterbi o de coincidencia de patrones o una combinación adecuada de los mismos, que examina los valores de duración y corriente y estimaciones o resoluciones de secuencia óptima para los estados medio (o fraccionada) y estados completos. En esta técnica, la probabilidad de emisión de HMM es bidimensional: Pi(emisiónt) = Pi(curt,durt) = Pi(curt) *Pi(durt) donde i es un “estado” que corresponde a una etapa de translocación de etapa larga o corta (fraccionada) del polinucleótido, y curt y durt son, respectivamente, la corriente y duración de nivel para el número de nivel t. El HMM bidimensional puede tomar como entrada un mapa de consenso y una distribución de probabilidad para niveles largos (estados completos), y un mapa de consenso y distribución de probabilidad para niveles cortos (estados medios (o fraccionados)). El HMM bidimensional puede proporcionar como salida una lectura de la secuencia de nucleótidos.
La Figura 12 ilustra un método ilustrativo para procesar la información adicional obtenida de las etapas de translocación fraccionada usando trazas de corriente directamente. El método puede aplicarse con o sin el uso de la información de la duración. Con referencia al uso de la información de la duración, en este método la traza de corriente se analiza directamente con un HMM dependiente de la duración. En esta versión de un HMM, la duración de un nivel se determina al mismo tiempo que la secuencia más probable y el estado de etapa completa o media (o fraccionada). Si el estado ha permanecido inalterado entre dos iteraciones de tiempo, la duración del estado dado aumentará. Esta duración se usa entonces para mejorar la evaluación de si ese estado está en un estado completo o fraccionado.
Ejemplo VII
Métodos adicionales para procesar información de la etapa fraccionada para mejorar la precisión de la secuenciación El Ejemplo VII describe métodos ilustrativos adicionales para procesar información de etapas fraccionadas para mejorar la precisión de la secuenciación.
Previamente se han utilizado modelos ocultos de Markov (HMM) y algoritmos de Viterbi para la lectura de nucleótidos basada en señales de los polinucleótidos que se translocan a través de los nanoporos que requieren motores moleculares de una sola etapa. Para más detalles, véase Timp y col., “ DNA Base-Calling from a Nanopore Using a Viterbi Algorithm” , Biophysical Journal 102: L37-L39 (mayo de 2012). La Figura 19A ilustra esquemáticamente un aspecto de un modelo oculto de Markov (HMM) ilustrativo utilizado para caracterizar una señal de translocación de una sola etapa de un polinucleótido a través de un poro, por ejemplo, en el cual un nivel de señal dado corresponde a la translocación de un nucleótido a través de un poro, por ejemplo, por una polimerasa o una helicasa. Como se indica en otra parte de la presente descripción, un nivel de señal puede no corresponder necesariamente a la presencia de un solo nucleótido dentro de la constricción de un poro, sino que puede corresponder a la presencia de una “ palabra” que incluye una pluralidad de nucleótidos, por ejemplo, dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez o más de diez nucleótidos. Dicha “ palabra” también puede denominarse “ k-mero” En la realización ilustrada en la Figura 19A, las “ palabras” o “ k-meros” son de cuatro nucleótidos de longitud o son “ cuadrómeros” o “4-meros” , correspondientes a un nivel de señal que se basa en la presencia de cuatro nucleótidos en la constricción de un poro.
En la Figura 19A, se puede observar que para una posición dada i de un polinucleótido que se transloca a través de un poro, un cuadrómero dado en la constricción del poro puede incluir cualquier combinación posible de cuatro nucleótidos, por ejemplo, AAAA, AAAC, AAAG, AAAT, ...TTTT. Puede no ser necesariamente posible, basándose en el nivel de señal correspondiente a dicho cuadrómero, identificar de manera única ese cuadrómero. Por ejemplo, dos cuadrómeros diferentes, p. ej., dos cuadrómeros diferentes que son adyacentes entre sí en la secuencia esperada, potencialmente pueden tener los mismos niveles de señal entre sí. Timp describe valores de corriente ilustrativos para tripletes de ADN (3-meros), basados en los cuales puede verse que ciertos tripletes pueden tener los mismos niveles de señal entre sí, inhibiendo así la lectura de nucleótidos de las bases en ese triplete basándose únicamente en el nivel de corriente correspondiente a ese triplete. Debe entenderse que ciertos cuadrómeros (y, más generalmente, ciertos k-meros) pueden tener niveles de señal que son indistinguibles entre sí, inhibiendo así la lectura de nucleótidos de las bases en ese cuadrómero o k-mero basándose únicamente en el nivel de corriente correspondiente a ese 4-mero o k-mero. Por consiguiente, usando la terminología de los HMM, las bases en tales cuadrómeros o k-meros que son indistinguibles entre sí basándose en la observación del nivel de señal pueden modelizarse como un “ estado oculto”
Se puede usar información adicional basada en observaciones de otras posiciones de una sola etapa del polinucleótido en la constricción del poro para aumentar la probabilidad de identificar con precisión las bases en ese cuadrómero o k-mero y, por lo tanto, identificar con precisión el “estado oculto” Por ejemplo, en la Figura 19A, también se puede ver que para la siguiente posición i+1 de un polinucleótido que se transloca a través de un poro, un cuadrómero dado en la constricción del poro puede tener solo ciertas combinaciones posibles de cuatro nucleótidos, porque los últimos tres nucleótidos de la posición i corresponden a los tres primeros nucleótidos de la posición i+1. Como tal, las mediciones de señales para los estados i e i+1 pueden usarse para aumentar la probabilidad de identificar correctamente los cuadrómeros presentes en una o ambas de las posiciones i e i+1 (o, de manera equivalente, las posiciones i-1 e i). Por ejemplo, basándose en la secuencia AAAA correspondiente a la posición i del polinucleótido, solo las cuatro secuencias AAAA, AAAC, AAAG y AAAT están disponibles para la posición i+1. Las cuatro secuencias disponibles en la posición i+1 pueden identificarse fácilmente para cada secuencia posible en la posición i. Análogamente, basándose en la secuencia en la posición i+1 del polinucleótido, pueden identificarse fácilmente las cuatro secuencias disponibles en la posición i+2 del polinucleótido. Un algoritmo de Viterbi para un motor de una sola etapa, en el cual hay una correspondencia uno a uno entre los niveles de señal y las posiciones i, i+1, i+2,..i+n, donde n es el número de nucleótidos en un polinucleótido, puede expresar la señal del conjunto de niveles ordenados L = {h, l2, ...ln}. Cada nivel li que corresponde a la posición i del polinucleótido puede expresarse como una o más de la media de ese nivel de señal (mediai), la desviación estándar de ese nivel de señal (stdi), o la duración de ese nivel de (dun). El conjunto de posibles cuadrómeros puede expresarse como prev(q)= {q1, q2, ...q4} que define los valores posibles del cuadrómero correspondiente a la ubicación anterior del polinucleótido (la posición i-1), cuando el cuadrómero correspondiente a la ubicación actual del polinucleótido (la posición i) es q. Por ejemplo, prev(AACC) = {AAAC, CAAC, GAAC, TAAC}. Basándose en el nivel de señal observado Oji correspondiente al nivel j-ésimo observado, la puntuación de probabilidad para un cuadrómero q dado que está presente en la posición i puede expresarse como:
puntuación (nivel, i - 1,q ) InsPen '
puntuación (nivel, i, q) = m ax maXpepreV(q) puntuación (nivel, i — l ,p ) s ( l t\q) (<1>) maxpeprev(q) puntuación (nivel, i, p) DelPen
donde s(li|q) corresponde a una compensación que representa la probabilidad de observar el nivel li, el cuadrómero q dado, InsPen es una penalización por inserción (una penalización correspondiente a un nivel de señal que se observa pero no corresponde a un cuadrómero en el polinucleótido), y DelPen es una penalización por eliminación (una penalización correspondiente a un cuadrómero en el polinucleótido pero no tiene un nivel de señal correspondiente).
La Figura 19B ilustra esquemáticamente un aspecto de un HMM ilustrativo usado para caracterizar señales de la translocación por etapas fraccionadas de un polinucleótido a través de un poro usando una helicasa Hel308, según algunas realizaciones. En la Figura 19B, se puede observar nuevamente que para una posición i dada de un polinucleótido que se transloca a través de un poro, un cuadrómero dado en la constricción del poro puede incluir cualquier combinación posible de cuatro nucleótidos, por ejemplo, AAAA, AAAC, AAAG, AAAT,..TTTT. Se puede usar información adicional basada en observaciones de posiciones de etapas fraccionadas, así como otras posiciones de una sola etapa, del polinucleótido en la constricción del poro para aumentar la probabilidad de identificar con precisión las bases en ese cuadrómero o k-mero y, por lo tanto, identificar con precisión el “ estado oculto” , con una precisión mejorada en relación con el uso de solo posiciones de una sola etapa.
Por ejemplo, en la Figura 19B, también se puede observar que para un motor de etapa fraccionada, la siguiente posición del polinucleótido que se transloca a través de un poro es “ i fraccionada” , y en el cual un cuadrómero dado en la constricción del poro puede tener solo ciertas combinaciones posibles de cuatro nucleótidos, porque los últimos tres nucleótidos de la posición i corresponden a los primeros tres nucleótidos de la posición “ i fraccionada” Como tal, se pueden usar mediciones de señales para los estados i e i fraccionado para aumentar la probabilidad de identificar correctamente los cuadrómeros presentes. Por ejemplo, basándose en la secuencia AAAA correspondiente a la posición i del polinucleótido, solo las cuatro secuencias AAAA, AAAC, AAAG y AAAT están disponibles para la posición i fraccionada. Las cuatro secuencias disponibles en la posición i fraccionada se pueden identificar fácilmente para cada secuencia posible en la posición i.
Además, en la Figura 19B, también se puede observar que para la siguiente posición i+1 completa de un polinucleótido que se transloca a través de un poro, cuya posición que sigue inmediatamente es i fraccionada, un cuadrómero dado en la constricción del poro puede tener solo una secuencia posible, porque los cuatro nucleótidos de la posición i+1 completa corresponden a los mismos nucleótidos que para la posición i fraccionada. Como tal, las mediciones de las señales correspondientes a las posiciones i, i fraccionada e i+1 completa pueden usarse para aumentar la probabilidad de identificar correctamente los cuadrómeros presentes en algunas o todas las posiciones, i fraccionada e i+1 completa (o, las posiciones equivalentes, la i-1 y la i). Por ejemplo, basándose en la secuencia AAAA correspondiente a la posición i del polinucleótido, solo las cuatro secuencias AAAA, AAAC, AAAG y AAAT están disponibles para la posición i fraccionada y para la i+1 completa. Un algoritmo de Viterbi modificado para un motor de etapa fraccionada, en el cual hay una correspondencia entre los niveles de señal y tanto las posiciones de etapa fraccionada como las de etapa completa i, i fraccionada, i+1 completa, i+1 fraccionada, i+2 completa, i+ 2 fraccionada,...i+n fraccionada, i+n completa, donde n es el número de nucleótidos en un polinucleótido, puede expresar los niveles de señal l como el conjunto de niveles. Análogamente como se ha descrito anteriormente con referencia a la Figura 19A, cada nivel de señal li correspondiente a la posición completa o i fraccionada se puede expresar como una o más de la media de ese nivel de señal (mediai), la desviación estándar de ese nivel de señal (stdi), o la duración de ese nivel de señal (dun). Dado el cuadrómero q en la etapa de translocación fraccionada actual, el conjunto de posibles cuadrómeros correspondientes a la etapa de translocación completa anterior puede definirse como prev(q)={q1, q2, ...q4}. Por ejemplo, prev(AACC) = {AAAC, CAAC, GAAC, TAAC}.
Basándose en el nivel de señal li observado correspondiente a la posición i, la puntuación de probabilidad puntuaciónf para un cuadrómero q dado, que está presente en la posición i para una ubicación correspondiente a un estado de translocación completa, y la puntuación de probabilidad puntuaciónh para un cuadrómero q dado, que está presente en la posición i para una ubicación correspondiente a un estado de translocación de la mitad (o fraccionada), puede expresarse de la siguiente manera:
donde sf(li|q) corresponde a una compensación que representa la probabilidad de observar el nivel li, el cuadrómero q dado en estado translocacional completo, sh(li|p,q) corresponde a una compensación que representa la probabilidad de observar el nivel li, el cuadrómero q dado y el cuadrómero anterior p en estado translocacional fraccionado, InsPen es una penalización por inserción (una penalización correspondiente a un nivel de señal que se observa pero no corresponde a un cuadrómero en el polinucleótido), y DelPen es una penalización por eliminación (una penalización correspondiente a un cuadrómero en el polinucleótido pero no tiene un nivel de señal correspondiente).
Además, la programación dinámica se puede usar para la coincidencia de patrones para un motor molecular de etapa fraccionada (tal como una helicasa Hel308). La coincidencia de patrones dinámicos se describe para un motor molecular de una sola etapa en Laszlo y col., “ Decoding long nanopore sequencing reads of natural DNA” , Nature Biotechnology 32: 829-833 (2014). Por ejemplo, para un motor molecular de una sola etapa, los niveles de señal l pueden expresarse como el conjunto de niveles L = {h, l2, ...ln}, en donde cada nivel de señal li correspondiente a la posición de la etapa de translocación completa del polinucleótido puede expresarse como una o más de la media de ese nivel de señal (mediai), la desviación estándar de ese nivel de señal (stdi), o la duración de ese nivel de señal (duri). Basándose en el nivel de señal li observado, la puntuación de probabilidad para un cuadrómero qj dado que se mide puede expresarse como:
donde i representa la posición en la secuencia de nivel; j representa la posición en la secuencia de ADN, la base del último cuadrómero qj sería la base en la posición j; la puntuación (i, j) representa el grado de coincidencia entre los niveles l1....li y los cuadrómeros qi...qj; s(li|qj) corresponde a una compensación que representa la probabilidad de observar el nivel li, el cuadrómero qj dado; InsPen es una penalización por inserción (una penalización correspondiente a un nivel de señal que se observa pero no corresponde a un cuadrómero en el polinucleótido); DelPen es una penalización por eliminación (una penalización correspondiente a un cuadrómero en el polinucleótido pero no tiene un nivel de señal correspondiente).
Para un motor molecular de etapa fraccionada, tal como Hel1308, los niveles de señal l pueden expresarse como el conjunto de niveles L = {li, l2, ...ln}, en donde cada nivel de señal li correspondiente a la posición i completa o i fraccionada del polinucleótido puede expresarse como una o más de la media de ese nivel de señal (mediai), la desviación estándar de ese nivel de señal (stdi), o la duración de ese nivel de señal (duri). Basándose en el nivel de señal li observado, la puntuación de probabilidad puntuación para un cuadrómero qj dado que se mide correspondiente a un estado completo de translocación, y la puntuación de probabilidad puntuación para un cuadrómero qj dado que se mide correspondiente a un estado de translocación de la mitad (o fraccionada), se puede expresar de la siguiente manera:
donde i representa la posición en la secuencia de nivel; j representa la posición en la secuencia de ADN, la base del último cuadrómero qj sería la base en la posición j; la puntuación (i, j) y la puntuación (i, j) representa el grado de coincidencia entre los niveles li....li y los cuadrómeros qi...qj, respectivamente, suponiendo un estado completo o fraccionado; sf(li|qj) y sh(li|qj) corresponden a compensaciones que representan la probabilidad de observar el nivel li, el cuadrómero qj dado en estados completo y fraccionado, respectivamente; InsPen es una penalización por inserción (una penalización correspondiente a un nivel de señal que se observa pero no corresponde a un cuadrómero en el polinucleótido); DelPen es una penalización por eliminación (una penalización correspondiente a un cuadrómero en el polinucleótido pero no tiene un nivel de señal correspondiente).
Algunos ejemplos de resultados de secuenciación de novo usando etapas fraccionadas se describirán ahora con referencia a la Figura 20A. Se generó una biblioteca de 75 polinucleótidos de 500 meros basada en ADN humano, y los datos de nanoporos se recogieron de manera análoga a como se describe en otra parte de la presente descripción con referencia a los Ejemplos II y III. La lectura de nucleótidos basada en los datos se analizó usando el algoritmo de Viterbi modificado descrito usando las Ecuaciones (2) y (3) anteriores. La secuencia de nucleótidos leída se alineó a un conjunto de 150500-meros, 75 de los cuales fueron los verdaderos 500-meros y 75 de los cuales eran secuencias de 500-meros “ señuelo” o “ ficticia” . En la Figura 20A, que ilustra la longitud de lectura en función de la precisión de la alineación (usando un alineador LASTAL tal como se describe en Kielbasa y col., “Adaptive seeds tame genomic sequence comparison” , Genome Research21: 487-493 (2011), los rombos no rellenos corresponden a los resultados en los que la secuencia de nucleótidos leída se alineó con las secuencias correctas (“diana” ), y los rombos rellenos corresponden a los resultados en los cuales la secuencia de nucleótidos leída se alineó con una secuencia “ señuelo” o “ficticia” . Se puede entender a partir de la Figura 20A que para longitudes de lectura superiores a aproximadamente 200 pares de bases, se pueden obtener precisiones superiores a aproximadamente el 60 %. La precisión potencialmente puede aumentarse mediante el uso de técnicas conocidas tales como la lectura de ambas cadenas del ADN.
Algunos resultados de coincidencia de patrones ilustrativos que usan etapas fraccionadas se describirán ahora con referencia a las Figuras 20B-20C. Se usó la misma biblioteca de 75 polinucleótidos de 500 meros y el mismo protocolo experimental como se ha descrito anteriormente con referencia a la Figura 20A. La lectura de nucleótidos basada en los datos se analizó usando la programación dinámica para la coincidencia de patrones descrita usando las Ecuaciones (5) y (6) anteriores. La secuencia de nucleótidos leída se alineó a un conjunto de 150500-meros, 75 de los cuales fueron los verdaderos 500-meros y 75 de los cuales eran secuencias de 500-meros “ señuelo” o “ ficticia” . En la Figura 20B, que ilustra el tamaño de alineación en función de la puntuación de alineación, los rombos no rellenos corresponden a los resultados en los cuales la secuencia de nucleótidos leída se alineó con las secuencias correctas (“ diana” ), y los rombos rellenos corresponden a los resultados en los cuales la secuencia de nucleótidos leída se alineó con una secuencia “ señuelo” o “ ficticia” . Se puede entender a partir de la Figura 20B que se pueden obtener puntuaciones de alineación superiores a aproximadamente 40 para tamaños de alineación superiores a aproximadamente 200 pares de bases. En la Figura 20C, que también ilustra el tamaño de alineación como una función de la puntuación de alineación, los rombos no rellenos corresponden a los resultados en los cuales la secuencia de nucleótidos leída se alineó con las secuencias correctas (“ diana” ), y los rombos rellenos corresponden a los resultados en los cuales la secuencia de nucleótidos leída se alineó con una secuencia “ señuelo” o “ ficticia” . Se puede entender a partir de la Figura 20C que se pueden obtener puntuaciones de alineación superiores a aproximadamente 20 para tamaños de alineación superiores a aproximadamente 50 pares de bases. Se puede observar que el modelo de etapa fraccionada puede identificar con precisión más eventos que el modelo de una sola etapa.
Además, se observó que para un evento de translocación con 1332 niveles, coincidencia de patrones (Ecuaciones 5 y 6) contra un conjunto de datos de 80 kb tardó aproximadamente 145 segundos en un solo hilo, mientras que para el mismo evento con 1332 niveles, la secuenciación de novo (Ecuaciones 2 y 3) contra ese conjunto de datos tardó aproximadamente 69 segundos en un solo hilo. Se observó que la complejidad de coincidencia de patrones crece linealmente con un conjunto de datos de nucleótidos, mientras que la complejidad de la secuenciación de novo fue independiente del conjunto de datos. Se observó que la coincidencia de patrones identifica con precisión eventos más cortos, y que la secuenciación de novo no pudo identificar. Además, se observó que el modelo de etapa fraccionada para la coincidencia de patrones produce más verdaderos positivos que un modelo de una sola etapa, lo que indica que el modelo de etapa fraccionada puede ser un mejor modelo para explicar los datos de la helicasa.
Ejemplo VIII
Etapa de translocación fraccionada con helicasas Hel308 adicionales
El ejemplo VIII describe las etapas de translocación fraccionada observadas con helicasas Hel308 ilustrativas utilizadas como motores moleculares.
Los experimentos del Ejemplo VIII se realizaron análogamente como se ha descrito anteriormente con referencia al Ejemplo I, usando un único nanoporo de 2NNN MspA en una bicapa lipídica de DphPC, y usando los parámetros enumerados a continuación en la Tabla 3, donde “ Hel308 Mbu (A)” se refiere a un conjunto de parámetros utilizados para un primer experimento usando Hel308 Mbu y “ Hel308 Mbu (B)” se refiere a un conjunto de parámetros utilizados para un segundo experimento usando Hel308 Mbu. Las bicapas lipídicas se formaron a partir de 1,2-difitanoil-sn-glicero-3-fosfocolina (Avanti Polar Lipids). La bicapa abarcaba una abertura horizontal de ~20 micrómetros de diámetro en Teflón. Se añadió M2-NNN-MspA al lado conectado a tierra de la bicapa a una concentración de ~2,5 ng/ml. Una vez que se insertó un solo poro, el compartimento se enjuagó con tampón experimental para evitar inserciones adicionales. Un amplificador de pinza de parche Axopatch-200B (Axon Instruments) aplicó un voltaje a través de la bicapa de 180 mV y midió las corrientes iónicas. La señal analógica se filtró a paso bajo a 50 kHz con un filtro Bessel de 4 polos y luego se digitalizó a cinco veces la frecuencia de filtro de paso bajo. La adquisición de datos se controló con software personalizado escrito en LabWindows/CVI (National Instruments). Los compartimentos de ~60 μl en ambos lados de la bicapa contenían tampón experimental de la concentración apropiada de KCl, EDTA 1 mM, DTT 1 mM, ATP 1 mM, MgCfc 5 mM y HEPES/KOH 10 mM tamponado a pH 8,0. Se usó la helicasa Hel308 Mbu de tipo silvestre a la concentración indicada como motor molecular.
En ambos experimentos de Hel308 Mbu y el experimento Hel308 Tga, el ADN se leyó en la dirección 3' a 5', mientras que en el experimento de la polimerasa phi29, el ADN se leyó en la dirección 3' a 5'.
Tabla 3
Las Figuras 17A-17D muestran la comparación de los eventos de translocación de la helicasa Hel308 Mbu, la helicasa Hel308 Tga y la polimerasa phi29 mediante el uso de ciertos parámetros, según algunas realizaciones. La Figura 17A muestra las etapas de translocación observadas con la helicasa Hel308 Mbu usando los parámetros “ Hel308 Mbu (A)” mostrados en la Tabla 3. El polinucleótido de translocación (SEQ ID NO: 72: /5Phos/AAACCTTCCXCCCGTACCGTGCCGTACCGTTCCGTTCCGTACCGTATTTTT TTTTCTCACTATCGCATTCTCATGCAGGTCGTAGCC, donde X = abásico) se hibridó con un polinucleótido que contiene colesterol (SEQ ID NO: 73: AAAAAAAATACGGTACGGAACGGAACGGTACGGCACGGTACGGG TTTTTTTTTTTTTTTT/3CholTEG). La Figura 17B muestra las etapas de translocación observadas con la helicasa Hel308 Mbu usando los parámetros “ Hel308 Mbu (B)” mostrados en la Tabla 3 y usando las mismas secuencias de polinucleótidos que en la Figura 17A. La Figura 17C muestra las etapas de translocación observadas con una helicasa Hel308 Tga usando los parámetros “ Hel308 Tga” mostrados en la Tabla 3 y usando las mismas secuencias de polinucleótidos que en la figura 17A. La Figura 17D muestra las etapas de translocación observadas con la polimerasa phi29 usando los parámetros “ phi29” mostrados en la Tabla 3 y usando las mismas secuencias de polinucleótidos que en la Figura 17A; el gráfico de phi29 en la Figura 17D se reflejó alrededor del eje vertical para facilitar las comparaciones entre las Figuras 17A, 17B, 17C y 17D.
Se puede observar en las Figuras 17A-17D que para secuenciación con cada helicasa, el nanoporo detectó las características generalmente designadas “ a” (correspondiente a un valle en la señal) y “ b” (correspondiente a un pico en la señal). También se puede observar que para la secuenciación con la helicasa Hel308 Tga (Figura 17C), se observó aproximadamente el doble del número de niveles en comparación con la helicasa phi29 (Figura 17D). También se puede observar que para la secuenciación con la helicasa Hel308 Mbu en las condiciones “ Hel308 Mbu (B)” (Figura 17B), se observó un mayor número de niveles en comparación con la helicasa Hel308 Mbu en las condiciones “ Hel308 Mbu (A)” (Figura 17A). También se puede observar que para la secuenciación con la helicasa Hel308 Mbu en las condiciones “ Hel308 Mbu (B)” (Figura 17B), se observaron menos niveles en comparación con la helicasa Hel308 Tga (Figura 17C), pero se observaron más niveles en comparación con la helicasa phi29 (Figura 17D). Las Figuras 17A-17D se pueden interpretar como que significan (1) que múltiples variantes de la helicasa Hel308 (por ejemplo, tanto Tga como Mbu) muestran una etapa fraccionada, mientras que no se observó ninguna etapa fraccionada para la polimerasa Phi29; y (2) que las etapas fraccionadas se pueden dilucidar cambiando una variable o parámetro ambiental, por ejemplo, concentración de KCl. Además, otros datos indican que la duración de los niveles aumenta con una disminución en la concentración de ATP cuando se utiliza Mbu, por ejemplo, que las duraciones y, por lo tanto, los mecanismos físicos de las etapas fraccionadas en Mbu también pueden ser dependientes de ATP.
Ejemplo IX
Uso de estresores, opcionalmente en combinación con multimodalidad
Como debe estar claro basándose en la descripción proporcionada en el presente documento, muchas variables ambientales o parámetros pueden afectar a la lectura de un sistema de nanoporos, o a la generación de una señal basada en una secuencia de polinucleótidos particular. Las variables o parámetros ilustrativos que pueden proporcionar tal efecto pueden incluir temperatura, concentración de sal (por ejemplo, Mg, Cl), concentración de cofactor (por ejemplo, ATP), concentración de productos de ATP tales como pirofosfato, pH, el motor molecular particular usado (por ejemplo, la helicasa Hel308 particular usada), la presión y similares.
Por ejemplo, tal como se ha descrito anteriormente con referencia al Ejemplo II y las Figuras 4A y 4B, la concentración de ATP puede afectar al tiempo de permanencia de los niveles correspondientes a ciertas etapas de translocación. Por ejemplo, se observó que los tiempos de permanencia para las primeras etapas de translocación fraccionada aumentaron con la disminución de la concentración de ATP y se asocian ostensiblemente con la unión de ATP y son inversamente proporcionales a la concentración de ATP. Como otro ejemplo, tal como se ha descrito anteriormente con referencia al Ejemplo V y la Figura 8, la concentración de pirofosfato puede afectar a la actividad de la helicasa Hel308. Por ejemplo, se observó que la actividad de la helicasa Hel308 disminuyó al aumentar la concentración de pirofosfato, aumentando así el tiempo de permanencia de la helicasa. Como otro ejemplo, tal como se ha descrito anteriormente con referencia al Ejemplo V y la Figura 9, la concentración de inhibidor o análogo de nucleótidos puede afectar a la actividad de la helicasa Hel308. Por ejemplo, se observó que la actividad de la helicasa Hel308 disminuyó en función de la presencia de ortovanadato de sodio o el hidrato de sal de adenosina 5'-(p,Y-imido)trifosfato de litio (AMP-PNP) disminuyó la actividad de la helicasa, aumentando así el tiempo de permanencia de la helicasa. Como otro ejemplo más, tal como se ha descrito anteriormente con referencia al Ejemplo VIII y las Figuras 17A y 17B, la concentración de una sal puede afectar al número de niveles observados. Por ejemplo, se observó que un aumento en la concentración de sal (por ejemplo KCl) aumentó el número de niveles observados durante la secuenciación con la helicasa Hel308 Mbu. Un experto en la técnica sería fácilmente capaz de revisar los ajustes en cualquier parámetro adecuado para ajustar la manera en que se genera la señal basándose en una secuencia polinucleotídica.
Además, debe apreciarse que diferentes combinaciones de tales parámetros pueden afectar a la precisión de la secuenciación, así como al rendimiento de la secuenciación. Por ejemplo, aumentar el tiempo de permanencia de la helicasa puede aumentar la precisión, por ejemplo, puede aumentar el número de niveles observados, pero potencialmente puede disminuir el rendimiento de la secuenciación. Para la secuenciación basada en la observación de etapas fraccionadas, algunas etapas pueden verse afectadas más por una variable particular que por otro conjunto de etapas. Las etapas independientes variables pueden usarse para establecer una línea de base de precisión, mientras que otras etapas pueden ajustarse para satisfacer las necesidades de secuenciación particulares (por ejemplo, mayor precisión con menor rendimiento, o mayor rendimiento con menor precisión). En algunas realizaciones, un dispositivo multimodal puede aprovechar esto ajustando la precisión y el rendimiento basándose en las necesidades del secuenciador, por ejemplo, ajustando uno o más parámetros durante la secuenciación. Como un ejemplo ilustrativo no limitante, y como se ha indicado anteriormente, se ha observado que una disminución en la concentración de ATP con Hel308 Tga puede aumentar las duraciones de los estados fraccionados. Un aumento en la duración del estado fraccionado puede aumentar la precisión de la secuenciación, por ejemplo, al mejorar la relación señal/ruido (SNR) del estado fraccionado leído o permitir que se apliquen filtros de frecuencia más baja, pero puede reducir el rendimiento. Un dispositivo multimodal puede aprovechar esto al iniciar un ciclo de secuenciación con altas concentraciones de ATP para determinar de forma relativamente rápida una “ estructura base” aproximada de la secuencia, y luego puede reducir la concentración de ATP para “ llenar en los huecos” del armazón con lecturas de mayor calidad, aunque más lenta.
Además, obsérvese que cualquier número adecuado de parámetros diferentes puede usarse secuencialmente o en paralelo entre sí para aumentar la resolución de una o más señales producidas por la translocación por una helicasa Hel308 de un polinucleótido diana a través de un poro. Las Figuras 21A-21C ilustran esquemáticamente señales que pueden generarse en función del tiempo para diferentes translocaciones de un polinucleótido a través de un poro, según algunas realizaciones. Las Figuras 21A-21C ilustran cada una curva discontinua, que corresponde a una señal idealizada generada en condiciones en las cuales un polinucleótido se transloca a través de un poro bajo la fuerza aplicada aplicando solo una diferencia de potencial, en lugar de por un motor molecular, y con una resolución de señal infinita. En tales condiciones, la señal es una función que cambia continuamente de las posiciones y secuencia de nucleótidos a medida que pasan a través del poro.
La Figura 21A también ilustra una señal ilustrativa (líneas gruesas) generada usando solo etapas de translocación completa que ocurren en los tiempos indicados por las líneas de puntos verticales. La señal puede ser una señal electrónica u óptica tal como se describe en otra parte de la presente descripción. Además, la señal puede incluir cualquier característica adecuada de tal señal electrónica u óptica, tal como el nivel de señal medio, duración de señal o desviación estándar (por ejemplo, ruido de banda ancha o ruido limitado de banda). En la Figura 21A puede verse cómo la señal cambia de un nivel relativamente bajo a un nivel relativamente alto a través de una sola etapa, y luego de nuevo a un nivel relativamente bajo a través de una sola etapa, correspondiente a transiciones que ocurren entre las etapas de translocación completa a medida que el polinucleótido se transloca a través del poro. También se puede ver en la Figura 21A que la señal intersecta la señal idealizada en los puntos (a), (b) y (c) en diferentes momentos, y por lo tanto se puede considerar que “ muestra” la señal idealizada en estos puntos. Sin embargo, debido a que la velocidad de muestreo efectiva es relativamente baja, la señal muestrea la señal idealizada relativamente mal. Por ejemplo, los valores en los puntos (a) y (b) son iguales entre sí, correspondientes a niveles de señal degenerados para diferentes etapas de translocación. Debido a que la señal no muestra adecuadamente la parte de la curva idealizada que se encuentra entre los puntos (a) y (b), las etapas de translocación física correspondientes a los puntos (a) y (b) pueden ser indistinguibles entre sí, lo que da como resultado la pérdida de información sobre la secuencia de polinucleótidos. Además, debido a que la señal no muestra adecuadamente la parte de la curva idealizada que se encuentra entre los puntos (b) y (c), las etapas de translocación física correspondientes a la pendiente descendente de la curva idealizada entre los puntos (b) y (c) potencialmente pueden caracterizar parcialmente la parte del polinucleótido translocado a través del poro durante tales etapas.
Además de la señal idealizada representada por la curva discontinua como se ha descrito anteriormente, la Figura 21B también ilustra una señal ilustrativa (líneas gruesas) generada usando una combinación de etapas de translocación completa separadas por el tiempo, o una combinación de etapas de translocación completa y fraccionada, que ocurren en los tiempos indicados por las líneas de puntos verticales. Las etapas de translocación completa separadas por el tiempo pueden corresponder a señales generadas por dos motores moleculares que translocan cada uno el polinucleótido, pero que en ocasiones se desplazan entre sí, por ejemplo, que se desplazan entre sí en aproximadamente un 50 % de la duración de tiempo de un ciclo de translocación completo. Una combinación de etapas de translocación completa y fraccionada puede corresponder a señales generadas por un solo motor molecular (por ejemplo, una helicasa Hel308) que transloca de forma fraccionada el polinucleótido a través de etapas de translocación parcial y completa, tal como donde la etapa de translocación fraccionada se produce aproximadamente en el 50 % de la duración de tiempo de un ciclo de translocación completo. La señal puede ser como se ha descrito anteriormente con referencia a la Figura 21A. En la Figura 21B puede verse cómo la señal cambia de un nivel relativamente bajo a un nivel relativamente alto a través de una secuencia de etapas, y luego de nuevo a un nivel relativamente bajo a través de otra secuencia de etapas, correspondiente a transiciones que ocurren entre las etapas de translocación completa separadas en el tiempo o por la combinación de etapas de translocación completa y fraccionada, a medida que el polinucleótido se transloca a través del poro. También puede observarse en la Figura 21B que la señal intersecta la señal idealizada en un número significativamente mayor de puntos (y tiempos) que en la Figura 21A, y por lo tanto puede considerarse que “ muestrea” la señal idealizada en estos puntos. Debido a que la velocidad de muestreo efectiva es relativamente mayor que en la Figura 21A, la señal muestrea la señal idealizada relativamente mejor que en la Figura 21A. Por ejemplo, los valores en los puntos (a) y (b) son iguales entre sí, correspondientes a niveles de señal degenerados para diferentes etapas de translocación. Debido a que la señal en la Figura 21A también muestrea la porción de la curva idealizada que se encuentra entre los puntos (a) y (b), las etapas de translocación física correspondientes a los puntos (a) y (b) pueden distinguirse entre sí, lo que da como resultado información adicional sobre la secuencia de polinucleótidos. Además, debido a que la señal en la Figura 21B muestrea más completamente la parte de la curva idealizada que se encuentra entre los puntos (b) y (c), las etapas de translocación física correspondientes a la pendiente descendente de la curva idealizada entre los puntos (b) y (c) pueden caracterizar mejor la parte del polinucleótido translocado a través del poro durante tales etapas que potencialmente pueden lograrse usando la señal en la Figura 21A.
Además de la señal idealizada representada por la curva discontinua como se ha descrito anteriormente, la Figura 21C también ilustra otra señal ilustrativa (líneas gruesas) generada mediante el uso de una combinación de etapas de translocación completa separadas en el tiempo, o una combinación de etapas de translocación completa y fraccionada, que ocurren en los tiempos indicados por las líneas de puntos verticales. Las etapas de translocación completa separadas en el tiempo pueden corresponder a señales generadas por múltiples motores moleculares que translocan cada uno el polinucleótido, pero que en ocasiones se desplazan entre sí, por ejemplo, que se desplazan entre sí en aproximadamente un 25 %, 50 % y 75 % de la duración de tiempo de un ciclo de translocación completo. Una combinación de etapas de translocación completa y fraccionada puede corresponder a señales generadas por un solo motor molecular (por ejemplo, una helicasa Hel308) que transloca de forma fraccionada el polinucleótido a través de etapas de translocación parcial y completa, tal como donde la etapa de translocación fraccionada se produce en aproximadamente el 25 %, el 50 % y el 75 % de la duración de tiempo de un ciclo de translocación completo. La señal puede ser como se ha descrito anteriormente con referencia a la Figura 21A. En la Figura 21C puede verse cómo la señal cambia de un nivel relativamente bajo a un nivel relativamente alto a través de una secuencia de un mayor número de etapas que en la Figura 21B, y luego de nuevo a un nivel relativamente bajo a través de otra secuencia de un mayor número de etapas que en la Figura 21B, correspondiente a transiciones que ocurren entre las etapas de translocación completa separadas por el tiempo o por la combinación de etapas de translocación completa y fraccionada, ya que el polinucleótido se transloca a través del poro. También puede observarse en la Figura 21C que la señal interseca la señal idealizada en un número significativamente mayor de puntos (y tiempos) que en la Figura 21B y, por lo tanto, puede considerarse que “ muestra” la señal idealizada en estos puntos. Debido a que la velocidad de muestreo efectiva es relativamente más alta que en la Figura 21B, la señal muestrea la señal idealizada relativamente mejor que en la Figura 21B y, por lo tanto, puede caracterizar mejor el polinucleótido translocado a través del poro durante tales etapas que lo que potencialmente puede lograrse usando la señal en la Figura 21A o 21B.
Debe apreciarse que puede usarse cualquier selección adecuada de parámetros para aumentar el muestreo de cualquier parte seleccionada de una curva de muestreo idealizada. Por ejemplo, como se mencionó anteriormente, se puede usar una combinación de etapas de translocación completa desplazadas en el tiempo (desplazadas de fase) de diferentes motores moleculares. A este respecto, aunque la Figura 21B describe el desplazamiento en el tiempo de los motores moleculares en un 50 % del tiempo de una etapa de translocación completa a otra y aunque la Figura 21B describe el desplazamiento en el tiempo de los motores moleculares en un 25 %, 50 %, y 75 % del tiempo de una etapa de translocación completa a otra, dichos valores son puramente ilustrativos y, en su lugar, los motores moleculares pueden desplazarse en el tiempo en cualquier cantidad adecuada de tiempo entre sí, por ejemplo, pueden desplazarse en cualquier lugar del 5 % al 95 % del tiempo de una etapa de translocación completa a otra, por ejemplo, pueden desplazarse en cualquier lugar del 10 % al 90 % del tiempo de una etapa de translocación completa a otra, por ejemplo, pueden desplazarse en cualquier lugar del 25 % al 75 % del tiempo de una etapa de translocación completa a otra, por ejemplo, pueden desplazarse en cualquier lugar del 40 % al 60 % del tiempo de una etapa de translocación completa a otra. Como otro ejemplo, una combinación de etapas de translocación completa y fraccionada puede corresponder a señales generadas por un solo motor molecular (por ejemplo, una helicasa Hel308) que transloca de forma fraccionada el polinucleótido a través de etapas de translocación parcial y completa. Aunque la Figura 21B describe las etapas de translocación fraccionada que ocurren en el 50 % del tiempo de una etapa de translocación completa respecto a otra, y aunque la Figura 21C describe las etapas de translocación fraccionada que se producen al 25 %, 50 %, y 75 % del tiempo de una etapa de translocación completa respecto a otra, dichos valores son puramente ilustrativos, y en su lugar las etapas de translocación fraccionada pueden ocurrir en cualquier momento adecuado con respecto a las etapas de translocación completa, por ejemplo, desde el 5 % hasta el 95 % del tiempo de una etapa de translocación completa, por ejemplo, desde el 10 % hasta el 90 % del tiempo de una etapa de translocación completa, por ejemplo, desde el 25 % hasta el 75 % del tiempo de una etapa de translocación completa, por ejemplo, desde el 40 % hasta el 60 % del tiempo de una etapa de translocación completa.
Además, debe apreciarse que los tiempos relativos en los cuales ocurren las etapas completas o fraccionadas y, por lo tanto, los tiempos en los cuales la señal muestrea la señal idealizada, se pueden ajustar adecuadamente variando cualquier parámetro adecuado. Por ejemplo, como se ha indicado anteriormente, las variables o parámetros ilustrativos que pueden efectuar la generación de señal pueden incluir temperatura, concentración de sal (por ejemplo, Mg, Cl), concentración de cofactor (por ejemplo, ATP), concentración de productos de ATP tales como pirofosfato, pH, el motor molecular particular usado y similares. En algunas realizaciones, se puede generar una primera señal basándose en un primer conjunto de parámetros para muestrear la señal idealizada en un primer conjunto discreto de veces, y se puede generar una segunda señal basándose en un segundo conjunto de parámetros (que difiere del primer conjunto de parámetros en al menos un aspecto) para muestrear la señal idealizada en un segundo conjunto discreto de veces. Las señales primera y segunda pueden combinarse para proporcionar una curva de señal que muestra la señal idealizada con mayor resolución que la primera o segunda señal sola. Debe apreciarse que cualquier número adecuado de señales puede combinarse de manera análoga para proporcionar una curva de señal que muestra la señal idealizada con mayor resolución que cualquiera de esas señales individuales.
Ejemplo X
Enfoques adicionales para la identificación de secuencias
Algunos enfoques adicionales para la identificación de secuencias se describen con referencia al Ejemplo X.
Se pueden usar ciertos tipos de información solo, o en combinación entre sí, para obtener información específica de la secuencia: (A) Información de respuesta de etapa completa sola, (B) información de respuesta de etapa fraccionada sola, (C) información de respuesta de etapa completa y etapa fraccionada juntas sin identificadores, y (D) información de respuesta de etapa completa y etapa fraccionada juntas con identificadores.
Por “ información de respuesta” se entiende los datos obtenidos de la respuesta del sistema a una secuencia de polinucleótidos dada (k-meros) que es única para ese k-mero o un subconjunto de k-meros (incluido el k-mero de interés). Los ejemplos de información de respuesta incluyen la media del nivel de corriente, la mediana del nivel de corriente, el ruido de corriente de nivel de banda ancha, el ruido de corriente de nivel limitado de banda, la duración de nivel y similares.
Por “ identificadores” se entiende los datos obtenidos mientras el polinucleótido (k-mero) interactúa con el entorno de nanoporo que identifica a lo largo de la “ respuesta idealizada” dónde se encuentra un nivel particular con respecto a otros niveles. Por ejemplo, los sistemas que utilizan la helicasa Hel308 Tga como motor molecular en presencia de niveles relativamente altos o relativamente bajos de concentración de ATP pueden mostrar duraciones relativamente cortas o relativamente largas, respectivamente, para cada otro nivel, donde cada otro nivel es aproximadamente el 50 % a lo largo de la respuesta idealizada de los niveles vecinos. En este ejemplo, la duración del nivel puede usarse como un identificador, porque puede usarse para identificar la ubicación de la secuencia a lo largo de la respuesta idealizada (con respecto a los niveles vecinos).
Por “ respuesta idealizada” se entiende la respuesta del sistema para un polinucleótido particular que se transloca a través del nanoporo con una resolución suficientemente alta de manera que pueden resolverse movimientos suficientemente pequeños del polinucleótido. Por ejemplo, una respuesta idealizada es una traza de corriente continua de una resolución infinitamente alta de la translocación de ADN a través del nanoporo.
Con referencia de nuevo a los apartados (A)-(D) mencionados más arriba en este ejemplo, cada uno de los apartados (A)-(D) se puede usar independientemente, o junto con uno o más de otros apartados (A)-(D), para identificar una secuencia polinucleotídica. Por ejemplo, uno o más de los apartados (A)-(D) pueden calcularse independientemente de cualquier otro apartado (A)-(D), por ejemplo, debido a restricciones de recursos informáticos, restricciones de tiempo, conocimiento a priori de un enfoque óptimo y similares. Basándose en más de uno de los apartados (A)-(D) que se calculan, se pueden usar los resultados de solo uno de los apartados (A)-(D). La determinación de cuál de dichos cálculos se debe usar puede basarse en la confianza en los resultados. Por ejemplo, la confianza en los resultados puede basarse en uno o más de los siguientes: (a) la propia información de respuesta (p. ej., altos niveles de ATP pueden acortar los tamaños de la etapa fraccionada en Hel308 Tga, lo que puede reducir la confianza en el apartado (B) con respecto al apartado (A); (b) el propio algoritmo de secuenciación (por ejemplo, un algoritmo de Viterbi puede producir una puntuación de probabilidad para la secuencia óptima que propone, que puede usarse para determinar un nivel de confianza en esa secuencia propuesta); (c) la secuencia producida por el algoritmo de secuenciación (por ejemplo, la confianza puede asignarse basándose en una comparación entre la secuencia propuesta por el algoritmo y una tabla de consulta de secuencias y/o cualquier conocimiento a priori del polinucleótido que se secuencia); o (d) cualquier combinación adecuada de los apartados (a)-(c).
Obsérvese que, en algunas circunstancias, puede ser beneficioso determinar la secuencia real utilizando las secuencias propuestas de más de uno de los apartados (A)-(D). Por ejemplo, se podría determinar una secuencia consenso basada en algunas o todas las secuencias propuestas. La secuencia consenso puede determinarse basándose en todas o algunas de las secuencias propuestas. La secuencia consenso se puede aplicar globalmente a la secuencia polinucleotídica completa o localmente a una porción de la secuencia. La secuencia consenso se puede determinar basándose en valores de confianza de algunos o todos los apartados (A)-(D). Los valores de confianza pueden ser los descritos más arriba en este ejemplo. Los valores de confianza pueden aplicarse localmente, a una porción de una secuencia, o globalmente, a toda la secuencia. Una secuencia consenso final puede determinarse mediante múltiples rondas de los enfoques mencionados anteriormente, donde el consenso resultante de cada ronda puede usarse como una secuencia propuesta, y los métodos de determinación de confianza para cada ronda pueden diferir entre rondas.
Como un ejemplo, se puede usar un algoritmo de Viterbi para determinar dos secuencias propuestas diferentes secuenciando solo etapas completas y solo etapas fraccionadas de la translocación de ADN a través de un nanoporo (apartados (A) y (B) expuestos anteriormente en este ejemplo). Las puntuaciones de probabilidad de este algoritmo para cada fragmento de ADN se usan para determinar la confianza para cada región de la secuencia propuesta, y una agregación de confianzas para cada región puede dar como resultado una secuencia consenso propuesta de primera ronda. Esta secuencia consenso se puede comparar con las dos secuencias inicialmente propuestas con respecto a una tabla de consulta de secuencias conocidas. La similitud entre la tabla de consulta y cada una de estas tres secuencias propuestas puede dar como resultado valores de confianza para cada región de cada una de las tres secuencias propuestas. Esta segunda ronda de comparaciones basadas en la confianza entre las tres secuencias propuestas puede dar como resultado una secuencia consenso final propuesta.
En algunas realizaciones, las Figuras 22A-22D ilustran etapas en métodos ilustrativos para usar la información proporcionada por la translocación fraccionada de un polinucleótido a través de un poro, según algunas realizaciones. La Figura 22A ilustra una visión general de alto nivel de un método para usar la información proporcionada por la translocación fraccionada de un polinucleótido a través de un poro, según algunas realizaciones. El método ilustrado en la Figura 22A incluye obtener una señal (etapa 2210), tal como una o más señales producidas por una o más etapas de translocación fraccionada por una helicasa Hel308 de un polinucleótido diana a través de un poro tal como se describe con mayor detalle en otra parte de la presente descripción. El método ilustrado en la Figura 22A también incluye detectar e identificar el nivel (etapa 2220), por ejemplo, detectar e identificar diferentes niveles de señal en la señal, por ejemplo, detectar e identificar niveles que corresponden a las etapas de translocación fraccionada del polinucleótido a través del poro, y también detectar e identificar niveles que corresponden a las etapas de translocación completa del polinucleótido a través del poro. El método ilustrado en la Figura 22A también incluye determinar la secuencia (etapa 2230), por ejemplo, caracterizar la secuencia del polinucleótido en función de los niveles de señal diferentes detectados e identificados en la señal. El método ilustrado en la Figura 22A también incluye emitir una secuencia (etapa 2240), por ejemplo, emitir una secuencia probable de nucleótidos del nucleótido real basándose en los resultados de la lectura de la secuencia.
Las Figuras 22B-22D ilustran subetapas opcionales de una o más de las etapas ilustradas en la Figura 22A. Por ejemplo, la Figura 22B ilustra detalles adicionales de una implementación potencial de las etapas 2210 y 2220 ilustradas en la Figura 22A. El método ilustrado en la Figura 22B nuevamente incluye obtener una señal (etapa 2210), tal como una o más señales producidas por una o más etapas de translocación fraccionada por una helicasa Hel308 de un polinucleótido diana a través de un poro tal como se describe con mayor detalle en otra parte de la presente descripción. El método ilustrado en la Figura 22B también puede incluir opcionalmente obtener parámetros de entrada (2211). Dichos parámetros de entrada pueden incluir, pero no se limitan a, parámetros que definen qué características de señal características deben detectarse y determinarse para que se correspondan con una señal. Por ejemplo, los parámetros de entrada pueden definir un cambio de magnitud de umbral en el valor de señal, por encima del cual se puede detectar un cambio de magnitud en la señal que corresponde a un nivel. O, por ejemplo, los parámetros de entrada pueden definir que solo deben detectarse los niveles de señal correspondientes a las etapas de translocación completa, o solo los niveles de señal correspondientes a las etapas de translocación fraccionada, o los niveles de señal correspondientes a las etapas de translocación completa y fraccionada. Los parámetros de entrada también pueden contener información asociada con modos de error (por ejemplo, omisión de nucleótidos o alternancia de nucleótidos), incluyendo posiblemente la propensión y/o grado de ciertos modos de error, que pueden tenerse en cuenta cuando se determinan los niveles. Los parámetros de entrada también pueden incluir información asociada con el entorno particular en el cual el nanoporo, el motor molecular y el polinucleótido interactúan (por ejemplo, la temperatura, salinidad, pH, concentración de cofactores, etc.), que puede usarse para determinar los niveles para una señal dada. El método ilustrado en la Figura 22B también incluye detectar el nivel, por ejemplo, detectar diferentes niveles de señal en la señal que corresponden a las etapas de translocación fraccionada del polinucleótido a través del poro (etapa 2221). Por ejemplo, basándose en la señal obtenida en la etapa 2210 y los parámetros de entrada obtenidos en la etapa 2211, dicha detección de nivel puede detectar regiones de la señal que son suficientemente estadísticamente significativas de otras regiones de la señal para corresponder al nivel. Los métodos ilustrativos de detección de nivel (que también pueden denominarse detección de borde o detección de etapa) son conocidos en la técnica e incluyen la prueba t de Student y la maximización de chi cuadrado. Para algunos ejemplos de algoritmos de detección por etapas que se pueden adaptar adecuadamente para su uso en la detección de niveles en la etapa 2221, véase Carter y col., “A Comparison of Step-Detection Methods: How Well Can You Do?” , Biophysical Journal 94: 306-308 (Enero 2008).
El método ilustrado en la Figura 22B también incluye información del nivel de emisión (etapa 2222) basada en la detección de nivel de la etapa 2221. La información de nivel puede incluir el promedio, la mediana, el modo, la distribución, la duración, el máximo y/o la corriente mínima detectada para un nivel determinado, o cualquier combinación de estos valores, o estos valores pertenecientes a un subconjunto de valores actuales para un nivel determinado (por ejemplo, se puede utilizar la corriente promedio después de eliminar primero la información de la corriente asociada con los modos de error). La información de nivel también puede incluir la desviación estándar de la corriente, o un subconjunto de corriente limitado por banda de frecuencia (por ejemplo, la corriente obtenida después de aplicar un filtro de paso bajo, paso alto o paso de banda, o cualquier combinación de estos filtros). La información de nivel también puede incluir información asociada con las duraciones de los niveles, así como información de modo de error asociada con los niveles. El método ilustrado en la Figura 22B también incluye identificar el nivel (etapa 2223), por ejemplo, determinar cuáles de los niveles detectados en la etapa 2221 para los que se obtiene la información de nivel la etapa 2222 corresponde a las etapas de translocación completa o fraccionada del polinucleótido diana. Por ejemplo, la etapa 2223 puede incluir analizar las duraciones de los diferentes niveles detectados en la etapa 2221 para los que se obtiene la información de nivel la etapa 2222, y en función de tales duraciones, identificar ciertos niveles como correspondientes a las etapas de translocación completa, e identificar otros niveles ciertos como correspondientes a las etapas de translocación fraccionada. Como un ejemplo, se puede suponer que los niveles de señal que tienen una duración más corta que un primer umbral corresponden al ruido y, por lo tanto, se descartan, mientras que se puede suponer que los niveles de señal que tienen una duración más larga que un primer umbral y más corta que un segundo umbral, corresponden a una etapa de translocación fraccionada y, por lo tanto, se identifican como tales, mientras que los niveles de señal que tienen una duración más larga que el segundo umbral y más corta que un tercer umbral se puede suponer que corresponden a una etapa de translocación completa y, por lo tanto, se identifican como tales, mientras que los niveles de señal que tienen una duración más larga que el tercer umbral se puede suponer que corresponden a un error o a una ausencia de polinucleótido y, por lo tanto, descartarse.
El método ilustrado en la Figura 22B también incluye emitir una o más de las siguientes salidas: niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel. Por ejemplo, como se indicó anteriormente, los parámetros de entrada obtenidos en la etapa 2211 pueden definir que solo deben detectarse los niveles de señal correspondientes a las etapas de translocación completa, o solo los niveles de señal correspondientes a las etapas de translocación fraccionada, o los niveles de señal correspondientes a las etapas de translocación completa y fraccionada (por ejemplo, “todos los niveles” ). Obsérvese que, en algunas realizaciones, seleccionar “todos los niveles” a través de los parámetros de entrada puede corresponder a evitar la etapa de identificación de nivel, de modo que la etapa de detección de nivel 2221 genera directamente todos los niveles. Como alternativa, basándose en los resultados de la detección de nivel 2223 y los parámetros de entrada 2211, pueden emitirse los niveles identificados de las señales deseadas, por ejemplo, para un procesamiento adicional tal como se describe a continuación con referencia a las Figuras 22C y 22D. Los identificadores de nivel pueden incluir cualquier información adecuada que facilite un análisis adicional de los niveles, por ejemplo, índices que indican las duraciones de etapas completas o fraccionadas que se usaron durante la etapa 2223 para indicar el tipo de transición a la que corresponde un nivel identificado.
Con referencia de nuevo a la Figura 22A, uno o más de niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel, que pueden generarse usando el procedimiento ilustrado en la Figura 22B o usando otro procedimiento adecuado, pueden usarse como entrada para realizar la determinación de secuencia (etapa 2230 en la Figura 22A). Por ejemplo, la Figura 22C ilustra un primer método ilustrativo para realizar la determinación de secuencia basándose en uno o más de tales niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel, por ejemplo, que toman como entrada uno o más niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel. El método ilustrado en la Figura 22C incluye una etapa de lectura de la secuencia basada en la entrada de uno o más de niveles completos, niveles fraccionados, todos los niveles e identificadores de nivel (etapa 2231). La lectura de la secuencia puede incluir cualquier método adecuado basado en qué bases de nucleótidos del polinucleótido diana pueden leerse en función de los niveles de señal de entrada. Los métodos ilustrativos de lectura de la secuencia incluyen, pero no se limitan a, algoritmos de Viterbi tales como los descritos en el Ejemplo VII con referencia a la Figura 19A, algoritmos de Viterbi modificados tales como los descritos en el Ejemplo VII con referencia a la Figura 19B, o coincidencia de patrones análoga a la descrita en el Ejemplo XI. Se pueden usar adecuadamente otros métodos para la lectura de la secuencia. La salida de la lectura de la secuencia (etapa 2231) puede incluir una pluralidad de secuencias leídas, por ejemplo, Secuencia A, Secuencia B, ... Secuencia N, así como información de confianza para cada secuencia leída. Las diferentes secuencias leídas pueden basarse en una entrada diferente de otra en la etapa 2231. Por ejemplo, una primera secuencia leída (por ejemplo, Secuencia A) puede basarse en una entrada en la etapa 2231 en la cual solo se identifican los niveles de translocación completa en función de una señal dada obtenida en la etapa 2210, una segunda secuencia leída (por ejemplo, Secuencia B) puede basarse en una entrada en la etapa 2231 en la cual solo se identifican los niveles de translocación fraccionada, y una tercera secuencia denominada (por ejemplo, Secuencia N) puede basarse en una entrada en la etapa 2231 en la cual se identifican todos los niveles de translocación (por ejemplo, niveles de translocación completa y fraccionada). Como alternativa o adicionalmente, otras secuencias leídas pueden basarse en otros niveles que se identificaron en función de los parámetros de entrada alternativos obtenidos en la etapa 2211, tales como diferentes valores de parámetros que definen qué características de señal características deben detectarse y determinarse para que correspondan a una señal, tal como diferentes cambios de magnitud umbral en el valor de señal, por encima del cual un cambio de magnitud en la señal puede detectarse como correspondiente a un nivel. Cada secuencia leída diferente puede tener información de confianza asociada, por ejemplo, un valor que representa la probabilidad de que la secuencia leída corresponda a la secuencia real del nucleótido diana.
En la realización ilustrada en la Figura 22C, una etapa de selección de secuencia (etapa 2232) puede seleccionar una o más de las secuencias leídas y proporcionar la secuencia seleccionada como salida (etapa 2240). Como un ejemplo, la etapa de selección de secuencia (etapa 2232) puede incluir comparar la información de confianza para las diversas secuencias leídas, y puede seleccionar y emitir en la etapa 2240 la secuencia leída que tiene la mayor confianza, por ejemplo, la mayor probabilidad de corresponder a la secuencia real. Como otro ejemplo, la información de confianza para una secuencia leída dada puede incluir una pluralidad de valores de confianza que representan respectivamente la probabilidad de que las porciones correspondientes de la secuencia leída correspondan a la secuencia real del polinucleótido diana para esa porción. Para diferentes porciones de las secuencias leídas (por ejemplo, porciones que tienen 10 pares de bases de longitud, o 50 pares de bases de longitud o 100 pares de bases de longitud, o 10-100 pares de bases de longitud o 10-50 pares de bases de longitud, o 50-100 pares de bases de longitud), la etapa de selección de secuencia (etapa 2232) puede incluir comparar el valor de confianza para diferentes secuencias leídas en esa porción, y seleccionar la porción de la secuencia leída que tiene el valor más alto para esa porción. Esa porción seleccionada puede concatenarse con, o puede alinearse con, las porciones seleccionadas de otras secuencias leídas que tienen el valor más alto para tales porciones.
La Figura 22D ilustra un método alternativo que puede usarse para la determinación de secuencia (2230). El método ilustrado en la Figura 22D puede incluir obtener como entrada una pluralidad de secuencias leídas, por ejemplo, Secuencia A, Secuencia B, ... Secuencia N, así como información de confianza para cada secuencia leída, que puede ser análoga a las descritas anteriormente con referencia a la Figura 22C. A este respecto, aunque no se ilustra específicamente, el método ilustrado en la Figura 22D puede incluir la etapa 2231 de lectura de la secuencia que recibe entradas análogas a las descritas anteriormente con referencia a la Figura 22C, y proporciona salidas análogas a las descritas anteriormente con referencia a la Figura 22C, y funciona análogamente a la etapa 2231. Como alternativa, el método ilustrado en la Figura 22D puede obtener la pluralidad de secuencias leídas de cualquier otra fuente adecuada.
El método ilustrado en la Figura 22D también puede incluir obtener secuencias modelo (etapa 2234). Por ejemplo, tales secuencias pueden incluir secuencias conocidas a priori para una o más especies diferentes, tales como uno o más patógenos diferentes. De manera ilustrativa, las secuencias modelo pueden almacenarse en una tabla de búsqueda, base de datos u otra estructura de datos adecuada almacenada en un medio legible por ordenador no transitorio. El método ilustrado en la Figura 22D también puede incluir una etapa de selección de secuencia (etapa 2233). En la realización ilustrada en la Figura 22D, la etapa de selección de secuencia puede seleccionar una o más de las secuencias leídas recibidas como entrada, basándose en una o más de las secuencias modelo obtenidas en la etapa 2234, y proporcionar como salida una secuencia propuesta y nueva información de confianza. Como un ejemplo, la etapa de selección de secuencia (etapa 2233 en la Figura 22D) puede incluir comparar una o más de las diversas secuencias leídas con una o más de las secuencias modelo obtenidas en la etapa 2234, y puede seleccionar y emitir una secuencia propuesta, que puede corresponder a la secuencia leída que tiene la nueva información de confianza más alta, por ejemplo, la mayor probabilidad de corresponder a la secuencia modelo. La información de confianza de entrada se puede ponderar con la probabilidad de una secuencia (o regiones dentro de esa secuencia) para que coincida con una secuencia modelo (o regiones dentro de la secuencia modelo) para determinar la secuencia más probable, que puede emitirse como la secuencia propuesta. Por ejemplo, para la secuencia de entrada A que se alinea mejor con la secuencia modelo Z y la secuencia de entrada B que se alinea mejor con la secuencia modelo Y, una secuencia propuesta puede ser la secuencia modelo Z basada en una mejor alineación entre A y Z que entre B e Y. Sin embargo, en los casos en los que B e Y tienen una mejor alineación, los casos en los que A tiene un valor de confianza más alto que B puede permitir que Z sea la secuencia propuesta. Además, en otro escenario, las regiones de secuencias pueden compararse, lo que permite que la secuencia propuesta de salida incluya información de secuencia de A, B, Z e Y. Como alternativa, una secuencia leída dada puede incluir nueva información de confianza, por ejemplo, una pluralidad de nuevos valores de confianza que representan respectivamente la probabilidad de que las porciones correspondientes de la secuencia leída correspondan a porciones de una o más secuencias modelo para esa porción. Para diferentes porciones de las secuencias leídas (por ejemplo, porciones que tienen 10 pares de bases de longitud, o 50 pares de bases de longitud o 100 pares de bases de longitud, o 10-100 pares de bases de longitud o 10-50 pares de bases de longitud, o 50-100 pares de bases de longitud), la etapa de selección de secuencia (etapa 2233) puede incluir comparar el nuevo valor de confianza para diferentes secuencias leídas en esa porción para la secuencia o secuencias modelo, y seleccionar la porción de la secuencia leída que tiene el valor de confianza nuevo más alto para esa porción. Esa porción seleccionada puede concatenarse con, o puede alinearse con, las porciones seleccionadas de otras secuencias leídas que tienen el valor de confianza nuevo más alto para tales porciones.
El método ilustrado en la Figura 22D puede incluir además determinar, basándose en la nueva información de confianza emitida por la etapa 2233, si la nueva información de confianza para la secuencia propuesta, también emitida por la etapa 2233, cumple con los requisitos (etapa 2235). Como un ejemplo, la etapa 2235 puede comparar la nueva información de confianza, que puede ser un nuevo valor de confianza, con un valor de confianza umbral en o por encima del cual se puede determinar que la secuencia propuesta coincide suficientemente con el modelo, y por debajo del cual la secuencia propuesta se puede determinar para que coincida insuficientemente con el modelo. La nueva información de confianza puede incluir el resultado de información de limitación de entrada, la relación entre la secuencia propuesta y las secuencias de entrada, la relación entre la secuencia propuesta y las secuencias modelo y/o la relación entre las secuencias de entrada y las secuencias modelo. Por ejemplo, en un caso donde la secuencia propuesta es simplemente una de las secuencias de entrada, la nueva información de confianza puede ser una media ponderada entre el valor de confianza de entrada de la secuencia de entrada y su puntuación de alineación a la secuencia modelo de mejor alineación. En otros casos, tal como cuando la secuencia propuesta es una combinación de regiones de secuencias de entrada, la nueva información de confianza puede incluir una media ponderada de medios ponderados de valores de confianza de entrada y puntuaciones de alineación (a las secuencias modelo) entre las regiones en la secuencia propuesta. Basándose en la determinación en la etapa 2235 de que la nueva información de confianza cumple con los requisitos (“sí” ), la etapa 2235 proporciona la secuencia propuesta como salida (etapa 2240). Basándose en la determinación en la etapa 2235 de que la nueva información de confianza no cumple con los requisitos, la etapa 2235 vuelve a la etapa 2233 en la cual continúa la selección de secuencia, por ejemplo, realizando comparaciones adicionales de las secuencias leídas con las secuencias modelo. El algoritmo de selección de secuencia o el conjunto de secuencias modelo pueden depender de parámetros, que pueden incluir una o más de la secuencia propuesta, nueva información de confianza, el número de veces que se ha ejecutado el algoritmo de selección de secuencia, y las secuencias modelo que ya se han investigado. Por ejemplo, una pasada inicial a través del algoritmo de selección de secuencia puede utilizar relativamente pocas secuencias modelo (por ejemplo, por razones de rendimiento). Sin embargo, si la alineación entre las secuencias de entrada y las secuencias modelo es relativamente pobre, entonces la nueva información de confianza puede no cumplir con los requisitos y, por lo tanto, la comparación con un conjunto nuevo o más refinado de secuencias modelo puede realizarse al volver a la etapa 2233.
Ejemplo XI
Reconocimiento de patrones, opcionalmente para la identificación de SNP
En algunas realizaciones, los métodos y composiciones descritos en el presente documento pueden usarse en combinación con métodos para la detección, genotipado y amplificación de ácidos nucleicos múltiplex. Los métodos para la detección, genotipado y amplificación de ácidos nucleicos múltiplex son bien conocidos en la técnica y pueden seleccionarse y aplicarse fácilmente por un experto en la técnica. Por ejemplo, en una realización, los métodos y composiciones descritos en el presente documento se pueden usar en combinación con los métodos de detección, genotipado y amplificación de ácidos nucleicos múltiplex descritos en las patentes US-6.890.741, US-6.913.884, US-7.955.794, 7582.420, US-8.288.103, y la publicación US-2013-0244882
En algunas realizaciones, los métodos para detección, genotipado y amplificación de ácidos nucleicos múltiplex que pueden combinarse con los métodos y composiciones descritos en el presente documento incluyen métodos realizados en o en combinación con un soporte sólido tal como una matriz (tanto aleatoria como ordenada) o perlas. Por ejemplo, en algunos aspectos, los polinucleótidos diana a ensayar, tales como ADN genómico, pueden inmovilizarse en un soporte sólido. Dichos polinucleótidos diana inmovilizados pueden someterse a los métodos de reconocimiento y genotipado de ácido nucleico múltiplex que son bien conocidos en la técnica. El polinucleótido diana resultante se puede caracterizar usando los métodos descritos en el presente documento.
En algunas realizaciones, los métodos para caracterizar un polinucleótido diana pueden incluir además las etapas necesarias para generar el polinucleótido diana a ensayar. Por consiguiente, en algunas realizaciones, el método puede incluir las etapas de: (a) proporcionar una pluralidad de secuencias de ácido nucleico diana que comprenden cada una de 3' a 5', un primer, segundo y tercer dominio diana, comprendiendo el primer dominio diana una posición de detección, siendo el segundo dominio diana al menos un nucleótido; (b) poner en contacto las secuencias de ácido nucleico diana con conjuntos de sondas para cada secuencia diana para formar un conjunto de primeros complejos de hibridación, comprendiendo cada conjunto de sondas: una primera sonda que comprende de 5' a 3', una secuencia de cebado universal y una secuencia sustancialmente complementaria al primer dominio diana de una secuencia diana, y una posición de interrogación adecuada para el emparejamiento de bases con la posición de detección (por ejemplo, dentro de las bases terminales 3'), y una segunda sonda que comprende de 5' a 3', una secuencia sustancialmente complementaria al tercer dominio diana de una secuencia diana y secuencia de cebado universal, en donde opcionalmente al menos una sonda contiene una secuencia de identificación de locus (por ejemplo, etiqueta o código de barras); (c) poner en contacto los complejos de hibridación con una enzima de extensión y dNTP, en condiciones en las que si la base en las posiciones de interrogación son perfectamente complementarias con las bases en las posiciones de detección, la extensión de las primeras sondas se produce a través de los segundos dominios diana para formar segundos complejos de hibridación; y (d) ligar las primeras sondas extendidas a segundas sondas para formar plantillas de amplificación. En algunos aspectos de este método, la primera o segunda sonda de los conjuntos de sondas puede incluir una secuencia de identificación de alelos (por ejemplo, etiqueta o código de barras).
En algunas realizaciones, los métodos para caracterizar un polinucleótido diana pueden incluir además las etapas de: (a) proporcionar una pluralidad de secuencias de ácido nucleico diana que comprenden cada una de 3' a 5', un primer, segundo y tercer dominio diana, comprendiendo el primer dominio diana una posición de detección, siendo el segundo dominio diana al menos un nucleótido; (b) poner en contacto las secuencias de ácido nucleico diana con sondas que comprenden cada una de 5' a 3' una secuencia de cebado universal y una secuencia sustancialmente complementaria al primer dominio diana de una secuencia diana, y una posición de interrogación adecuada para el emparejamiento de bases con la posición de detección (por ejemplo, dentro de las cuatro bases terminales 3'), en donde opcionalmente las sondas contienen una secuencia de identificación de locus (por ejemplo, etiqueta o código de barras); (c) poner en contacto los complejos de hibridación con una enzima de extensión y dNTP, en condiciones en las que si la base en las posiciones de interrogación son perfectamente complementarias con las bases en las posiciones de detección, la extensión de las sondas se produce a través del segundo y tercer dominios diana para formar sondas extendidas que pueden actuar como plantillas de amplificación.
El método para generar el polinucleótido diana para analizar en los métodos descritos en el presente documento puede incluir además amplificar las plantillas de amplificación para producir amplicones. En algunos aspectos, los cebadores que comprenden la secuencia de cebado universal para la primera o segunda sonda también incluyen una secuencia de identificación de alelos o una secuencia de identificación de locus (por ejemplo, etiqueta o código de barras), dependiendo de qué secuencia de identificación ya se ha incorporado en la plantilla de amplificación. Estos amplicones, que pueden incluir tanto una secuencia de identificación de locus como una secuencia de identificación de alelo, pueden caracterizarse usando los métodos descritos en el presente documento. La caracterización de la secuencia diana puede indicar el genotipo de la muestra basándose en la presencia del locus y las secuencias de identificación de alelos.
En algunas realizaciones, los cebadores usados para producir amplicones incluyen uno o más residuos modificados que no permiten que la enzima de extensión usada durante la amplificación atraviese los residuos. Por ejemplo, en algunos aspectos, un cebador incluye un sitio abásico (un sitio apurínico/apirimidinico), una fosforamidita espaciadora C3 (espaciador Int C3), un espaciador de trietilenglicol (espaciador Int 9) o un espaciador de hexaetilenglicol de 18 átomos (espaciador Int 18) para evitar que la enzima de extensión continúe con la extensión del cebador. Se entiende que un experto en la técnica puede seleccionar otros residuos modificados que pueden realizar esta misma función. El uno o más residuos modificados pueden ubicarse dentro de la secuencia de identificación del alelo o a cada lado de la secuencia de identificación del alelo siempre que se genere un saliente 5' de longitud suficiente para caracterizar el polinucleótido diana usando los métodos descritos en el presente documento. Por ejemplo, el saliente 5' tiene una longitud suficiente para permitir la inmovilización del amplicón.
En algunas realizaciones, los amplicones generados por los métodos anteriores se ponen en contacto adicionalmente con una nicasa endonucleasa para generar un saliente 3' en o cerca de la segunda secuencia de sonda. Dichas enzimas nicasas pueden ser específicas de secuencia de manera que solo se escinde una cadena de un producto bicatenario. Una variedad de endonucleasas nicasas son bien conocidas en la técnica y se reconoce que un experto en la técnica puede seleccionar fácilmente una endonucleasa apropiada basada en la sonda y la secuencia de cebado. Para generar el saliente 3' después de la escisión por la endonucleasa nicasa, se pueden usar varios métodos conocidos en la técnica, que incluyen, por ejemplo, desnaturalizar parcialmente los amplicones de manera que la parte más pequeña de la cadena cortada se libere del amplicón, mientras que el resto del amplicón permanece hibridado. Para facilitar la retirada de la porción más pequeña del amplicón, se puede añadir un complemento inverso de la porción más pequeña para hibridarse con la cadena no deseada.
En algunas realizaciones, se puede generar un saliente 3' incluyendo uno o más residuos de uracilo en la segunda secuencia de sonda descrita en los métodos anteriores y poner en contacto el amplicón con una enzima específica de uracilo que genera específicamente un solo hueco de nucleótido en la ubicación del uracilo. Un ejemplo no limitante de dicha enzima específica de uracilo es el reactivo de escisión específico de Uracilo (USER™) Enzima (New England Biolabs). Por consiguiente, los fragmentos intercalados más pequeños generados por la enzima pueden desnaturalizarse fácilmente del amplicón usando métodos bien conocidos.
En ciertos aspectos, el saliente 3' que se genera es de una longitud suficiente para facilitar la unión de una helicasa descrita en el presente documento. Por consiguiente, en algunos aspectos, el saliente 3' incluye al menos 4 nucleótidos de longitud. En otros aspectos, el saliente 3' incluye entre 4-20 nucleótidos de longitud, o en ciertos aspectos entre 8-16, o en otros aspectos entre 10 y 16 nucleótidos de longitud.
La expresión “ secuencia de identificación de locus” se refiere a una secuencia de residuos de ácido nucleico (por ejemplo, una etiqueta o código de barras) que se ha asignado o se sabe que está conectada a una ubicación particular en un polinucleótido diana. La ubicación de un polinucleótido diana puede ser, por ejemplo, un gen, una porción de un gen (por ejemplo, exón o intrón) o una región no codificante (por ejemplo, promotor o potenciador) en un genoma que está en proximidad al alelo que se está analizando. La secuencia de identificación de locus puede ser una secuencia natural que es específica de la ubicación de la secuencia diana de interés y/o una secuencia sintética que no es nativa de la secuencia diana de interés. La secuencia de identificación de locus puede asignarse mediante un patrón de señal esperado de la etiqueta o código de barras.
La expresión “ secuencia de identificación de alelo” se refiere a una secuencia de residuos de ácido nucleico (por ejemplo, una etiqueta o código de barras) que se ha asignado a un residuo de ácido nucleico específico que está en una posición de detección de un polinucleótido diana. La secuencia de identificación de alelo puede indicar la presencia de un residuo de ácido nucleico (por ejemplo, A, T, C o G) en una posición de detección. La secuencia de identificación de alelo también puede asignarse mediante un patrón de señal esperado de la etiqueta o código de barras.
En otra realización, los métodos para caracterizar un polinucleótido diana pueden incluir además las etapas descritas en la Figura 18. Dicho método puede incluir las etapas de: (a) proporcionar una muestra que tiene diferentes secuencias de ácido nucleico diana de interés, en donde las diferentes secuencias de ácido nucleico diana se inmovilizan opcionalmente en un soporte sólido; (b) poner en contacto la muestra con un conjunto de sondas para cada una de las diferentes secuencias de ácido nucleico diana de interés para formar complejos de hibridación, comprendiendo cada conjunto: una primera sonda que comprende de 5' a 3': una primera secuencia de cebado universal y una secuencia que es sustancialmente complementaria al primer dominio diana y que tiene una posición de interrogación adecuada para el emparejamiento de bases con la posición de detección; y una segunda sonda que comprende de 5' a 3': una secuencia sustancialmente complementaria al tercer dominio diana, y una segunda secuencia cebadora universal, en donde al menos una sonda contiene una secuencia de identificación de locus (por ejemplo, etiqueta o código de barras) que no es nativa de la secuencia diana de interés; (c) poner en contacto los complejos de hibridación con una enzima de extensión y dNTP, en donde para cada complejo de hibridación, si la base en la posición de interrogación es perfectamente complementaria a la base en la posición de detección, entonces la primera sonda se extiende a lo largo del segundo dominio diana; (d) ligar las primeras sondas extendidas a las segundas sondas para formar plantillas de amplificación; (e) amplificar las plantillas de amplificación con el primer y segundo cebador universal para producir amplicones, en donde al menos un cebador incluye una secuencia de identificación de alelo (por ejemplo, etiqueta o código de barras), en donde la secuencia de identificación de alelo comprende un sitio abásico; (f) poner en contacto los amplicones con una endonucleasa de corte para generar un saliente 3' en la segunda secuencia de cebador; y (g) detectar la presencia tanto de la secuencia de identificación de locus como de la secuencia de identificación de alelo de diferentes amplicones usando los métodos para las caracterizaciones de polinucleótidos diana descritas en el presente documento, indicando de este modo la presencia de las diferentes secuencias diana de interés en la muestra.
Como se usa en el presente documento, el término “ múltiplex” o equivalentes gramaticales se refiere a la detección, análisis o amplificación de más de una secuencia diana de interés. En una realización, múltiplex se refiere a al menos 100 o 200 secuencias diana diferentes, aunque se prefiere al menos 500 secuencias diana diferentes. Más preferido es al menos 1000, particularmente preferido más de 5000 o 10.000 y lo más preferido más de 50.000 o 100.000. La detección se puede realizar en una variedad de plataformas como se describe en el presente documento.
En algunos aspectos, la descripción en el presente documento proporciona métodos para la detección de secuencias diana de ácido nucleico en una muestra. Como apreciarán los expertos en la técnica, la solución de muestra puede comprender cualquier número de cosas, que incluyen, pero no se limitan a, fluidos corporales (que incluyen, pero no se limitan a, sangre, orina, suero, linfa, saliva, secreciones anales y vaginales, transpiración y semen, de virtualmente cualquier organismo, prefiriéndose muestras de mamífero y siendo las muestras humanas particularmente preferidas); muestras ambientales (que incluyen, pero no se limitan a, muestras de aire, agrícolas, agua y suelo); muestras de agentes de guerra biológica; muestras de investigación; muestras purificadas, tales como ADN genómico purificado, ARN, proteínas, etc.; muestras sin procesar (bacterias, virus, ADN genómico, etc.). Como apreciarán los expertos en la técnica, prácticamente cualquier manipulación experimental puede haberse realizado en la muestra.
Si es necesario, el polinucleótido diana se prepara usando técnicas conocidas. Por ejemplo, la muestra puede tratarse para lisar las células, usando tampones de lisis conocidos, sonicación, electroporación, etc., realizando la purificación y amplificación como se describe a continuación según sea necesario, como apreciarán los expertos en la técnica. Además, las reacciones descritas en el presente documento pueden lograrse de varias formas, como apreciarán los expertos en la técnica. Los componentes de la reacción pueden añadirse simultáneamente o secuencialmente, en cualquier orden y las realizaciones preferidas se describen a continuación. Además, la reacción puede incluir una variedad de otros reactivos que pueden incluirse en los ensayos. Estos incluyen reactivos como sales, tampones, proteínas neutras, por ejemplo, albúmina, detergentes, etc., que pueden usarse para facilitar la hibridación y detección óptimas, y/o reducir las interacciones no específicas o de fondo. También pueden usarse reactivos que de otro modo mejoran la eficacia del ensayo, tales como inhibidores de proteasa, inhibidores de nucleasas, agentes antimicrobianos, etc., dependiendo de los métodos de preparación de muestras y la pureza de la diana.
Además, en la mayoría de las realizaciones, los polinucleótidos diana bicatenarios se desnaturalizan para convertirlos en monocatenarios para permitir la hibridación de los cebadores y otras sondas descritas en el presente documento. Una realización utiliza una etapa térmica, generalmente al elevar la temperatura de la reacción a aproximadamente 95 °C, aunque también se pueden usar cambios de pH y otras técnicas.
Como se describe en el presente documento, el polinucleótido diana puede ser un producto de una reacción tal como una secuencia de detección de una reacción, una sonda ligada, una sonda extendida de una reacción de PCR o un producto de amplificación por PCR (“ amplicón” ) etc.
En algunas realizaciones, el polinucleótido diana comprende una posición de la cual se desea información de secuencia, generalmente denominada en el presente documento “ posición de detección” En una determinada realización, la posición de detección es un solo nucleótido, aunque en algunas realizaciones, puede comprender una pluralidad de nucleótidos, ya sea contiguos entre sí o separados por uno o más nucleótidos. Por “ pluralidad” , como se usa en el presente documento, se entiende al menos dos. Como se usa en el presente documento, la base que se empareja con una base de posición de detección en un híbrido se denomina una “ posición de lectura” o una “ posición de interrogación” ; por tanto, muchas de las sondas de primera o segunda etapa comprenden una posición de interrogación.
Los métodos descritos en el presente documento pueden adoptar una amplia variedad de configuraciones, como se muestra en las figuras y se describen con más detalle en el presente documento. Generalmente, estos componentes incluyen un componente de reducción de la complejidad, un componente de especificidad y un componente de amplificación. Los componentes se pueden configurar de varias formas como se describe a continuación. Es decir, en una realización, se realiza primero una etapa de reducción de la complejidad. A esto le sigue la etapa de amplificación o especificidad. Como alternativa, la etapa de especificidad se realiza primero. Esto puede ser seguido por la etapa de reducción o amplificación de complejidad. Como alternativa, primero se realiza la amplificación. Esto es seguido por las etapas de complejidad y especificidad.
Si bien lo anterior indica que cada uno de los tres componentes se puede realizar en cualquier orden. Un experto en la técnica apreciará que cuando la amplificación se realiza primero, probablemente habrá algún grado de reducción de la complejidad o la especificidad involucrada. Además, cuando los componentes de especificidad se realizan primero, habrá un grado de reducción de la complejidad. Además, en algunas realizaciones cuando primero se realiza la amplificación, habrá cierto grado de reducción de la especificidad y la complejidad. Sin embargo, como se describe a continuación, el método generalmente incluye tres componentes.
Sondas y cebadores
Como aprecia un experto en la técnica, existen varias sondas o cebadores que pueden usarse en los métodos descritos en el presente documento. Estas sondas/cebadores pueden adoptar una variedad de configuraciones y pueden tener una variedad de componentes estructurales descritos con más detalle a continuación. La sonda de primera etapa puede ser una sonda específica de alelo o una sonda específica de locus. Por sonda o cebador “ específico/a de alelo” se entiende una sonda o cebador que se hibrida con una secuencia diana y discrimina entre alelos o se hibrida con una secuencia diana y se modifica de una manera específica de alelo. Por sonda o cebador “ específico/a de locus” se entiende una sonda o cebador que se hibrida con una secuencia diana de una manera específica de locus, pero no necesariamente discrimina entre alelos. Un cebador específico de locus también puede modificarse, es decir, extenderse como se describe a continuación, de manera que incluya información sobre un alelo particular, pero el cebador específico de locus no discrimina entre alelos.
En muchas realizaciones, las sondas o cebadores comprenden uno o más sitios de cebado universales y/o secuencias de identificación. Por ejemplo, en una configuración, cada una de las cuatro bases alélicas está asociada con una secuencia diferente, es decir, la secuencia de identificación de alelo (por ejemplo, etiqueta o código de barras), teniendo cada secuencia eficiencias de amplificación similares. En otra configuración, una de las sondas incluye una secuencia de identificación de locus (por ejemplo, etiqueta o código de barras).
El tamaño del ácido nucleico de cebador y sonda puede variar, como apreciarán los expertos en la técnica con cada parte de la sonda y la longitud total de la sonda que varía en general de 5 a 500 nucleótidos de longitud. Cada parte puede tener entre 10 y 300, entre 15 y 250, o entre 10 y 35 nucleótidos de longitud, dependiendo de la técnica de uso y amplificación. Por lo tanto, por ejemplo, el o los sitios de cebado universales de las sondas pueden tener entre 15-20 nucleótidos de longitud, siendo 18 los utilizados en ciertas realizaciones. El locus y/o las secuencias de identificación de alelo de las sondas pueden tener entre 10-300 nucleótidos de longitud, usándose de 20-100 en ciertas realizaciones. La porción específica de diana de la sonda puede tener una longitud de 15-50 nucleótidos. Además, el cebador puede incluir un sitio de cebado de amplificación adicional.
En una realización, la sonda o sondas específicas de alelo o locus comprenden un dominio diana sustancialmente complementario a un primer dominio de la secuencia diana. En general, las sondas pueden diseñarse para ser complementarias a una secuencia diana (ya sea la secuencia diana de la muestra o a otras secuencias de la sonda, como se describe en el presente documento), de manera que se produce la hibridación de la diana y las sondas descritas en el presente documento. Esta complementariedad no necesita ser perfeccionada; puede haber cualquier número de emparejamientos erróneos de pares de bases que interferirán con la hibridación entre la secuencia diana y los ácidos nucleicos monocatenarios. Sin embargo, si el número de mutaciones es tan grande que no puede producirse hibridación por debajo de las condiciones de hibridación menos rigurosas, la secuencia no es una secuencia diana complementaria. Por lo tanto, por “ sustancialmente complementaria” en el presente documento se entiende que las sondas son suficientemente complementarias a las secuencias diana para hibridarse en las condiciones de reacción seleccionadas.
Además, las sondas usadas en los métodos descritos en el presente documento pueden construirse para contener el sitio o sitios de cebado necesarios para el esquema de amplificación posterior. En ciertas realizaciones, los sitios de cebado son sitios de cebado universales. Por “ sitio de cebado universal” o “ secuencias de cebado universal” en el presente documento se entiende una secuencia de la sonda que se unirá a un cebador para la amplificación.
Como apreciarán los expertos en la técnica, en general, pueden realizarse reacciones altamente multiplexadas, siendo todos los sitios de cebado universales los mismos para todas las reacciones. Como alternativa, se pueden usar “ conjuntos” de sitios de cebado universales y las sondas correspondientes, ya sea simultánea o secuencialmente. Los sitios de cebado universales se usan para amplificar las sondas modificadas para formar una pluralidad de amplicones que luego se detectan de varias maneras, como se describe en el presente documento.
Por consiguiente, los métodos descritos en el presente documento proporcionan primeros conjuntos de sondas diana. Por “ conjunto de sondas” en el presente documento se entiende una pluralidad de sondas diana que se usan en un ensayo multiplexado particular. En este contexto, la pluralidad significa al menos dos, prefiriéndose más de 10, dependiendo del ensayo, muestra y propósito de la prueba. En una realización, el conjunto de sondas incluye más de 100, prefiriéndose más de 500 sondas y prefiriéndose particularmente más de 1000. En una realización particularmente preferida cada sonda contiene al menos 5000, siendo lo más preferido más de 10.000 sondas.
Componente de reducción de la complejidad
La reducción de la complejidad puede ser un componente del esquema múltiplex expuesto en el presente documento. Generalmente, la reducción de la complejidad es un método para enriquecer una diana o locus particular. Es decir, la reducción de la complejidad se considera un método que da como resultado la eliminación de ácidos nucleicos no diana de la muestra o la eliminación de sondas/cebadores que no se han hibridado correctamente o en absoluto con un ácido nucleico diana. Además, la reducción de la complejidad incluye la eliminación de sondas que no se han modificado durante una etapa enzimática. Es decir, la reducción de la complejidad incluye la eliminación de ácidos nucleicos no diana, es decir, el enriquecimiento de ácidos nucleicos diana o la eliminación de sondas o cebadores no hibridados antes de una etapa enzimática, es decir, una etapa de amplificación o especificidad, o ambas.
Hay una variedad de métodos que incluyen una etapa de reducción de la complejidad. Estos incluyen, pero no se limitan a, inmovilización selectiva de ácidos nucleicos o sondas/cebadores diana que se modifican de una manera específica diana, eliminación selectiva de ácidos nucleicos no diana y destrucción selectiva de ácidos nucleicos no diana. Dicha destrucción incluye, pero no se limita a, desnaturalización, degradación o escisión de ácidos nucleicos no diana. Además, la reducción de la complejidad puede incluir componentes tales como la amplificación selectiva de la diana, aunque esto también incluye la amplificación y los componentes.
En ciertas realizaciones, la reducción de la complejidad se logra inmovilizando selectivamente un cebador que se ha modificado de una manera específica de la diana. Es decir, los cebadores específicos de locus o específicos de alelo se hibridan con una diana. La diana puede estar inmovilizada o en solución. Después de la hibridación, el cebador se extiende en una reacción de extensión del cebador. En algunos aspectos, los cebadores o NTP incluyen una etiqueta de purificación que permite la eliminación o purificación del producto extendido de la mezcla de reacción. Una vez extendido, generalmente el cebador modificado puede inmovilizarse sobre un soporte sólido. Después de la inmovilización del cebador modificado, el soporte se puede lavar para eliminar tanto ácidos nucleicos no diana como cebadores que no se modificaron, es decir, se extendieron. Los cebadores inmovilizados, por lo tanto, incluyen información sobre el locus diana que incluye información alélica particular. Esto da como resultado el enriquecimiento de ácidos nucleicos diana o la eliminación de ácidos nucleicos no diana.
En otra realización, el componente de reducción de la complejidad incluye inmovilización selectiva del polinucleótido diana. Es decir, los polinucleótidos diana se inmovilizan preferiblemente sobre un soporte sólido en lugar de los ácidos nucleicos no diana.
En una realización, el polinucleótido, sonda o cebador diana, que incluye un cebador modificado, se une a un soporte sólido. Por “ soporte sólido” u otros equivalentes gramaticales en el presente documento se entiende cualquier material que es apropiado o puede modificarse de modo que sea apropiado para la unión de las secuencias diana. Como apreciarán los expertos en la técnica, la cantidad de sustratos posibles es muy grande. Posibles sustratos incluyen, pero sin limitarse a, vidrio y vidrio modificado o funcionalizado, plásticos (incluidos acrílicos, poliestireno y copolímeros de estireno y otros materiales, polipropileno, polietileno, polibutileno, poliuretanos, Teflon™, etc.), polisacáridos, nailon o nitrocelulosa, cerámicas, resinas, sílice o materiales basados en sílice que incluyen silicio y silicio modificado, carbono, metales, vidrios inorgánicos, plásticos, haces de fibras ópticas y una variedad de otros polímeros. Se prefieren particularmente perlas magnéticas y placas de microtitulación de alto rendimiento.
La composición y la geometría del soporte sólido varían con su uso. En ciertas realizaciones, se pueden usar soportes que comprenden microesferas o perlas para el soporte sólido. Por “ microesferas” o “ perlas” o equivalentes gramaticales se entiende en el presente documento partículas discretas pequeñas. La composición de las perlas variará, dependiendo de la clase de agente bioactivo y del método de síntesis. Las composiciones de perlas adecuadas incluyen las usadas en la síntesis de péptidos, ácidos nucleicos y restos orgánicos, que incluyen, pero no se limitan a, plásticos, cerámicas, vidrio, poliestireno, metilestireno, polímeros acrílicos, materiales paramagnéticos, toria sol, carbono grafito, dióxido de titanio, látex o dextranos reticulados tales como sefarosa, celulosa, nailon, micelas reticuladas y teflón, así como cualquier otro material mencionado en el presente documento para soportes sólidos. La “ Microsphere Detection Guide” de Bangs Laboratories, Fishers IN es una guía útil. Preferiblemente, en esta realización, cuando se realiza la reducción de la complejidad, las microesferas son microesferas magnéticas o perlas.
Una vez unido al soporte sólido, la secuencia diana, sonda o cebadores son susceptibles de análisis como se describe en el presente documento.
Se puede usar una variedad de condiciones de hibridación o lavado que incluyen condiciones de rigurosidad alta, moderada y baja; véase, por ejemplo, Maniatis y col., Molecular Cloning: A Laboratory Manual, 2a Edición, 1989, y Short Protocols in Molecular Biology, ed. Ausubel, y col. Las condiciones rigurosas dependen de la secuencia y serán diferentes en diferentes circunstancias. Las secuencias más largas se hibridan específicamente a temperaturas más altas. Una guía extensa sobre la hibridación de ácidos nucleicos se encuentra en Tijssen, Techniques in Biochemistry and Molecular BiologyHybridization with Nucleic Acid Probes, “ Overview of principles of hybridization and the strategy of nucleic acid assays” (1993). Generalmente, las condiciones rigurosas se seleccionan para que sean aproximadamente 5-10 °C más bajas que el punto de fusión térmico (Tm) para la secuencia específica a una fuerza iónica y pH definidos. La Tm es la temperatura (bajo fuerza iónica definida, pH y concentración de ácido nucleico) a la cual el 50 % de las sondas complementarias con la diana se hibridan con la secuencia diana en equilibrio (ya que las secuencias diana están presentes en exceso, a Tm, el 50 % de las sondas están ocupadas en equilibrio). Las condiciones rigurosas serán aquellas en las cuales la concentración de sal es inferior a aproximadamente 1,0 M de ion sodio, normalmente aproximadamente de 0,01 a 1,0 M de concentración de iones de sodio (u otras sales) a pH 7,0 a 8,3 y la temperatura es al menos aproximadamente 30 °C para sondas cortas (por ejemplo, 10 a 50 nucleótidos) y al menos aproximadamente 60 °C para sondas largas (por ejemplo, más de 50 nucleótidos). Las condiciones rigurosas también se pueden lograr con la adición de agentes desestabilizadores helicoidales tales como formamida.
Por “ enzima de extensión” en el presente documento se entiende que es una enzima que extenderá una secuencia mediante la adición de NTP. Como es bien conocido en la técnica, hay una amplia variedad de enzimas de extensión adecuadas, de las cuales se prefieren las polimerasas (tanto de ARN como ADN, dependiendo de la composición de la secuencia diana y la sonda precircular). Las polimerasas preferidas son aquellas que carecen de actividad de desplazamiento de cadena, de manera que serán capaces de añadir solo las bases necesarias al final de la sonda, sin extender aún más la sonda para incluir nucleótidos que son complementarios a un dominio de direccionamiento y, por lo tanto, prevenir la circularización. Las polimerasas adecuadas incluyen, pero no se limitan a, ADN y ARN polimerasas, que incluyen el fragmento Klenow de ADN polimerasa I, SEq Ue NASE 1.0 y SEQUENASE 2.0 (U.S. Biochemical), ADN polimerasa T5, ADN polimerasa Phi29 y diversas ARN polimerasas tales como de Thermus sp., o Q beta replicasa de bacteriófago, también pueden usarse las ARN polimerasas SP6, T3, T4 y T7, entre otras.
Las polimerasas también pueden incluir aquellas que están esencialmente desprovistas de una actividad de exonucleasa 5' a 3', para asegurar que la sonda no se extenderá más allá del extremo 5' de la sonda. Las enzimas ilustrativas que carecen de actividad de exonucleasa 5' a 3' incluyen el fragmento Klenow de la ADN polimerasa y el fragmento Stoffel de la polimerasa DNAPT ac. Por ejemplo, el fragmento Stoffel de la ADN polimerasa T aq carece de actividad de exonucleasa 5' a 3' debido a manipulaciones genéticas, lo que da como resultado la producción de una proteína truncada que carece de los 289 aminoácidos N-terminales. (Véase, por ejemplo, Lawyer y col., J. Biol.
Chem., 264:6427-6437 (1989); y Lawyer y col., PCR Meth. Appl., 2:275-287 (1993)). Se han generado polimerasas mutantes análogas para las polimerasas derivadas de T. marítima, Tsps17, TZ05, Tth y Taf.
Las polimerasas adicionales son aquellas que carecen de una actividad de exonucleasa 3' a 5', que se denomina comúnmente actividad de lectura de prueba, y que elimina las bases que no coinciden en el extremo 3' de un dúplex de cebador-plantilla. Aunque la presencia de actividad exonucleasa 3' a 5' proporciona una mayor fidelidad en la cadena sintetizada, la actividad de exonucleasa 3' a 5' observada con las ADN polimerasas termoestables tales como T ma (incluidas las formas mutantes de Tma que carecen de actividad exonucleasa 5' a 3') también degrada ADN monocatenario como los cebadores usados en la PCR, plantillas monocatenarias y productos de PCR monocatenarios. La integridad del extremo 3' de un cebador oligonucleotídico usado en un proceso de extensión del cebador es fundamental ya que es desde este extremo donde comienza la extensión de la cadena naciente. La degradación del extremo 3' conduce a un oligonucleótido acortado que a su vez da como resultado una pérdida de especificidad en la reacción de cebado (es decir, cuanto más corto es el cebador, más probable es que se produzca un cebado falso o no específico).
Sin embargo, las polimerasas adicionales son polimerasas termoestables. Una enzima resistente al calor puede incluir cualquier enzima que retenga la mayor parte de su actividad después de una hora a 40 °C en condiciones óptimas. Los ejemplos de polimerasa termoestable que carecen de exonucleasa 5' a 3' y exonucleasa 3' a 5' incluyen el fragmento Stoffel de la ADN polimerasa Taq. Esta polimerasa carece de la actividad exonucleasa 5' a 3' debido a la manipulación genética y no está presente ninguna actividad 3' a 5' ya que la polimerasa Taq carece naturalmente de la actividad exonucleasa 3' a 5'. La ADN polimerasa Tth se deriva de Thermus thermophilus, y está disponible en Epicentre Technologies, Molecular Biology Resource Inc., o Perkin-Elmer Corp. Otras ADN polimerasas útiles que carecen de actividad exonucleasa 3' incluyen una Vent [R] (exo-), disponible en New England Biolabs, Inc., (purificada a partir de cepas de E. coli que portan un gen de ADN polimerasa de la arqueabacteria Thermococcus litoralis) y la ADN polimerasa Hot Tub derivada de Thermus flavus y disponible en Amersham Corporation. Otras enzimas preferidas que son termoestables y carecen de actividad exonucleasa 5' a 3' y de actividad exonucleasa 5' a 3' incluyen AmpliTaq Gold. Otras ADN polimerasas, que son al menos sustancialmente equivalentes, pueden usarse como otra ADN polimerasa I de Thermus acuaticus (Taq) truncada en el extremo N-terminal. Las polimerasas denominadas KlenTaq I y KlenTaq LA son bastante adecuadas para ese propósito. Por supuesto, también se puede usar cualquier otra polimerasa que tenga estas características
Las condiciones para realizar la adición de uno o más nucleótidos en el extremo 3' de la sonda dependerán de la enzima particular usada, y generalmente seguirán las condiciones recomendadas por el fabricante de las enzimas utilizadas.
Componente de especificidad
En general, después de una etapa de reducción de la complejidad, se incluye una etapa de especificidad en el método descrito en el presente documento. Por “ componente de especificidad” se entiende una etapa que discrimina entre ácidos nucleicos diana, preferiblemente a nivel del alelo. Es decir, el componente de especificidad es una etapa específica de alelo (por ejemplo, genotipado o análisis de SNP). Si bien cierto nivel de especificidad se puede lograr simplemente hibridando sondas específicas de alelo en la plantilla (es decir, el producto de la etapa de reducción de la complejidad anterior), en una realización preferida, la etapa de especificidad incluye una etapa enzimática. Es decir, la fidelidad de una etapa enzimática mejora la especificidad para la discriminación de alelos. Las enzimas preferidas incluyen ADN polimerasas, ARN polimerasas y ligasas como se describe con más detalle en el presente documento.
Las polimerasas como se ha descrito anteriormente también pueden ser adecuadas para las etapas de especificidad.
Muchas ligasas son conocidas y son adecuadas para su uso en los métodos descritos en el presente documento. Las ligasas ilustrativas se describen en Lehman, Science, 186: 790-797 (1974); Engler y col., DNA Ligases, páginas 3-30 en Boyer, editor, The Enzymes, Vol. 15B (Academic Press, New York, 1982); y similares. Las ligasas preferidas incluyen ADN ligasa T4, ADN ligasa T7, ADN ligasa de E. coli, ligasa Taq, ligasa Pfu y ligasa Tth. Los protocolos para su uso son bien conocidos, por ejemplo, Sambrook y col., (citado anteriormente); Barany, PCR Methods and Applications, 1: 5-16 (1991); Marsh y col., Stratategies, 5: 73-76 (1992); y similares. Generalmente, las ligasas requieren que un grupo 5' fosfato esté presente para la ligadura al hidroxilo 3' de una cadena contigua. Las ligasas preferidas incluyen ligasas termoestables o (termófilas), tales como ligasa pfu, ligasa Tth, ligasa Taq y ADN ligasa Ampligase™ (Epicentre Technologies, Madison, WI). Ampligase tiene una baja actividad de ligadura de extremos romos.
En ciertas realizaciones, la ligasa es aquella que tiene la menor ligadura de emparejamiento erróneo. La especificidad de la ligasa se puede aumentar sustituyendo las ligasas dependientes de NAD+ más específicas, tales como la ligasa de E. coli y la ligasa Taq (termoestable) por la ADN ligasa de T4 menos específica. El uso de análogos de NAD en la reacción de ligadura aumenta aún más la especificidad de la reacción de ligadura. Véase la patente US-5.508.179 de Wallace y col.
En una realización, el componente de especificidad se realiza con dianas inmovilizadas. Es decir, los productos de la etapa de reducción de la complejidad se inmovilizan sobre un soporte sólido como se describe en el presente documento. Como se analiza en el presente documento, la diana de la reacción de especificidad se denomina “ diana de especificidad” . Es decir, el producto de la etapa de reducción de la complejidad es la diana de especificidad.
En una realización, el soporte es el mismo soporte que en la etapa de reducción de la complejidad inicial. En esta realización, el ácido nucleico diana se elimina del soporte sólido antes del ensayo de especificidad. El ácido nucleico diana puede eliminarse mediante cualquier método que desnaturalice el complejo de hibridación dando como resultado la liberación del ácido nucleico diana. Como aprecia un experto en la técnica, en esta realización el ácido nucleico diana no está unido covalentemente al soporte sólido. Es decir, es la sonda diana que se une de manera estable al soporte. Es decir, aunque la unión de la sonda no es necesariamente covalente, es lo suficientemente estable como para soportar la desnaturalización del complejo de hibridación y la eliminación del ácido nucleico diana no unido.
En una realización alternativa, la diana de especificidad está en solución. Es decir, después de una etapa de reducción de la complejidad, el complejo de hibridación entre el ácido nucleico diana inmovilizado y la sonda diana se desnaturaliza y la sonda diana modificada se eluye del complejo de hibridación. En una determinada realización, la diana de especificidad se analiza en solución. En una realización alternativa, la diana de especificidad en fase de solución se inmoviliza sobre un soporte sólido posterior.
Estos ensayos de especificidad, es decir, técnicas de genotipado, se dividen en cinco categorías generales: (1) técnicas que dependen de métodos de hibridación tradicionales que utilizan la variación de condiciones de rigurosidad (temperatura, condiciones de tampón, etc.) para distinguir nucleótidos en la posición de detección; (2) técnicas de extensión que añaden una base (“ la base” ) para el emparejamiento de bases con el nucleótido en la posición de detección; (3) técnicas de ligadura, que dependen de la especificidad de las enzimas ligasa (o, en algunos casos, de la especificidad de las técnicas químicas), de manera que las reacciones de ligadura se producen preferiblemente si existe una complementariedad perfecta en la posición de detección; (4) técnicas de escisión, que también dependen de la especificidad enzimática o química de manera que la escisión se produce preferiblemente si existe una complementariedad perfecta; y (5) técnicas que combinan estos métodos. Véanse generalmente las patentes n.° 6.890.741,6.913.884, 7.955.794, 7582.420, 8.288.103 y la publicación estadounidense 2013-0244882.
En ciertas realizaciones, se realizado el genotipado de extensión. En esta realización, se puede usar cualquier número de técnicas para añadir un nucleótido a la posición de lectura de una sonda hibridada con la secuencia diana adyacente a la posición de detección. Al depender de la especificidad enzimática, preferiblemente se añade una base perfectamente complementaria. Algunos de los métodos descritos en el presente documento dependen de la incorporación enzimática de nucleótidos en la posición de detección. Esto se puede hacer usando cualquier número de métodos bien conocidos en la técnica, tales como extensión de una sola base o extensión de múltiples bases. En ciertas realizaciones, el genotipado se logra mediante la extensión del cebador que no usa nucleótidos de terminación de la cadena. Como tal, este genotipado se considera extensión de múltiples bases. El método incluye proporcionar un oligonucleótido interrogador diseñado para detectar un alelo de un SNP dado. El número de oligonucleótidos se determina por el número de alelos SNP distintos que se sondan. Por ejemplo, si se sondeó 1000 SNP, cada uno con dos alelos, serían necesarios 2000 oligonucleótidos. Los interrogadores son complementarios a un tramo de ADN que contiene el SNP, correspondiendo la base terminal de cada interrogador a la posición de SNP, o a la posición específica del SNP dentro de los últimos 1, 2, 3 o 4 nucleótidos del interrogador. En algunas realizaciones, el interrogador no es la posición terminal del cebador, sino que reside en una posición 1, 2, 3, 4, 5 o 6 nucleótidos del extremo 3' del cebador. Por ejemplo, cuando un SNP tiene un alelo A y C, se proporcionan interrogadores que terminan en T y G y en algunas realizaciones pueden inmovilizarse en elementos separados (perlas) para detectar los dos. Aunque tanto la coincidencia como el error de emparejamiento se hibridarán con un alelo dado, solo la coincidencia puede actuar como un cebador para una reacción de extensión de la ADN polimerasa. Por consiguiente, después de la hibridación de las sondas con el ADN diana, se realiza una reacción de polimerasa. Esto da como resultado la extensión de los híbridos con una ADN polimerasa en presencia de los dNTP.
En ciertas realizaciones, es deseable eliminar las sondas o cebadores no extendidos o sin reaccionar de la mezcla de ensayo, y particularmente de un soporte sólido, ya que las sondas o cebadores no extendidos pueden competir con los cebadores extendidos en la unión a sondas de captura. La concentración de los cebadores no extendidos en relación con el cebador extendido puede ser relativamente alta, ya que generalmente se requiere un gran exceso de cebador para generar una hibridación eficaz del cebador. Por consiguiente, se pueden usar varias técnicas diferentes para facilitar la eliminación de sondas o cebadores no extendidos. Estos incluyen generalmente métodos basados en la eliminación de cebadores sin reaccionar mediante la unión a un soporte sólido, protegiendo los cebadores reaccionados y degradando los no extendidos y separando los cebadores sin reaccionar y reaccionados.
Componente de amplificación
En esta realización, se proporcionan en el presente documento métodos que incluyen la amplificación de un polinucleótido y productos de reacciones de amplificación de ácido nucleico, es decir, amplicones, que pueden usarse en los métodos para caracterizar un polinucleótido. Los métodos de amplificación adecuados incluyen tanto la amplificación de la diana como la amplificación de la señal. La amplificación de la diana implica la amplificación (es decir, la replicación) de la secuencia diana a detectar, lo que da como resultado un aumento significativo en el número de moléculas diana. Las estrategias de amplificación diana incluyen, pero no se limitan a, la reacción en cadena de la polimerasa (PCR), la amplificación por desplazamiento de cadena (SDA), la amplificación basada en la secuencia de ácido nucleico (NASBA) y la amplificación por círculo rodante (RCA). Dichas estrategias de amplificación son bien conocidas por un experto en la técnica y pueden seleccionarse fácilmente para su uso en los métodos descritos.
Como alternativa, en lugar de amplificar la diana, las técnicas alternativas usan la diana como plantilla para replicar una sonda de señalización, lo que permite que un pequeño número de moléculas diana dé como resultado un gran número de sondas de señalización, que luego pueden detectarse. Las estrategias de amplificación de la señal incluyen la reacción en cadena de la ligasa (LCR), la tecnología de la sonda de ciclación (CPT), las técnicas de escisión invasivas como la tecnología Invader™, la tecnología Q-Beta replicasa (Q R) y el uso de “ sondas de amplificación” tales como el “ADN ramificado” que dan como resultado múltiples sondas marcadoras que se unen a una única secuencia diana.
Todos estos métodos pueden incluir un ácido nucleico cebador (que incluye análogos de ácido nucleico) que se hibrida con una secuencia diana para formar un complejo de hibridación, y se añade una enzima que, de alguna manera, modifica el cebador para formar un cebador modificado. Por ejemplo, la PCR generalmente requiere dos cebadores, dNTP y una ADN polimerasa; la LCR requiere dos cebadores que hibridan adyacentemente con la secuencia diana y una ligasa; la CPT requiere un cebador escindible y una enzima de escisión; la escisión invasiva requiere dos cebadores y una enzima de escisión; etc. Por lo tanto, en general, se añade un ácido nucleico diana a una mezcla de reacción que comprende los componentes de amplificación necesarios, y se forma un cebador modificado.
En general, el cebador modificado sirve como una secuencia diana para una reacción secundaria, que luego produce varias cadenas amplificadas, que pueden detectarse como se describe en el presente documento. Según se requiera, los cebadores sin reaccionar se eliminan, de varias formas, como apreciarán los expertos en la técnica y se describen en el presente documento. Por consiguiente, la reacción comienza con la adición de un ácido nucleico cebador a la secuencia diana que forma un complejo de hibridación. Una vez que se ha formado el complejo de hibridación entre el cebador y la secuencia diana, se usa una enzima, a veces denominada “ enzima de amplificación” , para modificar el cebador. Como para todos los métodos descritos en el presente documento, las enzimas pueden añadirse en cualquier punto durante el ensayo, ya sea antes, durante o después de la adición de los cebadores. La identidad de la enzima dependerá de la técnica de amplificación usada. De manera similar, la modificación dependerá de la técnica de amplificación.
En ciertas realizaciones, la técnica de amplificación de la diana es la reacción en cadena de la polimerasa (PCR). La PCR se usa y describe ampliamente, e implica el uso de la extensión de cebador combinada con el ciclo térmico para amplificar una secuencia diana; véanse las patentes US-4.683.195 y US-4.683.202, y PCR Essential Data, J. W. Wiley & Sons, Ed. C. R. Newton, 1995. Además, hay una serie de variaciones de la PCR que también se pueden usar y que incluyen “ PCR competitiva cuantitativa” o “ QC-PCR” , “ PCR con cebado arbitrario” o “AP-PCR” , “ inmuno-PCR” , “Alu-PCR” , “ PCR con polimorfismo de conformación de cadena sencilla” o “ PCR-SSCP” , “ PCR de transcriptasa inversa” o “ RT-PCR” , “ PCR de captura de biotina” , “ PCR vectorette” , “ PCR angosta” y “ PCR con sustracción de ADNc seleccionado” , “ PCR específica de alelo” , entre otras. Se entiende que un experto en la técnica podría seleccionar fácilmente la variación apropiada de la PCR que podría usarse en los métodos descritos en el presente documento.
En ciertas realizaciones, la reacción de amplificación es una reacción de amplificación multiplex como se describe en el presente documento. En una realización, la reacción de amplificación usa una pluralidad de cebadores de PCR para amplificar una pluralidad de secuencias diana. En esta realización, la pluralidad de secuencias diana se amplifica simultáneamente con la pluralidad de pares de cebadores de amplificación.
Una realización alternativa de la reacción de PCR multiplex usa cebadores universales como se describe en el presente documento. Es decir, los cebadores de PCR universales se hibridan con sitios de cebado universales en la secuencia diana y, de este modo, amplifican una pluralidad de secuencias diana. Esta realización se prefiere potencialmente porque requiere solo un número limitado de cebadores de PCR. Es decir, tan solo un par de cebadores pueden amplificar una pluralidad de secuencias diana.
Los amplicones Golden Gate se generaron mediante el uso de ADN humano como plantilla como se ha descrito anteriormente (Cold Spring Harb Symp Quant Biol. 2003;68:69-78. Highly parallel SNP genotyping. Fan JB y col.). Los amplicones resultantes tenían uno de los dos cebadores, designados P1 y P2, dependiendo del alelo. Además, el cebador inverso universal (“ Reverse P3” ) estaba presente en todos los amplicones.
P1: TCTCGTCGCTCATCAACT (SEQ ID NO: 82)
P2: GAGTCGAGGTCATATCGT (SEQ ID NO: 83)
P3 inverso: GTCTGCCTATAGTGAGTC (SEQ ID NO: 84)
Se usó una segunda ronda de PCR que emplea 16 ciclos para añadir cebadores de código de barras de alelos, denominados “ P1_barcode_A” y “ P1_barcode_B” . Se usó un cebador inverso universal extendido (“ Universal dU Reverse” ) que contenía múltiples residuos de desoxiuracilo.
P1_barcode_A:
/5phos/TTTTTTTTTTTTTTTCCTTCCXXTTTTCTTCTTCTTCAAGAAGAAGATCTCGTCGCTCATCAACT (SEQ ID NO: 85)
P2 barcode B:
/5phos/TTTTTTTTTTTTTTTCCTTCCXXTTTTTTAATTAATTTTGTTGTTGTGAGTCGAGGTCATATCGT (SEQ ID NO: 86)
Universal dU Reverse: ATACGGCG/dU/CCACCGACC/dU/CAGCGTC/dU/GCCTATAG/dU/GAGTC (SEQ ID NO: 87)
Donde /5phos/ indica un fosfato 5', /dU/ es una base de desoxiuracilo y X es un resto abásico.
Después de la PCR, la muestra se incubó con enzima USER (New England Biolabs, Ipswich, MA) durante 2,5 horas a 37 °C para crear huecos monocatenarios donde se ubicó un residuo dU. La muestra se calentó a 65 °C durante 10 min para eliminar el ADN fragmentado y crear un saliente 3'. La muestra se purificó usando un PCR Cleanup Kit (Qiagen).
Las muestras se hibridaron con oligo que contenía colesterol “ P3_Chol” en una relación molar 1:1 calentando a 65 °C y enfriando lentamente.
P3_Chol:
ACCGACACTGCGTCTGCCTATAGTGAGTC/iSp9//3CholTEG/ (SEQ ID NO: 88)
Donde /iSp9/ indica un espaciador de trietilenglicol de 9 átomos y /3CholTEG/ indica un resto de TEG (trietilenglicol) con colesterol 3'.
Las bicapas lipídicas se formaron a partir de 1,2-difitanoil-sn-glicero-3-fosfocolina (Avanti Polar Lipids). La bicapa abarcaba una abertura horizontal de ~20 micrómetros de diámetro en Teflón. Se añadió M2-NNN-MspA al lado conectado a tierra de la bicapa a una concentración de ~2,5 ng/ml. Una vez que se insertó un solo poro, el compartimento se enjuagó con tampón experimental para evitar inserciones adicionales. Un amplificador de pinza de parche Axopatch-200B (Axon Instruments) aplicó un voltaje a través de la bicapa de 180 mV y midió las corrientes iónicas. La señal analógica se filtró a paso bajo a 50 kHz con un filtro Bessel de 4 polos y luego se digitalizó a cinco veces la frecuencia de filtro de paso bajo. La adquisición de datos se controló con software personalizado escrito en LabWindows/CVI (National Instruments).
Los compartimentos de ~60 μl en ambos lados de la bicapa contenían tampón experimental de KCl 0,4 M, EDTA 1 mM, DTT 1 mM, ATP 1 mM, MgCl2 10 mM, y HEPES/KOH 10 mM tamponada a pH 8,0. Se usó Hel308 Tga de tipo silvestre como motor a 150 nM.
La Figura 23 ilustra señales simuladas ilustrativas que pueden generarse en función del tiempo para una primera secuencia polinucleotídica ilustrativa (SEQ ID NO: 89) y una segunda secuencia polinucleotídica ilustrativa (SEQ ID NO: 90) adecuada para su uso como códigos de barras respectivos, según algunas realizaciones. En la Figura 24 se puede observar que la señal simulada (1) correspondiente a la translocación fraccionada de la primera secuencia polinucleotídica ilustrativa a través de un poro por una helicasa Hel308 tiene un patrón característico a lo largo del tiempo que incluye dos “ picos” a un nivel de señal relativamente alto, seguido de una caída, seguido de dos “ picos más” a un nivel de señal relativamente bajo, mientras que la señal simulada (2) correspondiente a la translocación fraccionada de la segunda secuencia polinucleotídica ilustrativa a través de un poro por una helicasa Hel308 incluye dos “ picos” a un nivel de señal relativamente bajo, seguido de un aumento, seguido de dos “ picos más” a un nivel de señal relativamente alto. Por consiguiente, se puede esperar que las señales reales que incluyen características distintivas tales como en las señales simuladas (1) y (2) se puedan distinguir fácilmente entre sí, por ejemplo, mediante el uso de la coincidencia de patrones y, por lo tanto, pueden facilitar la distinción entre sí de los resultados de los ensayos. Por ejemplo, las Figuras 24A-24D ilustran señales simuladas ilustrativas que pueden generarse en función del tiempo para la primera y segunda secuencias de polinucleótidos ilustrativas adecuadas para su uso como códigos de barras respectivos, según algunas realizaciones. Se puede observar que las secciones de las señales simuladas generalmente designadas “código de barras” en las Figuras 24A y 24B incluyen dos “ picos” a un nivel de señal relativamente alto, seguido de una caída, seguido de dos “ picos más” a un nivel de señal relativamente bajo y, por lo tanto, puede entenderse que corresponde a la primera secuencia polinucleotídica ilustrativa. También se puede ver que las secciones de las señales simuladas generalmente designadas “ código de barras” en las Figuras 24C y 24D incluyen dos “ picos” a un nivel de señal relativamente bajo, seguido de un aumento, seguido de dos “ picos más” a un nivel de señal relativamente alto, y por lo tanto puede entenderse que corresponde a la segunda secuencia polinucleotídica ilustrativa.
En otro ejemplo, se insertó un poro de 2NNN MspA en una bicapa lipídica DPhPC de una manera análoga a la descrita anteriormente en el presente ejemplo. El tampón incluyó KCl 400 mM, HEPES 10 mM pH 8, MgCfc 5 mM y EDTA 1 mM. Los reactivos incluyeron DTT 1 mM y ATP 1 mM. La enzima incluía aproximadamente 150 mM de Hel308 Tga. El ADN fue aproximadamente 10 nM, y las cadenas individuales que se secuenciaron (denominadas RS1801131 SNP1 y SNNP2) se hibridaron con un polinucleótido que contenía colesterol. Las señales obtenidas durante la secuenciación de tales cadenas se descifraron utilizando un procesamiento posterior, que incluía la determinación de nivel y la alineación con las secuencias previstas mediante el uso de algoritmos tales como se describe en otra parte de la presente descripción.
Las Figuras 25A y 25B ilustran respectivamente señales simuladas ilustrativas que pueden generarse en función del tiempo para la primera y segunda secuencias de polinucleótidos ilustrativas adecuadas para su uso como códigos de barras respectivos, según algunas realizaciones. Las secciones de las señales simuladas dentro de los cuadros de puntos en las Figuras 25A y 25B incluyen respectivamente patrones distintivos para las secuencias respectivamente designadas rs 1801131 SNP1 y rs1801131 SNP2, y por lo tanto pueden usarse como códigos de barras respectivos. Las secuencias utilizadas como códigos de barras fueron las mismas que las ilustradas en la Figura 23.
Las Figuras 26A-26D ilustran respectivamente señales medidas ilustrativas que se generaron en función del tiempo para las secuencias de polinucleótidos ilustrativas primera y segunda adecuadas para su uso como códigos de barras respectivos, según algunas realizaciones. Las secciones de las señales medidas dentro de los cuadros de puntos en las Figuras 26A y 26B incluyen respectivamente patrones distintivos que pueden verse que corresponden al código de barras de la secuencia designada rs1801131 SNP1, mientras que las secciones de las señales medidas dentro de los cuadros de puntos en las Figuras 26C y 26D incluyen respectivamente patrones distintivos que pueden verse que corresponden al código de barras de la secuencia designada rs1801131 SNP2, y también son fácilmente distinguibles del código de barras de la secuencia designada rs1801131 SNP1.
Otras realizaciones alternativas
Cabe señalar que los sistemas y métodos proporcionados en este documento pueden implementarse usando diversos tipos de entornos de procesador de datos (por ejemplo, en uno o más procesadores de datos) que ejecutan instrucciones (por ejemplo, instrucciones de software) para realizar operaciones descritas en el presente documento. Los ejemplos no limitantes incluyen implementación en un ordenador o estación de trabajo de propósito general único, o en un sistema en red, o en una configuración de cliente-servidor, o en una configuración del proveedor de servicios de aplicaciones. Por ejemplo, los métodos y sistemas descritos en el presente documento pueden implementarse en muchos tipos diferentes de dispositivos de procesamiento mediante un código de programa que comprende instrucciones de programa ejecutables por el subsistema de procesamiento de dispositivos. Las instrucciones del programa de software pueden incluir código fuente, código objeto, código de máquina o cualquier otro dato almacenado que sea operable para hacer que un sistema de procesamiento realice los métodos y operaciones descritos en el presente documento. También pueden usarse otras implementaciones, sin embargo, tales como firmware o incluso hardware diseñado apropiadamente, configurado para llevar a cabo los métodos y sistemas descritos en el presente documento.
Se observa además que los sistemas y métodos pueden incluir señales de datos transmitidas a través de redes (por ejemplo, red de área local, red de área amplia, internet, combinaciones de las mismas, etc.), medio de fibra óptica, ondas portadoras, redes inalámbricas, etc. para comunicación con uno o más dispositivos de procesamiento de datos. Las señales de datos pueden llevar cualquiera o todos los datos descritos en el presente documento que se proporcionan a o desde un dispositivo.
Los datos de los sistemas y los métodos (por ejemplo, asociaciones, entrada de datos, salida de datos, resultados de datos intermedios, resultados de datos finales, etc.) pueden almacenarse e implementarse en uno o más tipos diferentes de almacenes de datos implementados por ordenador, tales como diferentes tipos de dispositivos de almacenamiento y construcciones de programación (por ejemplo, RAM, ROM, memoria Flash, archivos planos, bases de datos, estructuras de datos de programación, variables de programación, construcciones de IF-THEN (o tipo similar), etc.). Se observa que las estructuras de datos describen formatos para su uso en la organización y almacenamiento de datos en bases de datos, programas, memoria u otros medios legibles por ordenador para su uso por un programa informático.
Los sistemas y métodos pueden proporcionarse además en muchos tipos diferentes de medios de almacenamiento legibles por ordenador que incluyen mecanismos de almacenamiento informático (por ejemplo, medios no transitorios, tales como CD-ROM, disquete, RAM, memoria flash, disco duro de ordenador, etc.) que contienen instrucciones (por ejemplo, software) para su uso en ejecución por un procesador para realizar las operaciones de los métodos e implementar los sistemas descritos en el presente documento.
Además, los componentes informáticos, módulos de software, funciones, almacenes de datos y estructuras de datos proporcionadas en el presente documento pueden conectarse directa o indirectamente entre sí para permitir el flujo de datos necesarios para sus operaciones. También se observa que un módulo o procesador incluye, pero no se limita a, una unidad de código que realiza una operación de software, y puede implementarse, por ejemplo, como una unidad de subrutina de código, o como una unidad de función de software de código, o como un objeto (como en un paradigma orientado a objetos), o como un applet, o en un lenguaje de secuencia de comandos de ordenador, o como otro tipo de código informático. Los componentes de software y/o funcionalidad pueden ubicarse en un solo ordenador o distribuirse a través de múltiples ordenadores dependiendo de la situación en cuestión.
Aunque la descripción se ha descrito con referencia a las realizaciones descritas, los expertos en la técnica apreciarán fácilmente que los ejemplos y estudios específicos detallados anteriormente son solo ilustrativos de la descripción. Debe entenderse que pueden realizarse diversas modificaciones sin apartarse de la invención, que se define por las siguientes reivindicaciones.

Claims (13)

  1. REIVINDICACIONES
    i .Un método para modular la translocación de un polinucleótido diana a través de un poro, para caracterizar dicho polinucleótido diana, comprendiendo el método:
    (a) aplicar una diferencia de potencial a través de un poro en contacto con una helicasa Hel308 y un polinucleótido diana;
    (b) poner en contacto dicha helicasa Hel308 con una concentración de un sustrato de helicasa Hel308 que es diferente de una concentración de referencia de dicho sustrato, produciendo dicha concentración de sustrato un cambio en la duración de una etapa de translocación fraccionada proporcional a una diferencia en dicha concentración de sustrato en comparación con dicha concentración de referencia, y
    (c) medir señales eléctricas durante al menos dos estados distinguibles de la helicasa Hel308 para una unidad de al menos un nucleótido del polinucleótido diana que se mueve a través del poro durante un ciclo de translocación completo.
  2. 2. El método de la reivindicación 1, en donde caracterizar dicho polinucleótido diana comprende identificar uno o más de: una secuencia de dicho polinucleótido diana, una modificación de dicho polinucleótido diana, una longitud de dicho polinucleótido diana, una identidad de dicho polinucleótido diana, una fuente de dicho polinucleótido diana y una estructura secundaria de dicho polinucleótido diana.
  3. 3. El método de la reivindicación 1, en donde dicha diferencia de potencial comprende una diferencia de potencial eléctrico.
  4. 4. El método de la reivindicación 1, en donde dicha señal eléctrica es una medida seleccionada de corriente, voltaje, efecto túnel, resistencia, potencial, voltaje, conductancia y medición eléctrica transversal.
  5. 5. El método de la reivindicación 1, en donde el poro es un poro de polipéptido y dicho poro de polipéptido tiene una zona de constricción de cinco nucleótidos o menos.
  6. 6. El método de la reivindicación 5, en donde el poro es un poro de polipéptido y dicho poro de polipéptido comprende una porina A de Mycobacterium smegmatis (MspA).
  7. 7. El método de la reivindicación 6, en donde la MspA tiene una secuencia de aminoácidos de SEQ ID NO: 1 o que tiene al menos 70 %, al menos 75 %, al menos 80 %, al menos 85 %, al menos 90 %, al menos 95 %, o al menos 99 % de homología con la SEQ ID NO: 1.
  8. 8. El método de la reivindicación 1, en donde cada una de las señales eléctricas comprende una corriente eléctrica que pasa a través del poro.
  9. 9. El método de la reivindicación 1, en donde la unidad de uno o más nucleótidos de dicho polinucleótido diana que se mueve a través de dicho poro durante un ciclo completo de translocación de la helicasa Hel308 se caracteriza con una precisión superior al 50 % utilizando las señales medidas en (c), en comparación con la caracterización de la unidad de uno o más nucleótidos de dicho polinucleótido diana utilizando una única señal medida durante el ciclo completo de translocación.
  10. 10. El método de la reivindicación 1, en donde uno o más residuos de nucleótidos en el polinucleótido diana se caracterizan con mayor precisión a una concentración de sustrato más baja en comparación con la concentración de referencia.
  11. 11. El método de la reivindicación 1, en donde el poro es un poro en estado sólido; o en donde el poro es un poro híbrido biológico y en estado sólido; opcionalmente en donde el poro híbrido biológico y en estado sólido es un poro híbrido de polipéptido-estado sólido; o el poro híbrido biológico y en estado sólido es un poro híbrido de polinucleótido-estado sólido.
  12. 12. El método de la reivindicación 1, en donde la helicasa Hel308 es una helicasa mostrada en las Tablas 1 y 2 o una variante de la misma.
  13. 13. El método de la reivindicación 1, en donde el polinucleótido diana se selecciona del grupo que consiste en un polinucleótido monocatenario, un polinucleótido bicatenario y un polinucleótido parcialmente bicatenario.
ES19161148T 2013-11-26 2014-11-26 Composiciones y métodos para la secuenciación de polinucleótidos Active ES2958715T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361909316P 2013-11-26 2013-11-26

Publications (1)

Publication Number Publication Date
ES2958715T3 true ES2958715T3 (es) 2024-02-13

Family

ID=52424089

Family Applications (2)

Application Number Title Priority Date Filing Date
ES19161148T Active ES2958715T3 (es) 2013-11-26 2014-11-26 Composiciones y métodos para la secuenciación de polinucleótidos
ES14830903T Active ES2735015T3 (es) 2013-11-26 2014-11-26 Composiciones y métodos para secuenciar polinucleótidos

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES14830903T Active ES2735015T3 (es) 2013-11-26 2014-11-26 Composiciones y métodos para secuenciar polinucleótidos

Country Status (12)

Country Link
US (5) US9689033B2 (es)
EP (3) EP4282983A3 (es)
JP (3) JP6800749B2 (es)
CN (2) CN105934522B (es)
AU (3) AU2014354726B2 (es)
CA (2) CA2926871C (es)
DK (2) DK3074534T3 (es)
ES (2) ES2958715T3 (es)
FI (1) FI3556869T3 (es)
LT (1) LT3074534T (es)
SI (1) SI3074534T1 (es)
WO (2) WO2015081178A1 (es)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3663412B1 (en) * 2011-09-23 2022-03-09 Oxford Nanopore Technologies PLC Analysis of a polymer comprising polymer units by means of translocation through a nanopore
CN104321441B (zh) 2012-02-16 2016-10-19 牛津楠路珀尔科技有限公司 聚合物的测量的分析
JP6271505B2 (ja) 2012-04-10 2018-01-31 オックスフォード ナノポール テクノロジーズ リミテッド 変異体ライセニンポア
GB201222928D0 (en) 2012-12-19 2013-01-30 Oxford Nanopore Tech Ltd Analysis of a polynucleotide
GB201313477D0 (en) 2013-07-29 2013-09-11 Univ Leuven Kath Nanopore biosensors for detection of proteins and nucleic acids
SI3074534T1 (sl) * 2013-11-26 2019-08-30 Illumina, Inc. Postopki določanja zaporedja polinukleotidov
CA2937411C (en) 2014-01-22 2023-09-26 Oxford Nanopore Technologies Limited Method for attaching one or more polynucleotide binding proteins to a target polynucleotide
WO2015126494A1 (en) 2014-02-19 2015-08-27 University Of Washington Nanopore-based analysis of protein characteristics
EP3137490B1 (en) 2014-05-02 2021-01-27 Oxford Nanopore Technologies Limited Mutant pores
KR102551897B1 (ko) 2014-10-16 2023-07-06 옥스포드 나노포어 테크놀로지즈 피엘씨 폴리머의 분석
WO2017027518A1 (en) * 2015-08-10 2017-02-16 Stratos Genomics, Inc. Single molecule nucleic acid sequencing with molecular sensor complexes
EP3365273A4 (en) * 2015-10-21 2019-04-24 H. Hoffnabb-La Roche Ag USE OF FLUORINATED POLYMERS IN THE FORM OF A HYDROPHOBIC LAYER FOR SUPPORTING A LIPIDIC BILOUCHE FORMATION OF NANOPORES
CN116200476A (zh) 2016-03-02 2023-06-02 牛津纳米孔科技公开有限公司 靶分析物测定方法、突变CsgG单体及其构筑体、及聚核苷酸和寡聚孔
CA3212147A1 (en) 2016-04-06 2017-10-12 Oxford Nanopore Technologies Plc Mutant pore
SG11201809016QA (en) 2016-04-14 2018-11-29 Lockheed Corp Selective interfacial mitigation of graphene defects
WO2017223515A1 (en) * 2016-06-23 2017-12-28 F. Hoffman-La Roche Ag Formation and calibration of nanopore sequencing cells
WO2018029108A1 (en) 2016-08-08 2018-02-15 F. Hoffmann-La Roche Ag Basecalling for stochastic sequencing processes
US20180127816A1 (en) 2016-10-19 2018-05-10 Illumina, Inc. Methods for chemical ligation of nucleic acids
AU2018294660B2 (en) 2017-06-30 2022-05-19 Oxford Nanopore Technologies Plc Novel protein pores
CA3067420A1 (en) * 2017-09-15 2019-03-21 Illumina, Inc. Sequence-detection system
CA3067230A1 (en) * 2017-09-15 2019-03-21 Illumina, Inc. Tuning and calibration features of a sequence-detection system
US10310959B2 (en) 2017-11-07 2019-06-04 Bank Of America Corporation Pre-deployment validation system using intelligent databases
CN112292461B (zh) * 2018-06-21 2024-05-17 豪夫迈·罗氏有限公司 用于测序的隧穿结
EP3814529A1 (en) * 2018-06-26 2021-05-05 Electronic Biosciences Inc. Controlled nanopore translocation utilizing extremophilic replication proteins
JP2020031557A (ja) * 2018-08-28 2020-03-05 株式会社日立ハイテクノロジーズ 生体分子分析装置
WO2020084705A1 (ja) * 2018-10-24 2020-04-30 株式会社日立ハイテク 生体ポリマ分析デバイス及びそれを用いた分析装置、並びに分析方法
WO2021056598A1 (zh) 2019-09-29 2021-04-01 北京齐碳科技有限公司 一种Mmup单体变体及其应用
CN114807317A (zh) * 2021-01-22 2022-07-29 上海羿鸣生物科技有限公司 一种优化的dna线性扩增方法及试剂盒
GB202107192D0 (en) * 2021-05-19 2021-06-30 Oxford Nanopore Tech Ltd Method
CN113322180B (zh) * 2021-05-31 2022-07-15 中国科学院物理研究所 基于纳米孔测序的力谱分析方法和分析装置
US20230298693A1 (en) * 2022-02-28 2023-09-21 Rajant Health Incorporated Alignment-free variant calling

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4469863A (en) 1980-11-12 1984-09-04 Ts O Paul O P Nonionic nucleic acid alkyl and aryl phosphonates and processes for manufacture and use thereof
US5235033A (en) 1985-03-15 1993-08-10 Anti-Gene Development Group Alpha-morpholino ribonucleoside derivatives and polymers thereof
US5034506A (en) 1985-03-15 1991-07-23 Anti-Gene Development Group Uncharged morpholino-based polymers having achiral intersubunit linkages
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US5216141A (en) 1988-06-06 1993-06-01 Benner Steven A Oligonucleotide analogs containing sulfur linkages
US5602240A (en) 1990-07-27 1997-02-11 Ciba Geigy Ag. Backbone modified oligonucleotide analogs
US5386023A (en) 1990-07-27 1995-01-31 Isis Pharmaceuticals Backbone modified oligonucleotide analogs and preparation thereof through reductive coupling
US5644048A (en) 1992-01-10 1997-07-01 Isis Pharmaceuticals, Inc. Process for preparing phosphorothioate oligonucleotides
US5637684A (en) 1994-02-23 1997-06-10 Isis Pharmaceuticals, Inc. Phosphoramidate and phosphorothioamidate oligomeric compounds
US5508179A (en) 1994-03-18 1996-04-16 Bio-Rad Laboratories, Inc. Use of deoxyribose nicotinamide adenine dinucleotide to enhance the specificity of NAD+ -dependent ligation reactions
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
WO2000079257A1 (en) 1999-06-22 2000-12-28 President And Fellows Of Harvard College Molecular and atomic scale evaluation of biopolymers
ATE492652T1 (de) 2000-02-07 2011-01-15 Illumina Inc Nukleinsäuredetektionsverfahren mit universellem priming
US7955794B2 (en) 2000-09-21 2011-06-07 Illumina, Inc. Multiplex nucleic acid reactions
US7582420B2 (en) 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
US6913884B2 (en) 2001-08-16 2005-07-05 Illumina, Inc. Compositions and methods for repetitive use of genomic DNA
GB0505971D0 (en) 2005-03-23 2005-04-27 Isis Innovation Delivery of molecules to a lipid bilayer
AU2008217579A1 (en) 2007-02-20 2008-08-28 Oxford Nanopore Technologies Limited Formation of lipid bilayers
WO2010004265A1 (en) * 2008-07-07 2010-01-14 Oxford Nanopore Technologies Limited Enzyme-pore constructs
DK2344891T3 (en) 2008-09-22 2016-06-06 Univ Washington MSP NANOPORES AND RELATED PROCEDURES
GB0905140D0 (en) * 2009-03-25 2009-05-06 Isis Innovation Method
US20140051068A1 (en) * 2010-09-07 2014-02-20 The Regents Of The University Of California Control of dna movement in a nanopore at one nucleotide precision by a processive enzyme
US10175195B2 (en) 2011-07-27 2019-01-08 The Board Of Trustees Of The University Of Illinois Nanopore sensors for biomolecular characterization
JP6226869B2 (ja) * 2011-10-21 2017-11-08 オックスフォード ナノポール テクノロジーズ リミテッド 酵素法
EP2798084B1 (en) 2011-12-29 2017-04-19 Oxford Nanopore Technologies Limited Enzyme method
EP2798083B1 (en) 2011-12-29 2017-08-09 Oxford Nanopore Technologies Limited Method for characterising a polynucelotide by using a xpd helicase
JP5809572B2 (ja) 2012-01-30 2015-11-11 ルネサスエレクトロニクス株式会社 半導体装置
JP6271505B2 (ja) 2012-04-10 2018-01-31 オックスフォード ナノポール テクノロジーズ リミテッド 変異体ライセニンポア
GB2559073A (en) * 2012-06-08 2018-07-25 Pacific Biosciences California Inc Modified base detection with nanopore sequencing
CA2879261C (en) * 2012-07-19 2022-12-06 Oxford Nanopore Technologies Limited Modified helicases
SI3074534T1 (sl) * 2013-11-26 2019-08-30 Illumina, Inc. Postopki določanja zaporedja polinukleotidov

Also Published As

Publication number Publication date
EP3074534B1 (en) 2019-05-01
WO2015081211A3 (en) 2015-08-06
FI3556869T3 (fi) 2023-09-28
EP4282983A3 (en) 2024-02-28
DK3074534T3 (da) 2019-07-29
CA2926871C (en) 2022-08-16
JP2017503473A (ja) 2017-02-02
US10364462B2 (en) 2019-07-30
US11041196B2 (en) 2021-06-22
ES2735015T3 (es) 2019-12-13
WO2015081211A2 (en) 2015-06-04
CA2926871A1 (en) 2015-06-04
CN105934522A (zh) 2016-09-07
AU2020202489A1 (en) 2020-05-07
US20240167085A1 (en) 2024-05-23
AU2014354726B2 (en) 2020-03-12
AU2014354726A1 (en) 2016-06-02
US11879155B2 (en) 2024-01-23
SI3074534T1 (sl) 2019-08-30
JP7349972B2 (ja) 2023-09-25
US20150152495A1 (en) 2015-06-04
JP6800749B2 (ja) 2020-12-23
US20200024657A1 (en) 2020-01-23
WO2015081178A1 (en) 2015-06-04
US20210355534A1 (en) 2021-11-18
EP3074534A1 (en) 2016-10-05
JP2023116553A (ja) 2023-08-22
AU2020202489B2 (en) 2022-06-23
AU2022231786A1 (en) 2022-10-13
CN113528632A (zh) 2021-10-22
CA3157586A1 (en) 2015-06-04
EP3556869B1 (en) 2023-08-02
CN105934522B (zh) 2021-07-20
EP4282983A2 (en) 2023-11-29
JP2021040646A (ja) 2021-03-18
DK3556869T3 (da) 2023-10-02
EP3556869A1 (en) 2019-10-23
US9689033B2 (en) 2017-06-27
LT3074534T (lt) 2019-08-26
US20170268055A1 (en) 2017-09-21

Similar Documents

Publication Publication Date Title
ES2958715T3 (es) Composiciones y métodos para la secuenciación de polinucleótidos
US11286521B2 (en) Pyrophosphorolytic sequencing
AU2014379438B2 (en) Method for controlling the movement of a polynucleotide through a transmembrane pore
ES2896017T3 (es) Modificación selectiva de subunidades de polímeros para mejorar un análisis basado en nanoporos
US20170067101A1 (en) Sample preparation method
BR112014009579B1 (pt) Métodos para caracterizar um polinucleotídeo alvo, e para formar um sensor, uso de uma helicase, kit, e, aparelho de análise