ES2817973T3 - Almacenamiento a través de la edición iterativa del ADN - Google Patents

Almacenamiento a través de la edición iterativa del ADN Download PDF

Info

Publication number
ES2817973T3
ES2817973T3 ES17735689T ES17735689T ES2817973T3 ES 2817973 T3 ES2817973 T3 ES 2817973T3 ES 17735689 T ES17735689 T ES 17735689T ES 17735689 T ES17735689 T ES 17735689T ES 2817973 T3 ES2817973 T3 ES 2817973T3
Authority
ES
Spain
Prior art keywords
target site
sequence
dsdna
homologous repair
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17735689T
Other languages
English (en)
Inventor
Kris K Ganjam
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Application granted granted Critical
Publication of ES2817973T3 publication Critical patent/ES2817973T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/905Stable introduction of foreign DNA into chromosome using homologous recombination in yeast

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Mycology (AREA)
  • Immunology (AREA)
  • Plant Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)

Abstract

Un método para codificar un dígito binario en un ácido nucleico de desoxirribosa bicatenario (ADNds) (100), el método que comprende: crear una primera rotura de doble cadena (DSB) en un primer sitio diana (102) en el ADNds (100) con una primera enzima (104); (302) seleccionar un primer molde de reparación homóloga según un primer dígito binario, el primer sitio diana, y un esquema de codificación (304); y poner en contacto el ADNds con el primer molde de reparación homóloga (314), en donde el primer molde de reparación homóloga (106) contiene una región complementaria a un segundo sitio diana (112) para una segunda enzima (200) para crear una segunda DSB en el ADNds (100) y el primer dígito binario se codifica por un orden de una secuencia parcial del primer sitio diana que está adyacente a una secuencia parcial del segundo sitio diana (118), en donde la secuencia parcial del primer sitio diana y la secuencia parcial del segundo sitio diana tienen una longitud de entre 5 y 20 nucleótidos.

Description

DESCRIPCIÓN
Almacenamiento a través de la edición iterativa del ADN
Antecedentes
La capacidad de almacenar y recuperar información arbitraria en ácidos nucleicos con desoxirribosa (ADN) existentes, tales como el ADN en las células, es un objetivo importante para la biología sintética que tiene el potencial de crear un medio de almacenamiento para datos binarios de bajo coste y alta densidad. Hasta la fecha, los métodos de almacenamiento existentes en las células han sido capaces de registrar solo hasta unos pocos bits de información, pero requieren construcciones genéticas especializadas, ortogonales para cada bit, limitando en gran medida la capacidad máxima de almacenamiento.
Aisling O'Driscoll et al: "Synthetic DNA: The next generation of big data storage" enseña la utilidad del ADN sintético como una solución de futuro robusta y ecológica para almacenar datos.
Rahul Vishwakarma: "High Density Data Storage in Dna using an Efficient Message Encoding Scheme" enseña un esquema de codificación de mensajes para archivos de texto pequeños en cadenas de nucleótidos para un almacenamiento de datos de muy alta densidad en ADN. El esquema propuesto da lugar a una alta densidad de volumen de datos y depende de la adopción de algoritmos de transformación de secuencia. La compresión de archivos de texto pequeños debe cumplir un requerimiento especial ya que tienen un contexto pequeño. El uso de algoritmos de transformación genera una información con mejor contexto para la compresión con codificación de Huffman. Los autores ensayaron el esquema sugerido en la recogida de archivos de texto de pequeño tamaño. El resultado del ensayo mostró que el esquema propuesto reducía el número de nucleótidos para representar el mensaje de texto sobre el método existente y la realización de un almacenamiento de una alta densidad de datos en el ADN.
S.M. Hossein Tabatabaei Yazdi et al: "A Rewritable, Random-Access DNA-Based Storage System" enseña una arquitectura de almacenamiento basada en ADN que permite el acceso aleatorio a bloques de datos y la reescritura de la información almacenada en localizaciones arbitrarias en los bloques. La arquitectura recién desarrollada supera los inconvenientes de los métodos existentes de solo lectura que requieren la descodificación del archivo completo con el fin de leer un fragmento de datos. El sistema de los autores se basa en nuevas técnicas de codificación restringidas y métodos de edición de ADN acompañantes que aseguran la fiabilidad de los datos, especificidad y sensibilidad de acceso, y al mismo tiempo proporcionan una capacidad de almacenamiento de datos excepcionalmente alta. Como prueba de concepto, los autores codificaron partes de las páginas de Wikipedia de seis universidades en los EE. UU., y seleccionaron y editaron partes del texto escrito en ADN correspondiente a tres de estas universidades. Los resultados sugieren que el ADN es un medio versátil adecuado para el archivo de muy alta densidad y aplicaciones de almacenamiento reescribibles.
N.N: "gBlocks Gene Fragments-Related DECODED Articles" enseña que CRISPR (repeticiones palindrómicas cortas agrupadas interespaciadas regularmente) son secuencias encontradas naturalmente en bacterias y arqueas que forman parte de un mecanismo de defensa adaptativo. Las CRISPR, en conjunción con las proteínas asociadas a CRISPR (Cas), son capaces de reconocer y escindir secuencias de ADN complementario, protegiendo a las células frente a secuencias extrañas.
P. Mali et al: "RNA-Guided Human Genome Engineering via Cas9" y P. Malo et al: "Supplementary information for RNA-Guided Human Genome Engineering via Cas9" enseñan que las bacterias y arqueas tienen defensas inmunes adaptativas evolucionadas denominadas repeticiones palindrómicas cortas agrupadas interespaciadas regularmente (sistemas CRISPR)/asociada a CRISPR (Cas) que usan ARN corto para dirigir la degradación de ácidos nucleicos extraños. En este artículo, los autores preparan por ingeniería el sistema CRISPR bacteriano de tipo II para funcionar con ARN guía (ARNg) personalizado en células humanas. Para el locus AAVS1 endógeno, los autores obtuvieron tasas de direccionamiento del 10 al 25 % en células 293T, del 13 al 8 % en células K562, y del 2 al 4 % en células madre pluripotentes inducidas. Los autores muestran que este proceso se basa en componentes de CRISPR; es específico de secuencia; y, después de la introducción simultánea de múltiples ARNg, puede efectuar la edición múltiple de loci diana. Los autores también computan un recurso aplicable al genoma de ARNg únicos de ~ 190 K dirigidos al ~ 40,5 % de los exones humanos. Los resultados establecen una herramienta de edición guiada por ARN para la ingeniería del genoma humano fácil, robusta y multiplexable.
Resumen
Según aspectos de la presente invención, se proporcionan métodos como se define en las reivindicaciones adjuntas.
Este Resumen se proporciona para introducir una selección de conceptos de una forma simplificada que se describen adicionalmente más adelante en la Descripción Detallada. No se pretende que este Resumen identifique características clave o características esenciales del contenido reivindicado ni se pretende que sea usado para limitar el alcance del contenido reivindicado.
Las técnicas de edición génica precisas tales como el sistema CRISPR/Cas (repeticiones palindrómicas cortas agrupadas interespaciadas regularmente/proteína asociada a CRISPR) y TALEN (nucleasas efectoras semejantes a activador de la transcripción) permiten la manipulación del ADN en formas que pueden usarse para almacenar información arbitraria, o información del estado de una célula. Los métodos descritos en la presente memoria son capaces de registrar de forma dinámica una cantidad ilimitada de datos binarios en una célula viva por la edición incremental del ADN celular usando técnicas de edición de genes. La información puede transducirse a partir de cualquier señal intra o extracelular y se registra de forma permanente en el ADN de una manera que permite que la información pase a generaciones celulares subsiguientes. Este método también puede usarse en sistemas sin células o de células sintéticas.
El ADN en una célula, o en otro entorno tal como un sistema sin células, puede cortarse para crear una rotura de doble cadena ("DSB"). Puede insertarse nuevo ADN en la rotura usando reparación dirigida por homología (HDR). El diseño razonado de un sitio diana en el ADN original, así como el diseño de moldes de reparación homóloga, hace posible cortar de forma repetida el ADN y añadir nuevo ADN en el corte, añadiendo de esta manera ADN en una cadena de ADN existente de una manera que codifica datos binarios u otra información.
La secuencia de adiciones puede codificar 0 y 1 permitiendo el almacenamiento de datos binarios arbitrarios de una manera que se pase hereditariamente a nuevas células durante la división celular. Las rutas de señalización pueden usarse para controlar la inserción de moldes de reparación homóloga específicos y/o la disponibilidad de enzimas específicas con el fin de dirigir a la célula para registrar bien un 0 o un 1.
Descripción de los dibujos
La Descripción Detallada se muestra con referencia a las figuras adjuntas. En las figuras, el o los dígitos más a la izquierda de un número de referencia identifican la figura en la que el número de referencia aparece por primera vez. El uso de los mismos números de referencia en diferentes figuras indica ítems similares o idénticos.
La FIG. 1 muestra una representación esquemática del corte de ADNds con una enzima y la inserción de nuevo ADN por reparación dirigida por homología.
La FIG. 2 muestra una representación esquemática del corte del ADNds de la FIG. 1 y la inserción de ADN adicional por reparación dirigida por homología.
La FIG. 3 muestra un proceso ilustrativo para el corte de ADNds, inserción de ADN a través de reparación dirigida por homología, y secuenciación del ADN para identificar los datos binarios codificados.
La FIG. 4 muestra un proceso ilustrativo para la inserción de ADN en dos localizaciones en el ADNds según dos esquemas de codificación diferentes.
La FIG. 5 muestra los componentes ilustrativos de una célula para insertar nuevo ADN en ADN existente.
La FIG. 6 muestra un sistema ilustrativo para implementar las características de esta descripción.
Descripción detallada
Existen muchas técnicas para codificar datos binarios en la secuencia de un ácido nucleico. La mayor parte de estas técnicas se basa en sintetizar nuevos ácidos nucleicos y pugnar por una codificación compacta en la que solo unas pocas bases de ácido nucleico sean necesarias para codificar un 1 o 0. Sin embargo, la técnica descrita en esta descripción añade nuevas secuencias de ADN en el medio de un ADN existente para codificar datos binarios. Debido a las restricciones de trabajar con ADN existente que implica la manipulación con enzimas, la presencia de sitios de unión, etc. la codificación no es tan compacta como podría serlo en un sistema que usa ADN recién sintetizado. La técnica de esta descripción almacena datos en ADN mediante el corte e inserción de forma repetida de una nueva secuencia en el ADN existente. Cada inserto proporciona en el inserto un sitio diana para la siguiente ronda de corte de ADN y posterior inserción. La repetición de este proceso crea una molécula de ADN con una serie de insertos anidados. El orden de los insertos anidados puede interpretarse como que codifica una serie de 1 y 0.
Por "hibridizable" o "complementario" o "sustancialmente complementario" se quiere decir que un ácido nucleico (p. ej., ADN) comprende una secuencia de nucleótidos que le permite unirse no covalentemente, a otro ácido nucleico de una manera específica de secuencia, antiparalela (es decir, un ácido nucleico se une específicamente a un ácido nucleico complementario) en las condiciones apropiadas in vitro y/o in vivo de temperatura y fuerza iónica de la disolución. Como se sabe en la técnica, el emparejamiento de bases estándar de Watson-Crick incluye: adenina (A) se empareja con timidina (T), adenina (A) se empareja con uracilo (U), y guanina (G) se empareja con citosina (C). Además, también se sabe en la técnica que para la hibridación entre dos moléculas de ARN (p. ej., ARNds), la guanina (G) se empareja por bases con uracilo (U). En el contexto de esta descripción, una guanina (G) se considera complementaria a un uracilo (U), y viceversa. Como tal, cuando puede formarse un par de bases G/U en una posición de nucleótido dada, un segmento de unión a proteína (dúplex de ARNds) de una molécula de ARN dirigida a ADN objeto, la posición no se considera como no complementaria, sino que se considera que es complementaria.
Las condiciones de hibridación y lavado son muy conocidas y se ejemplifican en Sambrook, J., Fritsch, E. F. y Maniatis, T. Molecular Cloning: A Laboratory Manual, Segunda Edición, Cold Spring Harbor Laboratory Press, Cold Spring Harbor (1989), particularmente en el Capítulo 11 y la Tabla 11.1 del mismo; y Sambrook, J. y Russell, W., Molecular Cloning: A Laboratory Manual, Tercera Edición, Cold Spring Harbor Laboratory Press, Cold Spring Harbor (2001). Las condiciones de temperatura y fuerza iónica determinan la "astringencia" de la hibridación.
La hibridación requiere que los dos ácidos nucleicos contengan secuencias complementarias, aunque son posibles los emparejamientos erróneos entre las bases. Las condiciones apropiadas para la hibridación entre dos ácidos nucleicos dependen de la longitud de los ácidos nucleicos y del grado de complementación, variables muy conocidas en la técnica. Cuanto mayor sea el grado de complementación entre dos secuencias de nucleótidos, mayor será el valor de la temperatura de fusión (Tm) para los híbridos de los ácidos nucleicos que tienen esas secuencias. Para las hibridaciones entre ácidos nucleicos con cadenas cortas de complementariedad (p. ej., complementariedad sobre 35 o menos, 30 o menos, 25 o menos, 22 o menos, 20 o menos, o 18 o menos nucleótidos), la posición de los emparejamientos erróneos se vuelve importante (véase, Sambrook et al., supra, 11.7-11.8). Típicamente, la longitud para un ácido nucleico hibridable es al menos aproximadamente 10 nucleótidos. Las longitudes mínimas ilustrativas para un ácido nucleico hibridable son: al menos aproximadamente 15 nucleótidos; al menos aproximadamente 20 nucleótidos; al menos aproximadamente 22 nucleótidos; al menos aproximadamente 25 nucleótidos; y al menos aproximadamente 30 nucleótidos). Además, el experto en la técnica reconocerá que la temperatura, pH, y concentración de sal de la disolución de lavado pueden ajustarse según sea necesario según factores tales como la longitud de la región de complementación y el grado de complementación.
Se entiende en la técnica que no es necesario que la secuencia de polinucleótido sea un 100 % complementaria a su ácido nucleico diana para ser específicamente hibridable o hibridable. Además, un polinucleótido puede hibridar sobre uno o más segmentos de manera que los segmentos intervinientes o adyacentes no están implicados en el evento de hibridación (p. ej., una estructura de bucle o una estructura de horquilla). Un polinucleótido puede comprender al menos un 70 %, al menos un 80 %, al menos un 90 %, al menos un 95 %, al menos un 99 %, o un 100 % de complementariedad de secuencia con una región diana en la secuencia de ácido nucleico diana a la que está dirigido. Por ejemplo, un ácido nucleico antisentido en el que 18 de 20 nucleótidos del compuesto antisentido son complementarios con una región diana, e hibridaría, por lo tanto, específicamente, representaría un 90 por ciento de complementariedad. En este ejemplo, los nucleótidos no complementarios remanentes pueden estar agrupados o intercalados con nucleótidos complementarios y no es necesario que sean contiguos entre sí o con nucleótidos complementarios. El porcentaje de complementariedad entre cadenas particulares de secuencias de ácido nucleico en los ácidos nucleicos puede determinarse rutinariamente usando los programas BLAST (herramientas básicas de búsqueda de alineamiento local) y los programas PowerBLAST conocidos en la técnica (Altschul et al., J. Mol. Biol., 1990, 215, 403-410; Zhang y Madden, Genome Res., 1997, 7, 649-656) o mediante el uso del programa Gap (Wisconsin Sequence Analysis Package, Versión 8 para Unix, Genetics Computer Group, University Research Park, Madison Wis.), usando los ajustes por defecto, que usa el algoritmo de Smith y Waterman (Adv. Appl. Math., 1981, 2, 482-489).
La FIG. 1 muestra un esquema ilustrativo de operaciones para añadir una nueva secuencia de ADN en un ADN bicatenario (ADNds) 100. El ADNds 100 incluye un sitio diana 102 que dirige a una enzima 104 para crear una DSBDSB en el ADNds 100 en el sitio diana 102. La DSB puede crearse con extremos romos o con extremos cohesivos dependiendo de la enzima y técnica específica para preparar la DSB. El sitio diana 102 es una secuencia de ADN reconocida por una enzima que crea las DSB en el ADNds. El sitio diana 102 puede introducirse intencionadamente en el ADNds 100 para permitir las manipulaciones descritas más adelante. Alternativamente, puede seleccionarse una porción preexistente del ADNds 100 como el sitio diana 102. Si se selecciona una porción preexistente del ADNds 100 como el sitio diana 102, entonces la secuencia de otros componentes del sistema se diseñará con referencia a la secuencia del sitio diana 102. En algunas implementaciones, el sitio diana 102 es único de manera que hay solo un sitio diana 102 en la cadena completa de ADNds. El ADNds 100 puede ser ADN genómico en el interior de una célula viva procariota o eucariota, ADN introducido en una célula viva tal como un plásmido o vector, o ADN en un sistema sin células. El ADNds 100 puede existir bien como ADN lineal o circular antes de la introducción de la DSB.
La enzima 104 que crea la DSB puede ser cualquier proteína, complejo proteína-ARN, o complejo proteína-ADN (incluyendo complejos multiméricos) que tiene la propiedad de crear una DSB en el ADNds en un sitio diana específico. Los ejemplos no limitativos de enzimas adecuadas incluyen enzimas de restricción, endonucleasas de direccionamiento, nucleasas de dedo de cinc (ZFN), nucleasas efectoras semejantes a activador de la transcripción (TALEN), y CRISPR/Cas. Estos tipos de enzimas listados anteriormente son todos ejemplos de nucleasas específicas de sitio que son capaces de causar una DSB en un sitio diana.
Las enzimas de restricción (endonucleasas de restricción) están presentes en muchas especies y son capaces de unirse de manera específica de secuencia al ADN (en un sitio diana o de reconocimiento), y escindir el ADN en o cerca del sitio de unión. Se han estudiado con detalle más de 3.000 enzimas de restricción, y más de 600 de estas están disponibles comercialmente. Las endonucleasas de restricción naturales se clasifican en cuatro grupos (Tipos I, II III, y IV) sobre la base de su composición y requerimiento de cofactor enzimático, la naturaleza de su secuencia diana, y la posición de su sitio de escisión en el ADN respecto a la secuencia diana. Todos los tipos de enzimas reconocen secuencias cortas de ADN específicas y llevan a cabo la escisión endonucleolítica del ADN para proporcionar fragmentos específicos con fosfatos 5'-terminales. Un tipo de enzima de restricción, las enzimas de Tipo II, escinden dentro de o en distancias específicas cortas de un sitio de reconocimiento; la mayor parte requiere magnesio; enzimas de función única (restricción) independientes de metilasa. Las enzimas de Tipo II forman homodímeros, con sitios de reconocimiento que habitualmente no están divididos y son palindrómicos y con una longitud de 4-8 nucleótidos. Reconocen y escinden el ADN en el mismo sitio, y no usan ATP o AdoMet para su actividad - habitualmente, solo requieren Mg2+ como cofactor. Las enzimas de restricción de tipo II comunes incluyen Hhal, HindIII, Notl, EcoRI, y Bgll. Las enzimas de restricción pueden cortar ADNds de una manera que deja bien extremos romos o extremos cohesivos. Los protocolos para crear una DSB en ADNds con enzimas de restricción son muy conocidos para los expertos en la técnica. La digestión por restricción es una técnica común en la biología molecular y se realiza típicamente usando los reactivos y protocolos proporcionados en un kit de digestión por restricción disponible comercialmente. Los ejemplos de empresas que proporcionan kits de digestión por restricción incluyen New England BioLabs, Promega, Sigma-Aldrich, y Thermo Fisher Scientific. Cada una de estas empresas proporciona protocolos de digestión por restricción en su sitio de internet.
Las endonucleasas de asentamiento (HE), que también son conocidas como meganucleasas, son un conjunto de ADNasas de doble cadena que tienen sitios de reconocimiento grandes, asimétricos (12-40 pares de bases) y secuencias codificadoras que están incluidas habitualmente bien en intrones o inteínas. Los intrones se retiran por escisión de los ARN precursores, mientras las inteínas se retiran por escisión de proteínas precursoras. Catalizan la hidrólisis del ADN genómico en las células que las sintetizan, pero lo hacen en muy pocas localizaciones o incluso en localizaciones singulares. Los sitios de reconocimiento de las HE son extremadamente raros. Por ejemplo, una secuencia de reconocimiento de 18 pares de bases ocurrirá solo una vez cada 7 x 1010 pares de bases de secuencia aleatoria. Esto es equivalente a un único sitio en 20 genomas del tamaño del de los mamíferos. Sin embargo, a diferencia de las endonucleasas de restricción, las HE toleran alguna degeneración de secuencia en su secuencia de reconocimiento. Así, los cambios de bases únicas no suprimen la escisión, pero reducen su eficiencia en grados variables. Como resultado, su especificidad de secuencia observada está típicamente en el rango de 10-12 pares de bases. Los ejemplos de protocolos adecuados que usan HE pueden encontrarse en Karen Flick et al., DNA Bindingin Cleavage by the Nuclear Introns-Encoded Homing Endonuclease l-Ppol, 394 Nature 96-101 (1998) y Brett Chevalier et al., Design, Activity,and Structure o f a Highly Specific Artificial Endonuclease, 10 Molecular Cell 895-905 (2002).
Las nucleasas de dedo de cinc (ZFN) son proteínas sintéticas que consisten en un dominio de unión a ADN de dedo de cinc preparado por ingeniería fusionado con el dominio de escisión de la endonucleasa de restricción Fokl. Las ZFN pueden usarse para inducir DSB en secuencias de ADN específicas y de esta manera promueven la recombinación homóloga específica de sitio y la manipulación dirigida de loci genómicos en una variedad de diferentes tipos de células. La introducción de una DSB en ADNds puede aumentar la eficiencia de la recombinación con un molde de reparación homóloga introducido exógenamente. Las ZFNs consisten en un dominio de unión a ADN de dedo de cinc (compuesto por tres a seis dedos) unido covalentemente al dominio de escisión de ADN no específico de la endonucleasa de restricción bacteriana Fokl. Las ZFN pueden unirse como dímeros a sus sitios de ADN diana, con cada monómero usando su dominio de dedo de cinc para reconocer la mitad de un sitio. La dimerización de las ZFN está mediada por el dominio de escisión de Fokl que escinde en una secuencia "espaciadora" de cinco o seis pares de bases que separa los dos "medios sitios" invertidos. Como las especificidades de unión al ADN de los dominios de dedos de cinc puede, en principio, volver a prepararse por ingeniería usando uno de diversos métodos, pueden construirse ZFN personalizadas para que se dirijan a casi cualquier secuencia de ADN. Un experto en la técnica sabrá cómo diseñar y usar las ZFN para crear DSB en ADNds en un sitio diana deseado. Algunos protocolos adecuados están disponibles en Philipsborn, A, et al., Nature Protocols, 2006, 1, 1322-1328; John Young y Richard Harland, Targeted Gene Disruption with Engineered Zinc Finger Nucleases (ZFNs), 917 Xenopus Protocols 129-141 (2012), y Hansen, K, et al. Genome Editing with CompoZr Custom Zinc Finger Nucleases (ZFNs). J. Vis. Exp. 2012, 64, e3304, doi:10.3791/3304.
Las TALEN son enzimas de restricción que pueden prepararse por ingeniería para cortar secuencias específicas de ADN. Se preparan fusionando un dominio de unión a ADN efector TAL a un dominio de escisión de ADN (una nucleasa que corta cadenas de ADN). Los efectores semejantes a activador de la transcripción (TALE) pueden prepararse por ingeniería para unirse a prácticamente cualquier secuencia de ADN deseada, de manera que cuando se combinan con una nucleasa, el ADN puede cortarse en localizaciones específicas. Las enzimas de restricción pueden introducirse en las células, para su uso en la edición de genes o para la edición del genoma in situ. El dominio de unión a ADN contiene una secuencia de 33-34 aminoácidos repetida altamente conservada con los aminoácidos 12 y 13 divergentes. Estas dos posiciones, referidas como Diresiduo Variable Repetido (RVD), son altamente variables y muestran una fuerte correlación con el reconocimiento de nucleótidos específicos. Esta relación directa entre la secuencia de aminoácidos y el reconocimiento del ADN ha permitido la preparación por ingeniería de dominios de unión a ADN específicos mediante la selección de una combinación de segmentos repetidos que contienen los RVD apropiados. Notablemente, los cambios pequeños en el RVD y la incorporación de secuencias de RVD "no convencionales" puede mejorar la especificidad del direccionamiento. Un experto en la técnica sabrá cómo diseñar y usar las TALEN para crear DSB en ADNds en un sitio diana deseado. Algunos protocolos adecuados están disponibles en Mario Hermann et al., Mouse Genome Engineering Using Designer Nucleases, 86 J. Vis. Exp. e50930, doi:10.3791/50930 (2014) y Tetsuhi Sakuma et al., Efficient TALEN Construction and Evaluation Methods for Human Cell and Animal Applications, 18(4) Genes Cells 315-326 (2013).
En el sistema de nucleasa CRISPR/Cas, el locus CRISPR, codifica componentes de ARN del sistema, y el locus Cas (asociado a CRISPR), codifica proteínas. Los loci CRISPR en los huéspedes microbianos contienen una combinación de genes asociados a CRISPR (Cas), así como elementos de ARN no codificadores capaces de programar la especificidad de la escisión de ácido nucleico mediada por CRISPR.
El CRISPR tipo II es uno de los sistemas mejor caracterizados y lleva a cabo DSB de ADN dirigida en cuatro etapas secuenciales. En primer lugar, dos ARN no codificadores, la matriz pre-ARNcr y ARNtracr, se transcriben a partir del locus CRISPR. En segundo lugar, ARNtracr hibrida con las regiones repetidas del pre-ARNcr y media el procesamiento del pre-ARNcr en ARNcr maduros que contienen secuencias espaciadoras individuales. En tercer lugar, el complejo ARNcr maduro:ARNtracr dirige a Cas9 al ADN diana mediante emparejamiento de bases de Watson-Crick entre el espaciador en el ARNcr y el protoespaciador en el ADN diana cerca del resto adyacente al protoespaciador (PAM), un requerimiento adicional para el reconocimiento de la diana. Las especies de Cas9 de diferentes organismos tienen diferentes secuencias PAM. Por ejemplo, Streptococcus pyogenes (Sp) tiene una secuencia PAM de 5'-NGG-3', Staphylococcus aureus (Sa) tiene una secuencia PAM de 5'-NGRRT-3' o 5'-NGRRN-3', Neisseria meningitidis (NM) tiene una secuencia PAM de 5'-NNNNGATT-3', Streptococcus thermophilus (St) tiene una secuencia PAM de 5'-NNAGAAW-3', Treponema denticola (Td) tiene una secuencia PAM de 5'-NAAAAC-3'.
Finalmente, Cas9 media la escisión del ADN diana para crear una rotura de doble cadena en el protoespaciador. La actividad del sistema CRISPR/Cas comprende tres etapas: (i) inserción de secuencias de ADN extrañas en la matriz de CRISPR para prevenir futuros ataques, en un proceso denominado "adaptación", (ii) expresión de las proteínas relevantes, así como expresión y procesamiento de la matriz, seguido de (iii) interferencia mediada por ARN con el ácido nucleico extraño. Así, en la célula bacteriana, varias de las denominadas proteínas "Cas" están implicadas con la función natural del sistema CRISPR/Cas y juegan papeles en funciones tales como la inserción del ADN extraño, etc.
CRISPR también puede funcionar con nucleasas distintas de Cas9. Dos genes de la familia Cpf1 contienen un dominio de endonucleasa semejante a RuvC, pero carecen del segundo dominio de endonucleasa HNH de Cas9. Cpf1 escinde el ADN en un patrón escalonado y solo requiere un ARN en lugar de los dos (ARNtracr y ARNcr) que necesita Cas9 para la escisión. El PAM preferido por Cpf1 es 5'-TTN, que difiere del de Cas9 (3'-NGG) tanto en la localización genómica como en el contenido de GC. Los ARNcr maduros para la escisión mediada por Cpf1 tienen una longitud de 42-44 nucleótidos, aproximadamente el mismo tamaño que la de Cas9, pero con la repetición directa precediendo al espaciador en lugar de siguiéndolo. El ARNcr de Cpf1 es también mucho más simple en estructura que el de Cas9; solo es necesaria una corta estructura de tallo-bucle en la región de repetición directa para la escisión de una diana. Cpf1 tampoco requiere un ARNtracr adicional. Mientras Cas9 genera extremos romos 3 nt en 5' del sitio PAM, Cpf1 escinde de una forma escalonada, creando una protuberancia en 5' de 5 nucleótidos, 18-23 bases lejos del PAM.
También hay variantes de CRISPR/Cas9 que no usan una secuencia PAM tales como NgAgo. NgAgo funciona con una guía de ADNss de 24 nucleótidos y se cree que corta 8-11 nucleótidos desde el inicio de esta secuencia. El ADNss se carga al plegarse la proteína y no puede intercambiarse a una guía diferente a menos que la temperatura se incremente hasta los no fisiológicos 55 °C. Se eliminan unos pocos nucleótidos en el ADN diana cerca del sitio de corte. Las técnicas para usar NgAgo se describen en Feng Gao et al., DNA-guided Genome Editing Using the Natronobacterium Gregoryi Argonaute, 34 Nature Biotechnology 768-770 (2016).
Las DSB pueden formarse haciendo dos roturas de cadena única en diferentes localizaciones, creando una molécula de ADN cortada con extremos cohesivos. Las roturas de cadena única o "mellas" pueden formarse por versiones modificadas de la enzima Cas9 que contienen solo un dominio catalítico activo (denominada "Cas9 nickasa"). Las Cas9 nickasas todavía se unen a ADN sobre la base de la especificidad de ARNg, pero las nickasas solo son capaces de cortar una de las cadenas del ADN. Se requieren dos nickasas dirigidas a cadenas opuestas para generar una DSB en el ADN diana (referido frecuentemente como una "doble mella" o sistema CRISPR de "nickasa dual"). Este requerimiento incrementa dramáticamente la especificidad por la diana, ya que es improbable que se generen dos mellas fuera de la diana en una proximidad lo suficientemente cercana para causar una DSB.
En determinadas realizaciones, cualquiera de las enzimas mencionadas anteriormente puede ser un "derivado funcional" de una proteína natural. Un "derivado funcional" de una secuencia de polipéptido nativa es un compuesto que tiene una propiedad biológica cualitativa en común con una secuencia de polipéptido nativa. Los "derivados funcionales" incluyen, pero no están limitados a, fragmentos de una secuencia nativa y derivados de una secuencia de polipéptido nativa y sus fragmentos, siempre que tengan una actividad biológica en común con una secuencia de polipéptido nativa correspondiente. Una actividad biológica contemplada en la presente memoria es la capacidad del derivado funcional de hidrolizar un sustrato de ADN en fragmentos. El término "derivado" engloba variantes de la secuencia de aminoácidos de polipéptido, modificaciones covalentes, y fusiones de los mismos. Los derivados adecuados de una enzima o un fragmento de la misma incluyen, pero no están limitados a, mutantes, fusiones, modificaciones covalentes de la proteína o un fragmento de la misma. La enzima, o un fragmento de la misma, así como los derivados o un fragmento de los mismos, pueden obtenerse a partir de una célula o sintetizarse químicamente o por una combinación de estos dos procedimientos. La célula puede ser una célula que produzca de forma natural la enzima. Una célula que produzca de forma natural la enzima también puede prepararse por ingeniería genética para producir la enzima endógena a un nivel de expresión mayor o para producir la enzima a partir de un ácido nucleico introducido exógenamente, ácido nucleico que codifica una enzima que es la misma o diferente de la enzima endógena. En algunos casos, una célula no produce de forma natural la enzima y se prepara por ingeniería genética para producir la enzima.
Después de crear una DSB en el sitio diana 102, el sitio diana 102 se divide en dos subsecuencias 102(A), 102(B) a cada lado de la DSB. Cada una de las dos subsecuencias 102(A), 102(B) puede tener una longitud de entre 5 y 20 nucleótidos. Así, el sitio diana 102 puede tener una longitud de entre 10 y 40 nucleótidos. En algunas implementaciones, las dos subsecuencias 102(A), 102(B) pueden contener secuencias de ADN idénticas. La DSB puede estar localizada en el medio del sitio diana 102 o puede estar localizada en otro lugar en el sitio diana 102. El esquema mostrado en la FIG. 1 ilustra una DSB con extremos romos, pero, como se ha descrito anteriormente, las DSB con extremos cohesivos también están abarcadas por el alcance de esta descripción.
Un molde de reparación homóloga 106 se lleva a la proximidad del ADNds 100 con la DSB. El molde de reparación homóloga 106 es ADN de cadena única (ss) o ARNss. El molde de reparación homóloga 106 incluye una secuencia 108 en el extremo 3' complementaria a la primera subsecuencia del sitio diana 102(A) y una secuencia 110 en el extremo 5' complementaria a una segunda subsecuencia del sitio diana 102(B). Como son secuencias complementarias, la longitud de la secuencia 108 en el extremo 3' y de la secuencia 110 en el extremo 5' son las mismas o aproximadamente las mismas que las subsecuencias respectivas del sitio diana 102(A), 102(B). Así, tanto la secuencia 108 en el extremo 3' como la secuencia 110 en el extremo 5' pueden tener una longitud de entre 5 y 20 nucleótidos. La porción media del molde de reparación homóloga 106 contiene una región 112 que codifica un segundo sitio diana 116. Esta región media 112 puede contener dos subsecuencias 112(A), 112(B) en cada lado del punto donde el segundo sitio diana 116 será cortado por una segunda enzima. La longitud de las dos subsecuencias 112(A), 112(B) en la porción media 112 del molde de reparación homóloga 106 puede ser diferente que las longitudes de las dos subsecuencias 102(A), 102(B) pero pueden estar en el mismo rango de tamaño y tener una longitud de entre cinco y 20 nt. Así, la longitud total del molde de reparación homóloga 106 puede ser entre aproximadamente 20 y 80 nt. Como la región media 112 codifica un segundo sitio diana 116, el molde de reparación homóloga 106 en sí mismo proporciona la base para que este proceso se repita de forma iterativa.
El molde de reparación homóloga 106 repara la DSB mediante reparación dirigida por homología (HDR). La HDR es un mecanismo en las células para reparar lesiones de ADN de doble cadena. La HDR incluye recombinación homóloga (HR) e hibridación de cadena única (SSA) (Lieber. 2010 Annu. Rev. Biochem. 79:181 -211). La forma más común de HDR es HR que tiene los requerimientos de homología de secuencia más grandes entre el ADN donante y aceptor. Otras formas de HDR incluyen hibridación de cadena única (SSA) y replicación inducida por rotura, y estos requieren una homología entre secuencias más corta respecto a HR. La reparación dirigida por homología en mellas (roturas de cadena única) puede ocurrir a través de un mecanismo distinto de HDR en roturas de doble cadena (Davis y Maizels. PNAS (0027-8424), 111 (10), p. E924-E932).
Puede proporcionarse una sobreabundancia del molde de reparación homóloga 106 para incrementar la eficiencia de la HDR. La sobreabundancia del molde de reparación homóloga 106 puede proporcionarse a un sistema sin células mediante la adición de copias adicionales del ARNss o ADNss manualmente o con el uso de microfluidos. El molde de reparación homóloga 106 también puede proporcionarse, en sobreabundancia si se desea, poniendo un gen que codifica el molde de reparación homóloga 106 bajo el control de un promotor fuerte y/o teniendo múltiples copias del gen que codifica el molde de reparación homóloga 106 bajo el control del mismo promotor.
La cadena de ADN con extremo 5' se resecciona en la rotura para crear una protuberancia en 3'. Esta servirá tanto como un sustrato para proteínas requeridas para la invasión de cadena como un cebador para la síntesis de la reparación del ADN. El molde de reparación homóloga 106 puede desplazar entonces una cadena del dúplex de ADN homólogo y emparejarse con la otra; esto causa la formación de ADN híbrido referido como el bucle de desplazamiento ("bucle D"). Los intermedios de recombinación pueden resolverse entonces para completar el proceso de reparación del ADN. Como se ha mencionado anteriormente, puede proporcionarse una sobreabundancia del molde de reparación homóloga 106. Un experto en la técnica entenderá cómo realizar la HDR con ADNds 100 que tiene una DSB y un molde de reparación homóloga 106. Los posibles protocolos para realizar la HDR se proporcionan en Jie Liu et al., In Vitro Assays for DNA Pairing in Recombination-Associated DNA Synthesis, 745 Methods Mol. Bio. 363­ 383 (2011); Gratz, S, et al, 196 Genetics 967-971 (2014); Richardson, C, et al, 34 Nature Biotecnología 399-344 (2016); y Lin, S, et al, eLIFE, 2014, 3:e04766.
Después de que el molde de reparación homóloga 106 invade el ADNds, se forma el bucle D por hibridación de la secuencia 108 del extremo 3' con la primera subsecuencia 102(A) del sitio diana 102 y la hibridación de la secuencia 110 del extremo 5' con la segunda subsecuencia 102(B) del sitio diana 102. La ADN polimerasa sintetiza nuevo ADNss 114 complementario a la porción media 112 de una cadena del ADNds 100. La ADN ligasa une el núcleo de azúcarfosfato del ADNss 114 recién sintetizado con el resto de la cadena del ADNds 100. Esto forma una cadena del segundo sitio diana 116.
Después de la reparación de la primera cadena del ADNds 100, la segunda cadena del ADNds 100 se repara por la ADN polimerasa y la ADN ligasa usando la secuencia del nuevo ADNss 114 en la primera cadena reparada como molde. Esto completa la reparación del ADNds 100 dando lugar a ADNds que incluye el segundo sitio diana 116 insertado en el primer sitio diana 102.
Las ADN polimerasas son enzimas que sintetizan moléculas de ADN a partir de desoxirribonucleótidos individuales. Durante este proceso, la ADN polimerasa "lee" una cadena de ADN existente para crear una nueva cadena complementaria. La ADN ligasa es un tipo específico de enzima, que facilita la unión de las cadenas de ADN entre sí mediante la catálisis de la formación de un enlace fosfodiéster. Juega un papel en la reparación de roturas de cadena única. El mecanismo de la ADN ligasa es formar dos enlaces fosfodiéster covalentes entre los extremos hidroxilo en 3' de un nucleótido, ("aceptor") con el fosfato en el extremo 5' de otro ("donante"). La ADN ligasa del bacteriófago T4 es la ligasa usada más comúnmente en la investigación de laboratorio. Puede ligar extremos cohesivos o "pegajosos" del ADN, oligonucleótidos, así como ARN e híbridos ARN-ADN, pero no ácidos nucleicos de cadena única. También puede ligar ADN con extremos romos.
Obsérvese que el molde de reparación homóloga 106 incluye dos tipos de regiones: regiones terminales y una región media. Las regiones terminales son homólogas a una de las cadenas del ADNds 100 en cualquier lado de la DSB. Aquí, las regiones homólogas se muestran por la secuencia 108 en el extremo 3' y la secuencia 110 en el extremo 5'. No es necesario que la homología sea del 100 %, sino solo hasta el grado en el que la secuencia 108 en el extremo 3' y la secuencia 110 en el extremo 5' hibriden con una cadena del ADNds 100. La región media es la porción media 112 del molde de reparación homóloga 106 que codifica la secuencia del segundo sitio diana 116. La variación independiente tanto de las regiones terminales como de la región media permite la creación de múltiples moldes de reparación homóloga 106 diferentes a partir de un conjunto relativamente limitado de regiones terminales y de regiones medias.
Después de la HDR, el ADNds 100 incluye la primera subsecuencia 102(A) del primer sitio diana 102 seguida de la primera subsecuencia 116(A) del segundo sitio diana 116. La secuencia de ADN 118 representada por este orden de las dos subsecuencias 102(A), 116(A) de los dos sitios diana representa un dígito binario (p. ej., 0 o 1). Como se ha mencionado anteriormente, una longitud de la subsecuencia 102(A) es de cinco a 20 nucleótidos y la longitud de la subsecuencia 112(A) es también de cinco a 20 nucleótidos. Así, el bit representado por la secuencia de ADN 118 está codificado por una secuencia de 10 a 40 nucleótidos. Más precisamente, el bit está codificado por una primera secuencia de cinco a 20 nucleótidos que es adyacente a una segunda secuencia de cinco a 20 nucleótidos en lugar de por la identidad específica de cada uno de los cinco a 20 nucleótidos.
La FIG. 2 muestra ilustraciones esquemáticas de manipulaciones adicionales realizadas en la molécula de ADNds 100 de la FIG. 1. La segunda enzima 200 crea una segunda DSB en el segundo sitio diana 116. El segundo sitio diana 116 tiene una secuencia diferente del primer sitio diana 102, y así, la segunda enzima 200 reconoce una secuencia de ADN diferente de la primera enzima 104. La creación de una DSB en el segundo sitio diana 116 crea la primera subsecuencia 116(A) del segundo sitio diana 116 en un lado de la DSB y una segunda subsecuencia 116(B) del segundo sitio diana 116 en el otro lado de la DSB. En algunas implementaciones, la primera subsecuencia 116(A) y la segunda subsecuencia 116(B) pueden tener la misma secuencia. Así, la primera subsecuencia 116(A) y una segunda subsecuencia 116(B) pueden tener la misma longitud de nucleótidos. También, si la primera subsecuencia 116(A) y la segunda subsecuencia 116(B) son la misma secuencia, puede pensarse que el segundo sitio diana 116 tiene una única subsecuencia repetida una vez.
Un segundo molde de reparación homologa 202 se pone en contacto con el ADNds 100 para proporcionar un molde para la HDR de la DSB. El segundo molde de reparación homóloga 202 incluye una región 204 en el extremo 3' que es homóloga a una cadena del ADNds 100 en la primera subsecuencia 116(A) del segundo sitio diana 116. El segundo molde de reparación homóloga 202 también incluye una región 206 en el extremo 5' que es homóloga a una cadena del ADNds 100 en la segunda subsecuencia 116(B) del segundo sitio diana 116. El segundo molde de reparación homóloga 202 también incluye una porción en el medio 208 que codifica un tercer sitio diana 212 para una tercera enzima. La región media 208 incluye una primera subsecuencia 208(A) en un lado de la DSB y una segunda subsecuencia 208(B) en el otro lado de la DSB.
La hibridación del segundo molde de reparación homóloga 202 con una cadena del ADNds 100 crea un bucle D por hibridación de la secuencia 204 en el extremo 3' con la subsecuencia 116(A) y la hibridación de la secuencia 206 en el extremo 5' con la subsecuencia 116(B). La ADN polimerasa y la ADN ligasa reparan la cadena del ADNds 100 con la que hibrida el segundo molde de reparación homóloga 202 mediante la creación de un nuevo ADN 210. La segunda cadena del ADNds 100 se repara entones usando la primera cadena como un molde.
El ADNds 100 incluye ahora el tercer sitio diana 212 insertado en el medio del segundo sitio diana 116 (que se inserta él mismo en el medio del primer sitio diana 102). El orden de la subsecuencia 116(A) seguida de la subsecuencia 212(A) codifica un segundo dígito binario 214. Este proceso puede repetirse para codificar cualquier número de dígitos binarios 118, 214 en el ADNds 100.
El esquema de codificación descrito en la presente memoria permite la inserción de secuencias de ADN que representan una longitud ilimitada de bits usando solo tres secuencias diana diferentes y seis moldes de reparación homóloga diferentes como se explica más adelante. Las tres secuencias diana se representan como X1X2, Y1Y2, y Z1Z2. La primera porción de las secuencias diana (p. ej., X1, Y1, o Z1) corresponde a la subsecuencia 102(A) o a la subsecuencia 116(A) mostrado en la FIG. 1. La porción remanente de las secuencias diana (p. ej., X2, Y2, o Z2) corresponde a la subsecuencia 102(B) o a la subsecuencia 116(B) mostrado en la FIG. 1. Así, cada X, Y, y Z representa una secuencia de ADN de aproximadamente 5 a 20 nucleótidos tal como, solo por ejemplo, ACTGAA, GCCTCAT, TGACG, etc. En algunas implementaciones X1 = X2, etc., pero en otras implementaciones la primera porción de una secuencia diana puede ser diferente en secuencia y/o longitud de la porción remanente de una secuencia diana.
Los moldes de reparación homóloga tienen todos regiones terminales que son homólogas a una de las secuencias diana. Así, los moldes de reparación homóloga tendrán secuencias de la estructura: X1__ X2, Y1___Y2, y Z1___Z2. Recuérdese que la región media de los moldes de reparación homóloga en sí misma codifica un sitio diana. Así, la región media para cualquier molde de reparación homóloga dado será una de X1X2, Y1Y2, o Z1Z2. Con el fin de controlar de manera precisa la localización de la inserción, los moldes de reparación homóloga no codifican el sitio diana en el que se va a insertar el molde de reparación homóloga. Por ejemplo, X1X1X2X2 no es un molde de reparación homóloga válido según esta codificación. Así, si la secuencia diana es "X" la región media del molde de reparación homóloga puede codificar la secuencia diana para "Y" o "Z"; si la secuencia diana es "Y" la región media puede codificar "X" o "Z"; si la secuencia diana es "Z" la región media puede codificar "X" o "Y". Esto da lugar a los seis moldes de reparación homóloga: X1Y1Y2X2, X1Z1Z2X2, Y1X1X2Y2, Y1Z1Z2Y2, Z1X1X2Z2, y Z1Y1Y2Z2.
Una codificación dependiente de contexto usando tres sitios diana y seis moldes de reparación homóloga se muestra en la Tabla 1 siguiente. Esta es solo una posible codificación y también son posibles otras codificaciones que usan un número mayor de sitios diana y moldes de reparación homóloga. Además, también es posible usar múltiples codificaciones en la misma célula o sistema.
Tabla 1. Codificación binaria dependiente de contexto
Figure imgf000009_0001
El estado actual representa la secuencia presente en el ADNds 100 en el momento en el que se cea una DSB dada. El estado actual puede seguirse por un ordenador al que se proporciona un registro del sitio diana inicial 102 del ADNds 100 y las secuencias de cada molde de reparación homóloga 106, 202 al ponerse en contacto los moldes respectivos con el ADNds 102. Así, mediante la referencia al estado actual tal y como se almacena en el ordenador, puede seleccionarse el molde de reparación homóloga apropiado de la Tabla 1 (o tabla similar para una codificación diferente) con el fin de codificar el siguiente bit deseado.
El estado actual también puede registrarse bioquímicamente usando un cambio biestable diseñado genéticamente. Con uno o más cambios biestables, el estado actual puede registrarse bioquímicamente mediante la creación de registros moleculares basados en qué enzima y/o molde de reparación homóloga se usó el último a través de un bucle de retroalimentación positiva. Recuérdese el ejemplo de codificación de lo anterior que hace posible codificar cualquier secuencia binaria a través de una combinación del uso de tres enzimas (es decir, una para cada sitio diana) y seis moldes de reparación homóloga. En algunas implementaciones, los genes que codifican cada una de las enzimas y cada uno de los moldes de reparación homóloga también pueden estar presentes en la célula y cada uno de los genes puede estar regulado por promotores específicos y conocidos. Los genes que dan lugar a una enzima dada y los elementos reguladores acompañantes pueden estar incluidos en uno o más operones. Un operón es una región contigua de ADN que incluye regiones reguladoras en cis (represores, promotores) y las regiones codificadoras para uno o más genes o ARNm funcionales (ARNsi, ARNtracr, ARNg, ARNsh, etc). El operón puede suministrarse en un vector circular o puede insertarse en un cromosoma lineal. La activación de los genes mediante la regulación al alza o cese de la supresión, puede incrementar la cantidad de la enzima y/o molde de reparación homóloga deseados. Esto también puede generar moléculas de seguimiento que pueden usarse para monitorizar el estado. Las moléculas de seguimiento pueden formar parte de los operones.
Un "represor" (y/o "inactivación") es una proteína o ARNm (bucles de horquilla pequeños (ARNsh), ARNm de interferencia (ARNi o ARNsi)) que se une a ADN/ARN y bloquea bien la unión del promotor, bloquea la elongación de la polimerasa durante la transcripción, o bloquea la traducción del ARNm.
El nivel actual de una molécula de seguimiento puede servir como una señal de regulación de activación/desactivación para un gen que codifica un operón dado. En un sistema con un represor biestable, el represor tiene dos estados 0/1 que se invierten después de cada operación. Por ejemplo, después de que se usa el molde de reparación homóloga X1Y1Y2X2 (p. ej., como se identifica cuando la concentración es mayor que un nivel de umbral) una molécula de seguimiento asociada puede ajustar el estado del represor biestable. Continuando con este ejemplo, cada uno de los moldes de reparación homóloga puede estar asociado con un represor biestable diferente y en cualquier momento dado cinco de los represores biestables pueden estar en un estado asociado con "desactivación" y el sexto puede estar en un estado asociado con "activación". Así, mediante el examen del estado de los múltiples represores biestables, es posible identificar qué molde de reparación homóloga se usó el último. Un mecanismo similar puede conseguir el seguimiento de qué enzima se usó la última.
Para evitar la interferencia potencial por moléculas que permanecen de una iteración anterior, la inversión del represor biestable puede manejarse como un proceso de múltiples etapas que en primer lugar se pausa hasta que ha parado la edición del ADNds, después cambia el estado del represor usando una señal de decaimiento temporal que indica a qué estado debería cambiarse el represor. La señal de decaimiento temporal se inicia durante la etapa activa de la última iteración. Una vez la señal ha decaído por debajo de un nivel umbral y el represor ha cambiado completamente al nuevo estado, se desbloquean las moléculas que regulan los operones usados para la siguiente iteración. El operón que carece de represor que se corresponde apropiadamente con el estado actual y tiene un promotor para la señal de entrada actual es capaz entonces de proceder con la transcripción.
Un experto en la técnica sabrá cómo crear un cambio biestable usando proteínas que funcionan como factores de transcripción o represores que tienen dominios de unión a ADN. Un "factor de transcripción" es una proteína que se une cerca del comienzo de la secuencia codificadora (sitio de inicio de la transcripción) para un gen o ARNm funcional. Los factores de transcripción son necesarios para reclutar a la polimerasa para transcribir el ADN. Las técnicas para crear y usar cambios moleculares biestables se describen en Lebar, et al., A bistable genetic switch based on designable DNA-binding domains, 5 Nature Communications 5007 (2014).
Una implementación de cambios biestables se muestra a continuación en la Tabla 2.
Tabla 2. Construcciones de cambio biestable
Figure imgf000010_0001
Los sitios de unión del represor se representan por R_. Los represores se unen en R1, pero no en R0. Los represores bloquean el promotor. El sitio de unión del promotor se representa por P_. El promotor puede ser inducible con una señal adicional que activa/desactiva la escritura completamente. El agente que alternará P de activado a desactivado se representa como P10. Dependiendo de la implementación específica, P10 puede ser ADN, ARNm, o Proteína. El agente que alternará R de desactivado a activado se representa como R01. El agente que alternará R de activado a desactivado se representa como R10. Dependiendo de la implementación específica, tanto R01 como R10 puede ser ADN, ARNm, o Proteína. La enzima que corta entre X1X2 (u otro sitio diana) se representa por XAX (YAY o ZAZ). Si la enzima es el sistema CRISPR/Cas9, XAX representa el ADN/ARNm para ARNg que incluye un espaciador XAX. T representa ARNtracr que se une a Cas9.
La principal diferencia respecto a la tabla previa es que hay un alfabeto de cuatro (X, Y, Z, W), pero solo se necesita una variable de estado previa. Esta implementación puede proporcionar algunas eficiencias para la codificación y la ingeniería.
El estado actual se usa para identificar qué enzima 104, 200 es apropiada para crear una DSB en el ADNds 102. La enzima 104, 200 se hace interaccionar con el ADNds 100. Por ejemplo, cuando el estado actual es X1X2 la enzima seleccionada es capaz de crear una DSB en la secuencia X1X2. El siguiente ejemplo en la Tabla 3 muestra cómo los valores binarios 010101 pueden codificarse en el ADNds 102 con la secuencia diana inicial 102 de X1X2.
Tabla 3. Ejemplo de valores binarios codificados en ADN
Figure imgf000011_0001
En un ejemplo de implementación, usando Cas9 con una secuencia PAM de NNNNGATTT como la enzima, los tres sitios diana pueden ser
X 1 -TAGCCGTATCGAGCATCGATG | CGCNNNNGATT = X 2
Y, = GATCGATGGACTCIGCATCTA | TCGNNNNGATT = Y?
h = CGGGACGATCGATCGGGCTAG | ACTNNNNGATT = Z 2
Donde la secuencia PAM se indica en negrita, X1 es (SEQ ID NO: 1), X2 es (SEQ ID NO: 2), Y1 es (SEQ ID NO: 3), Y2 es (SEQ ID NO: 4), Z1 es (SEQ ID NO: 5), y Z2 es (SEQ ID NO: 6). Obsérvese que cada uno de X1 , Y1 , y Z1 tienen una longitud de 21 pb.
Cada uno de los sitios diana es reconocido por un ADNss guía correspondiente que corta el ADNds en la localización indicada por "A" más adelante. Deberían tener un ARNcr que activa en trans (ARNtracr) que es un ARN pequeño codificado en trans para unirse a Cas9 incluida en el extremo. Las secuencias de ADNss respectivas son: gXi = TAGCCGTATCGAGCATCGATG * CGC [SEQ ID NO: 1)
gYi = GATCGATGGACTCTGCATCTA* TCG(SEQ ID NO: 3)
gZi = CGGGACGATCGATCGGGCTAGA ACT (SEQ ID NO: 5)
Entonces, una secuencia de reparación dirigida por homología de X1Y1Y2X2 es:
TAGCCGTATCGAGCATCGATG | GATCGATGGACTCTGCATCTA | TCGNNNNGATT | CGCNNNNGATT (SEQ ID NO: 7) y una secuencia de reparación dirigida por homología de Y1X1X2Y2 es:
GATCGATGGACTCTGCATCTA | TAGCCGTATCGAGCATCGATG | CGCNNNNGATT | TCGNNNNGATT (SEQ ID NO: 8). Otras secuencias de reparación dirigida por homología pueden diseñarse según el mismo patrón.
Un corte inicial del sitio diana X1X2 creará una DSB que aparece como (solo se muestra una cadena del ADNds): ... TAGCCGTATCGAGCATCGATG CGCNNNNGATT...
Después de la HDR con X1Y1Y2X2, una cadena del ADNds tendrá la siguiente secuencia que ahora incluye el sitio diana Y1Y2 indicado en cursiva:
... TAGCCGTATCGAGCATCGATG | GATCGATGGACTCTGCATCTA || TCG NNNNGATT \ CGCNNNNGATT... (SEQ ID NO: 7).
El ADNds puede ser cortado ahora por una Cas9 que tenga Y1g creando una DSB en la localización representada por "||" . La HDR puede realizarse con Y1X1X2Y2, por ejemplo, añadiendo adicionalmente al ADNds y completando otra iteración de codificación. Esto puede continuarse con diversas secuencias de cortes y moldes de reparación homóloga para codificar cualquier serie de bits.
Procesos ilustrativos
Para facilitar la comprensión, los procesos discutidos en esta descripción se delinean como operaciones separadas representadas como bloques independientes. Sin embargo, estas operaciones delineadas separadamente no deberían considerarse como necesariamente dependientes del orden en su realización. El orden en el que se describe el proceso no se pretende que sea considerado como una limitación, y puede combinarse cualquier número de los bloques del proceso descrito en cualquier orden para implementar el proceso, o un proceso alternativo. Además, también es posible que una o más de las operaciones proporcionadas puedan modificarse u omitirse.
La FIG. 3 muestra el proceso 300 para la adición de forma iterativa de ADN al sitio de una DSB en una molécula de ADNds. El proceso 300 corresponde, en parte, a los esquemas mostrados en las FIG. 1 y 2.
En 302, se crea una primera DSB en un primer sitio diana 102 en el ADNds 100 con una primera enzima 104. Con el fin de limitar dónde corta la primera enzima 104 el ADNds 100, el primer sitio diana 102 puede ser único en el ADNds en el momento de hacer la primera DSB. El primer sitio diana 102 también puede ser único a lo largo de una población de ADNds que está disponible para que la primera enzima actúa en el mismo. Por ejemplo, si hay múltiples moléculas de ADNds circular en una célula, el primer sitio diana 102 puede existir solo una vez en la población completa de moléculas de ADNds circular. Alternativamente, el primer sitio diana 102 puede ser único por molécula de ADNds, pero la primera enzima 104 puede tener acceso a múltiples moléculas de ADNds diferentes, cada una incluyendo un caso del primer sitio diana 102. Los expertos en la técnica entienden que la enzima (incluso si se refiere en singular en la presente memoria) puede incluir una pluralidad de moléculas de enzimas individuales y equivalentes. En algunas implementaciones, el primer sitio diana 102 puede incluir una primera subsecuencia 102(A) que se repite una vez, dando lugar a una segunda subsecuencia 102(B) que es la misma que la primera subsecuencia 102(A). Por ejemplo, si la primera subsecuencia 102(A) es GTACTA, entonces la segunda subsecuencia 102(B) es la misma y la secuencia del sitio diana 102 es GTACTAGTACTA (SEQ ID NO: 9).
La primera enzima 104 puede ser cualquiera de los tipos ilustrativos de enzimas identificados anteriormente tales como una enzima de restricción, HE, un sistema CRISPER/Cas, una TALEN, o un dedo de cinc.
En 304, se selecciona un primer molde de reparación homóloga 106 para codificar un primer dígito binario 118. Dado el dígito binario 118, para codificar según un esquema de codificación, la identidad del primer sitio diana 102 se usa para seleccionar el primer molde de reparación homóloga 106. El molde de reparación homóloga 106 puede incluir una secuencia en el extremo 3' y una secuencia en el extremo 5' cada una que codifica una segunda subsecuencia que es complementaria a la primera subsecuencia 102(A), 102(B) en el primer sitio diana 102. Así, en esta implementación, la secuencia 108 en el extremo 3' y la secuencia 110 en el extremo 5' tienen la misma secuencia, pero en otras implementaciones, pueden tener secuencias diferentes. El primer molde de reparación homóloga 106 también puede incluir una porción media que incluye dos casos adyacentes de una tercera subsecuencia 112(A), 112(B) que forma el siguiente sitio diana después de la inserción en el ADNds.
Como se ha mencionado anteriormente, la selección del molde de reparación homóloga 106 puede estar basada en un esquema de codificación tal como el mostrado en la Tabla 1 anterior.
En 306, se determina si el siguiente dígito es 0. Siendo un sistema binario, esto es funcionalmente equivalente a determinar si el siguiente dígito no es 1. Si el siguiente dígito que se va a codificar es un 0, el proceso 300 procede a 308 y selecciona un molde de reparación homóloga 106 que, cuando se inserta en el sitio diana 102, codifica un 0. Si el siguiente dígito binario no es 0, siendo así 1, el proceso 300 procede a 310 y selecciona un molde de reparación homóloga 106 que, cuando se inserta en el sitio diana 102, codifica un 1. El dígito binario 118 apropiado se representa por la secuencia parcial 112(A) del sitio diana 102 seguida de la secuencia parcial 116(A) del molde de reparación homóloga 106.
En 312, se genera el molde de reparación homóloga 106. El molde de reparación homóloga 106 puede ser generado en 312(A) artificialmente por un sintetizador de oligonucleótidos. Los sintetizadores de oligonucleótidos se discuten con más detalle más adelante.
En 312(B), el molde de reparación homóloga 106 puede ser generado por un gen bajo el control de un promotor regulado. El producto génico ARNm puede ser convertido en ADN a través del uso de la transcriptasa inversa para crear una molécula de ADN que es el molde de reparación homóloga 106 final. En algunas implementaciones, el ARNm en sí mismo puede servir como un molde de reparación homóloga sin la necesidad de convertirlo antes en ADN. Rafael Yahez-Muñoz, véase RNA to repair DNA - what next??, British Society for Gene and Cell Therapy (14 de enero, 2015) disponible en línea en www.bsgct.org/rna-to-repair-dna-what-next/; Keskin, H., Shen., Y. et al. Transcript-RNA-templated DNA recombination and repair. 515 Nature 436-439 (2014); y Storici, F, Bebenek, K. et al., RNA-templated DNA repair. 447 Nature 338-341 (2007).
En 314, el ADNds 100 se pone en contacto con el primer molde de reparación homóloga 106. La puesta en contacto del ADNds 100 con el primer molde de reparación homóloga 106 puede implicar añadir o mover múltiples copias del primer molde de reparación homóloga 106 en una cámara que contiene el ADNds 100 tal como, por ejemplo, por un sistema de microfluidos. En una implementación, la puesta en contacto del ADNds 100 implica regular al alza la expresión de un gen que codifica una secuencia de ARN que es en sí misma el molde de reparación homóloga 106 o que sirve como un molde para la creación del molde de reparación homóloga 106. La regulación al alza de la expresión del gen puede incluir cualquiera de activar un promotor que controla la transcripción del gen y/o inhibir la acción de un represor.
Típicamente, esta puesta en contacto ocurre en un entorno con múltiples copias del ADNds 100 y múltiples copias del molde de reparación homóloga 106. Puede haber cientos, miles, o más copias de cada uno del ADNds 100 y del molde de reparación homóloga 106. Después de poner en contacto el ADNds 100 con el molde de reparación homóloga 106 habrá un subconjunto del ADNds 100 y moldes de reparación homóloga 106 originales que realizan con éxito la reparación dirigida por homología para añadir la porción media del molde de reparación homóloga 106 al ADNds 100. También habrá un subconjunto diferente del ADNds 100 que no es reparado o que se repara de forma distinta de la incorporación de la porción media del molde de reparación homóloga 106. Las discusiones en la presente memoria pueden describir el ADNds 100 como si cada molécula se reparara con éxito por el molde de reparación homóloga 106, pero los expertos en la técnica entenderán que solo un subconjunto de una población de moléculas de ADNds se repara de esta manera.
En 316, se determina si se va a crear una DSB adicional en el ADNds 100 y se realiza la HDR con un segundo molde de reparación homóloga 202. Si la respuesta es afirmativa, por ejemplo, otro dígito binario se va a codificar en el ADNds 100, el proceso 300 procede a lo largo del camino "sí" a 318.
En 318, el ADNds 100 puede ser tratado para eliminar o inactivar cualquiera de la primera enzima 104 y/o el primer molde de reparación homóloga 106 que permanezcan. Esto reduce el potencial para que la enzima o el molde de reparación homóloga que permanecen de una iteración previa, creen un corte no pretendido o HDR en una iteración posterior. En una implementación, tal como un sistema de microfluidos sin células, el ADNds 100 puede ser lavado para eliminar la primera enzima y/o el primer molde de reparación homóloga. En una implementación, puede haber un tiempo de espera con una duración suficiente como para que la concentración de la primera enzima o el primer molde de reparación homóloga disminuya por debajo de un nivel umbral. El nivel umbral puede ser un nivel en el que se produzca una actividad menor o sustancialmente ninguna de la enzima/molde de reparación homóloga. El nivel umbral puede ser identificado por experimentación. Los procesos de degradación naturales en una célula pueden hacer que las enzimas y el ADNss o ARNss libres se degraden con el tiempo. La velocidad de la degradación puede incrementarse por la adición de proteasomas o nucleasas. Los moldes de reparación homologa también pueden hacerse inactivos por la adición de secuencias de ADNss complementarias que hibridan con los moldes de reparación homóloga creando ADNds y evitando que los moldes de reparación homóloga invadan el ADNds con una DSB.
La FIG. 4 muestra un proceso 400 de adición de ADN en dos sitios diana diferentes en ADNds según dos codificaciones diferentes. Dos codificaciones diferentes usando componentes completamente ortogonales permite la escritura de dos cadenas binarias diferentes en el mismo ADNds sin intercomunicación. Si dos codificaciones diferentes son completamente ortogonales, las enzimas usadas para hacer las DSB para la primera codificación reconocerán sitios diana diferentes de los sitios diana reconocidos por las enzimas usadas para la segunda codificación. De forma similar, las secuencias de los sitios diana para la primera codificación serán lo suficientemente diferentes de las secuencias de los sitios diana para la segunda codificación, de manera que no hay hibridación entre los moldes de reparación homóloga para una codificación y las DSB que flanquean el ADN asociadas con la otra codificación. El uso de dos codificaciones diferentes también permite codificar la misma secuencia binaria con redundancia. Aunque en la presente memoria solo se describen dos codificaciones diferentes, debe entenderse que esta técnica puede ser igualmente aplicable a cualquier número de codificaciones diferentes.
El proceso 400 se ilustra por un esquema que muestra manipulaciones del ADNds. El esquema adjunto usa representaciones similares a las mostradas en la FIG. 1 y FIG. 2. A no ser que se describa otra cosa, las características de la FIG. 4 tienen funciones iguales o similares a las características visualmente similares en la FIG. 1 y FIG. 2.
En 402, se crea una primera DSB en un primer sitio diana 404 en el ADNds 406 con una primera enzima 408. La primera enzima 408 puede ser cualquiera del tipo de enzimas capaces de crear DSBDSB en el ADNds descritas anteriormente. El ADNds 406 puede ser ADN lineal o ADN circular. En una implementación, el ADNds 406 puede ser una molécula de ADN circular presente en un sistema sin células.
En 410, el ADNds 406 se pone en contacto con el primer molde de reparación homóloga 412. El primer molde de reparación homóloga 412 incluye una secuencia en el extremo 3' que es complementaria a una primera porción del primer sitio diana 404 y una secuencia en el extremo 5' que es complementaria a una segunda porción del primer sitio diana 404. Alguna porción de una población del ADNds 406 que se pone en contacto con una población del primer molde de reparación homóloga 412 experimentará HDR e incorpora una porción media del primer molde de reparación homóloga en el ADNds 406. La porción media del molde de reparación homóloga 412 incluye la secuencia que está entre la secuencia del extremo 3' y la secuencia del extremo 5'. En una implementación sin células, la puesta en contacto puede realizarse, en parte, por un mecanismo de microfluidos, que mueve el primer molde de reparación homóloga 412 en una misma cámara que el ADNds 406, de manera que el primer molde de reparación homóloga 412 pueda hibridar con una cadena del ADNds 406.
Una vez integrada en el ADNds 406 por la operación de ADN polimerasa y ADN ligasa, una porción del sitio diana 404 se localiza adyacente al ADNds 414 generado por la reparación de la primera DSB con el primer molde de reparación homóloga 412. El orden de estas dos secuencias de ADN codifica un primer dígito binario 416 según un primer esquema de codificación. La secuencia de ADN generada por la reparación con el primer molde de reparación homóloga 412 es en sí misma un segundo sitio diana 414 según el primer esquema de codificación. Hasta ahora, el proceso 400 es similar a la manipulación de ADN mostrada en la FIG. 1.
En 418, se crea una segunda DSB en un tercer sitio diana 420 con una segunda enzima 422. El tercer sitio diana 420 pertenece a una codificación diferente que el primer sitio diana 404 o el segundo sitio diana 414. Así, para prevenir la intercomunicación entre las dos codificaciones diferentes, el tercer sitio diana 420 tiene una secuencia que es diferente que el primer sitio diana 404 y diferente que el segundo sitio diana 416. El tercer sitio diana 420 no se superpone con el primer sitio diana 404. Como no se superpone con el primer sitio diana 404, el tercer sitio diana 420 es al menos un par de bases distante del primer sitio diana 404. La segunda enzima 422 reconoce el segundo sitio diana 414, pero no reconoce ni corta el primer sitio diana 404. La primera enzima 408 y la segunda enzima 422 pueden ser el mismo tipo de enzima (p. ej., ambas CRISPER/Cas) o pueden ser diferentes tipos de enzimas (p. ej., una enzima de restricción y una TALEN).
En 424, el ADNds 406 se pone en contacto con un segundo molde de reparación homóloga 426. El segundo molde de reparación homóloga 426 también incluye una secuencia en el extremo 3' que es complementaria a una primera porción del tercer sitio diana 420 y una secuencia en el extremo 5' que es complementaria a una segunda porción del tercer sitio diana 420. Después de la reparación de la segunda DSB con el segundo molde de reparación homóloga 426, una secuencia de una porción del tercer sitio diana 420 adyacente a una porción del ADNds generado mediante la reparación de la segunda DSB, codifica un segundo dígito binario 428 según un segundo esquema de codificación. La secuencia de ADN complementaria a una porción media del segundo molde de reparación homóloga 426 comprende un cuarto sitio diana 430 según el segundo esquema de codificación. El cuarto sitio diana 430 es diferente del tercer sitio diana 420 y también diferente de cualquiera de los sitios diana para la primera codificación (es decir, el primer sitio diana 404 y el segundo sitio diana 414).
En este punto, se ha creado una DSB y se ha reparado con un molde de reparación homologa según la primera codificación y se ha creado una DSB diferente y se ha reparado con un molde de reparación homóloga diferente según la segunda codificación. Así, el ADNds 406 incluye un primer dígito binario 416 según la primera codificación y un segundo dígito binario 428 según la segunda codificación. Este proceso de crear DSB y reparar las roturas con un molde de reparación homóloga puede repetirse de forma iterativa según bien la primera o segunda codificación. En algunas implementaciones, las codificaciones pueden alternarse, o intercalarse, de manera que se añade un dígito binario según la primera codificación, entonces se añade un dígito binario según la segunda codificación y así sucesivamente.
Entorno de implementación celular ilustrativo
La FIG. 5 muestra una célula ilustrativa 500 que es capaz de almacenar de manera hereditaria datos binarios. La célula 500 puede ser una célula de E. coli, una célula de Saccharomyces cerevisiae, o una célula de otro organismo unicelular. También puede ser una célula de un organismo multicelular crecido en cultivo. La célula 500 puede contener una molécula de ADNds 502 que tiene un primer sitio diana 504. La célula 500 también puede contener una primera enzima 506 que está configurada para crear una DSB en el primer sitio diana 504. Por ejemplo, la primera enzima 506 puede ser un sistema CRISPR/Cas que comprende un ARNg 508 que incluye una región espaciadora complementaria a una cadena del ADNds 502 en el primer sitio diana 504.
La célula 500 también puede incluir un gen 510 bajo el control de un promotor 512 y un operador 514. Un promotor es una región de ADN que inicia la transcripción de un gen particular. Los promotores están localizados cerca de los sitios de inicio de la transcripción de los genes, en la misma cadena y en 5' del ADN (hacia la región 5' de la cadena con sentido). Un operador es un segmento de ADN al que se une un factor de transcripción para regular la expresión génica. El factor de transcripción es un represor, que puede unirse al operador para evitar la transcripción.
El gen 510 puede codificar una secuencia de ARNss 516 que comprende una secuencia 518 en el extremo 3' y una secuencia 520 en el extremo 5'. Un molde de reparación homóloga 522 puede generarse a partir del gen 510. En una implementación, el molde de reparación homóloga 522 es la secuencia de ARNss 516 en sí misma. La secuencia 518 en el extremo 3' y la secuencia 520 en el extremo 5' son complementarias a una cadena de la molécula de ADNds 502 sobre al menos parte del primer sitio diana 504. La homología entre la secuencia 518 en el extremo 3' y la secuencia 520 en el extremo 5' permite que la secuencia de ARNss 516 hibride con porciones del ADNds 502 en cualquier lado de una DSB creada en el primer sitio diana 504.
En las implementaciones en las que el gen 510 codifica directamente el molde de reparación homóloga 522, el gen 510 codificará un sitio diana 524 que puede ser cortado por una enzima tal como la primera enzima 506. A no ser que esté protegido frente a la enzima, el sitio diana 524 en el gen 510 puede cortarse inintencionadamente cuando se introduce la enzima.
Una técnica para proteger el sitio diana 524 frente a la primera enzima 506 es la separación física. En un sistema sin células, tal como uno que usa microfluidos, el gen 510 puede mantenerse en una cámara y la secuencia de ARNss 516 puede moverse de la cámara que contiene el gen 510 a una cámara diferente donde se introduce la enzima.
La separación física también puede usarse en implementaciones celulares. El gen 510 y la enzima pueden estar contenidos en diferentes cámaras celulares. En una implementación, el gen 510 puede estar en el núcleo y la enzima puede estar fuera del núcleo en el citoplasma o en otra cámara celular. El gen 510 puede permanecer en el núcleo si forma parte del genoma de la célula. Puede usarse una señal de exportación nuclear para mantener a la enzima fuera del núcleo. Una señal de exportación nuclear (NES) es una secuencia corta de aminoácidos de 4 residuos hidrófobos en una proteína que la dirige para la exportación desde el núcleo de la célula al citoplasma a través del complejo de poros nucleares usando transporte nuclear. Los expertos en la técnica serán capaces de modificar o preparar por ingeniería la enzima para que incluya una NES.
La secuencia de ARNss 516 puede ser exportada desde su sitio de transcripción en el núcleo al citoplasma u otro destino fuera del núcleo donde está presente la enzima. La exportación de ARN se describe en Sean Carmody y Susan Wente, mRNA Nuclear Export at a Glance, 122 J. of Cell Sci. 1933-1937 (2009) y Alwin Kohler y Ed Hurt, Exporting RNA from the Nucleus to the Cytoplasm, 8 Nature Reviews Molecular Cell Biology 761-773 (2007).
En una implementación, el gen 510 puede incluir una secuencia con una porción que posteriormente se elimina por corte y empalme. Esta porción adicional evitará que la enzima reconozca un sitio diana 524, pero la secuencia de ARNss 516 no será un molde de reparación homóloga 522 hasta que se elimine el sitio de corte y empalme. Hay múltiples tipos de corte y empalme alternativo, de los cuales uno es omisión de exones. La omisión de exones es una manera de causar corte y empalme en la secuencia de ARNss 516; en este caso, un exón puede ser eliminado por corte y empalme del transcrito primario. Los expertos en la técnica entenderán cómo diseñar el gen 510 de manera que incluya un sitio de corte y empalme en una localización especificada. El corte y empalme alternativo puede implementarse incluso si el gen 510 y la enzima no están separados físicamente.
Los elementos de autoescisión pueden funcionar de forma similar al corte y empalme. El gen 510 puede diseñarse para incluir una región que, cuando se transcribe en ARN, incluye uno o más elementos de autoescisión. Los elementos de autoescisión evitan que el gen 510 sea reconocido por la enzima y la escisión encubre la secuencia de ARNss 516 en el molde de reparación homóloga 522. Un tipo de elementos de autoescisión son las ribozimas, que son enzimas de ARN que funcionan como catalizadores de reacciones. De esta manera, las ribozimas son solo secuencias de ARN que catalizan una reacción (transesterificación) para eliminarse a sí mismas del resto de la secuencia de ARN. Esencialmente, estas se consideran intrones, que son regiones intragénicas que se cortan y empalman del ARNm para producir ARN maduro con una secuencia continua de exones (región codificadora). Los intrones/ribozimas de autoescisión consisten en intrones de tipo I y II. Se consideran de autoescisión porque no requieren proteínas para iniciar la reacción. Las secuencias de autoescisión son conocidas y un experto en la técnica entenderá cómo incluir una secuencia de autoescisión en el gen 510. Los aspectos de las ribozimas de autoescisión se muestran en http://2011.igem.org/Team: Waterloo.
También puede usarse una serie de puentes homólogos para generar una secuencia recombinante que es el molde de gen para la secuencia de ARNss 516. Los puentes homólogos pueden estar presentes en el ADN en diversas localizaciones separadas, de manera que el gen 510 no incluye un sitio diana 524. Esta técnica también se conoce como clonación de múltiples fragmentos o clonación por extensión. El molde de reparación homóloga 522 final está compuesto por transcritos de los múltiples segmentos que se superponen. Una técnica adecuada para combinar los múltiples fragmentos que se superponen en el molde de reparación homóloga 522 es Clonación Independiente de Secuencia y Ligación (SLIC). Mamie Li y Stephen Elledge, Harnessing Homologous Recombination in vitro to Generate Recombinant DNA Via SLIC, 4 Nature Methods 250-256 (2007). Otra técnica adecuada para unir múltiples fragmentos que se superponen se proporciona por Jiayuan Quan y Jingdong Tian, Circular Polimerase Extension o f Cloning o f Complex Gene Libraries and Pathways, 4(7) PLoS ONE (2009).
En una implementación, el molde de reparación homóloga 522 es una secuencia de ADNss complementaria a la secuencia de ARNss 516. La secuencia de ADNss puede crearse por la lectura por la transcriptasa inversa de la secuencia de ARNss 516 y la síntesis de una secuencia de ADNss complementaria. La transcriptasa inversa (RT) es una enzima usada para generar ADN complementario (ADNc) a partir de un molde de ARN, un proceso denominado transcripción inversa. La RT se usa ampliamente en el laboratorio para convertir ARN en ADN para su uso en procedimientos tales como clonación molecular, secuenciación de ARN, reacción en cadena de la polimerasa (PCR), y análisis genómico. Las enzimas RT están ampliamente disponibles en múltiples fuentes comerciales.
La secuencia 526 en el extremo 3' y la secuencia 528 en el extremo 5' del molde de reparación homóloga 522 son complementarias a una cadena del ADNds 502 sobre al menos una porción del primer sitio diana 504. El molde de reparación homóloga 522, tanto en implementaciones de ADNss como de ARNss, incluye una porción media 530 que, cuando se incorpora en el ADNds 502, forma un sitio diana como se ha descrito anteriormente en esta descripción.
La enzima 506 se ilustra aquí como un complejo CRISPR/Cas con ARNg 508. Pueden usarse otros tipos de enzimas discutidos anteriormente en lugar del complejo CRISPR/Cas. La cola monocatenaria del ARNg 508 puede extenderse con una secuencia complementaria a todo o parte del molde de reparación homóloga 522. El molde de reparación homóloga 522 puede unirse a la cola del ARNg 508 formando una región bicatenaria 532. Esto lleva una copia del molde de reparación homóloga 522 muy cerca de la localización de la DSB creada por el complejo CRISPR/Cas 506.
La cola extendida del ARNg 508 también puede diseñarse para que concuerde con el dominio de unión de una proteína efectora semejante a activador de la transcripción (TALE). La proteína TALE también puede tener un dominio de unión complementario al molde de reparación homóloga 522. Esto también llevará al molde de reparación homóloga muy cerca de la localización de la DSB. La cola del ARNg 508 puede extenderse para crear regiones para la unión de múltiples copias del molde de reparación homóloga 522 o proteínas TALE.
Las proteínas TALE son proteínas secretadas por la bacteria Xanthomonas a través de su sistema de secreción de tipo III cuando infectan diversas especies de plantas. Estas proteínas pueden unirse a secuencias promotoras en la planta huésped y activar la expresión de genes de la planta que ayudan a la infección bacteriana. Reconocen secuencias de ADN de la planta a través de un dominio repetido central que consiste en un número variable de aproximadamente 34 repeticiones de aminoácidos. Esto parece ser una correspondencia uno a uno entre la identidad de dos aminoácidos críticos en cada repetición y cada base del ADN en la secuencia diana. La característica más distintiva de los efectores TAL es un dominio repetido central que contiene entre 1,5 y 33,5 repeticiones que tienen habitualmente una longitud de 34 residuos (la repetición C-terminal es generalmente más corta y se refiere como una "media repetición"). Una secuencia repetida típica puede compartirse a lo largo de muchas proteínas TALE, pero los residuos en las posiciones 12 y 13 son hipervariables (estos dos aminoácidos también se conocen como el diresiduo repetido variable o RVD). Esta simple correspondencia entre aminoácidos en los efectores TAL y las bases de ADN en sus sitios diana les hace útiles para aplicaciones de ingeniería de proteínas.
Posteriormente a la creación de una DSB en el sitio diana 504, la molécula 532 que ha hibridado con la cola del ARNg 508 puede liberarse. En algunas implementaciones, la introducción de una secuencia de nucleótidos complementaria a la cola del ARNg 508 o un dominio de unión de la proteína TALE puede competir con el molde de reparación homóloga 522 y causar la disociación del molde de reparación homóloga 522. Esta competición puede hacer que el molde de reparación homóloga 522 esté disponible para unirse al ADNds 502 en cualquier lado de la DSB.
La célula 500 también puede incluir una o más rutas de señalización preparadas por ingeniería 534. Tal y como se usa en la presente memoria, "ruta de señalización preparada por ingeniería" incluye cualquier ruta en la que al menos una porción de la ruta se modifica intencionadamente con técnicas de biología molecular para ser diferente de la ruta de tipo salvaje y una señal (intracelular o extracelular) causa un cambio en la tasa de transcripción de un gen. La ruta de señalización preparada por ingeniería 534 puede inducir un promotor tal como el promotor 512 descrito anteriormente. La ruta de señalización preparada por ingeniería 534 también puede hacer que un factor de transcripción se una a un operador tal como el operador 514 descrito anteriormente y se evite la transcripción. En una implementación, el gen afectado por la ruta de señalización preparada por ingeniería 534 puede ser el gen 510 que codifica la secuencia de ARNss 516. Así, la ruta de señalización preparada por ingeniería 534 puede funcionar para controlar una cantidad del molde de reparación homóloga 522 disponible en la célula 500. En una implementación, el gen afectado por la ruta de señalización preparada por ingeniería 534 puede codificar una enzima que crea DSB en el ADNds tal como la enzima 506. Así, el número de enzimas que crean DSB en las secuencias diana 504 puede ser regulado por la ruta de señalización preparada por ingeniería 534.
La célula 500 puede incluir múltiples rutas de señalización preparadas por ingeniería 534 diferentes, cada una correspondiendo a una única señal y cada una promoviendo o reprimiendo la expresión de genes responsables de la creación de los moldes de reparación homóloga 522 y/o enzimas 506. Así, las señales intracelulares o extracelulares pueden usarse para variar los niveles de los moldes de reparación homóloga 522 y/o enzimas 506 en la célula 500, cambiando de esta manera qué secuencias diana 504 se cortan y qué secuencias se usan para reparar las DSB mediante HDR. Mediante la preparación por ingeniería de las rutas de señalización que afectan la disponibilidad de los moldes de reparación homóloga 522 y/o enzimas 506, las células podrían modificarse para incluir un sistema de control para codificar secuencias arbitrarias de datos binarios en el ADNds 502 de la célula 500 según las técnicas de codificación descritas anteriormente.
En una implementación, la ruta de señalización preparada por ingeniería 534 puede incluir un receptor externo 536 que puede detectar señales extracelulares a lo largo de una membrana 538. La membrana 538 puede ser una pared celular, capa lipídica, o pared celular artificial. En una implementación, el receptor externo 536 puede ser un receptor acoplado a una proteína G (GPCR). Los GPCR constituyen una gran familia de proteínas de receptores, que detectan moléculas fuera de la célula 500 y activan en su interior rutas de transducción de la señal 534 y, finalmente, respuestas celulares. El GPCR se activa por una señal externa en la forma de un ligando u otro mediador de señales. Esto crea un cambio conformacional en el GPCR, causando la activación de una proteína G. Los efectos adicionales dependen del tipo de proteína G. Las proteínas G se inactivan posteriormente por proteínas activadoras de la GTPasa, conocidas como proteínas RGS. Los ligandos que se unen a y activan estos GPCR incluyen compuestos sensibles a la luz, olores, feromonas, hormonas, y neurotransmisores, y varían en tamaño desde moléculas pequeñas a péptidos a proteínas grandes. Cuando un ligando se une al GPCR causa un cambio conformacional en el GPCR, que le permite actuar como un factor de intercambio del nucleótido guanina (GEF). El GPCR puede activar entonces una proteína G asociada por el intercambio de su GDP unido por un GTP. La subunidad a de la proteína G, junto con el GTP unido, pueden disociarse entonces de las subunidades p y y para afectar adicionalmente a proteínas de la señalización intracelular o estar dirigidas a proteínas funcionales que dependen directamente del tipo de subunidad a.
En una implementación, el receptor externo 536 puede ser una proteína de membrana fotosensible. Las proteínas fotorreceptoras son proteínas sensibles a la luz implicadas en la detección y respuesta a la luz en una variedad de organismos. Las proteínas fotorreceptoras consisten típicamente en un resto de proteína y un fotopigmento no proteico que reacciona a la luz a través de fotoisomerización o fotorreduccción, iniciando así un cambio en la proteína receptora que desencadena una cascada de transducción de señales. Los pigmentos encontrados en fotorreceptores incluyen retinal (proteínas retinilideno, por ejemplo, rodopsina en animales), flavina (flavoproteínas, por ejemplo, criptocromo en plantas y animales) y bilina (biliproteínas, por ejemplo, fitocromo en plantas). Un ejemplo del uso por ingeniería de proteínas sensibles a la luz se encuentra en Alvin Tamsir et al., Robust Multicellular Computing Using Genetically Encoded NOR Gates and Chemical ’Wires', 469 Nature 212-215 (2011).
El receptor externo 536, en algunas implementaciones, también puede ser una inmunoglobulina unida a membrana (mlg). Una inmunoglobulina unida a membrana es la forma unida a membrana de un anticuerpo. Las inmunoglobulinas unidas a membrana están compuestas por anticuerpos IgD o IgM unidos a la superficie y heterodímeros asociados lga e lg-p, que son capaces de la transducción de la señal a través de una ruta de una señalización 534 en respuesta a la activación por un antígeno.
En una implementación, la temperatura puede activar la ruta de señalización preparada por ingeniería 534. Así, mediante la alteración de la temperatura de la célula 500, los genes que controlan cosas tales como moldes de reparación homóloga o síntesis de enzimas pueden regularse al alza o a la baja. Las moléculas sensoras de temperatura que se encuentran de forma natural en organismos unicelulares incluyen proteínas de choque térmico y determinadas moléculas reguladoras de ARN, tales como ribointerruptores. Las proteínas de choque térmico son proteínas que están implicadas en la respuesta celular al estrés. Un ejemplo de una proteína de choque térmico que responde a la temperatura es la proteína bacteriana DnaK. Las temperaturas elevadas por encima del rango fisiológico normal pueden hacer que la expresión de DnaK se regule al alza. DnaK y otras proteínas de choque térmico pueden utilizarse para que las rutas preparadas por ingeniería respondan a la temperatura. Los ribointerruptores son un tipo de molécula de ARN que puede responder a la temperatura con el fin de regular la traducción de proteínas. Un ejemplo de una ruta preparada por ingeniería regulada por la temperatura que ha utilizado como un ribointerruptor puede encontrarse en Neupert, J, et al., Nucleic Acids Res, 2008, 36(19):e124. Otro ejemplo de una molécula sensible a la temperatura que puede utilizarse para regular las rutas celulares preparadas por ingeniería es una proteína mutante sensible a la temperatura. Pueden hacerse mutaciones únicas en proteínas, que hacen que las proteínas se vuelvan inestables a altas temperaturas, pero que todavía permanezcan funcionales a temperaturas menores. Los métodos para sintetizar proteínas mutantes sensibles a la temperatura pueden encontrarse en Ben-Aroya, S, et al., Methods Enzymol, 2010, 470, 181-204. Un ejemplo de una ruta preparada por ingeniería controlada por la temperatura que utiliza un mutante sensible a la temperatura puede encontrarse en Hussain, F, et al., 2014, PNAS, 11(3), 972-977.
En una implementación, la concentración de iones o el pH pueden activar la ruta de señalización preparada por ingeniería 534. Con rutas de señalización preparadas por ingeniería 534 de este tipo, el poner la célula 500 en un entorno iónico diferente o alterar el pH que rodea a la célula 500 puede usarse para controlar la disponibilidad de un molde de reparación homóloga o enzima dado. Los ejemplos de mecanismos moleculares sensores celulares que detectan la fuerza iónica o el pH incluyen muchas proteínas virales, tales como gB del virus del herpes simple, la proteína de la cubierta del virus de la rubéola, hemaglutinina de influenza, y la glicoproteína del virus de la estomatitis vesicular. Un ejemplo de una ruta celular natural que está regulada por el pH es la producción de penicilina por Aspergillus nidulans (Espeso, E, et al., 1993, EMBO J, 12(10), 3947-3956). Otro ejemplo de una molécula sensible al pH que puede utilizarse para regular rutas celulares preparadas por ingeniería es una proteína mutante sensible al pH. Pueden hacerse mutaciones únicas en proteínas, que hacen que las proteínas se vuelvan menos estables en condiciones bien ácidas o básicas. Por ejemplo, los anticuerpos sensibles al pH pueden unirse a un antígeno a un pH óptimo, pero son incapaces de unirse a un antígeno a un pH no óptimo. Una técnica para crear anticuerpos sensibles al pH que puede usarse para las rutas de señalización preparadas por ingeniería puede encontrarse en Schroter, C, et al., 2015, MAbs, 7(1), 138-51. Estos y otros mecanismos sensores similares pueden prepararse por ingeniería para afectar el comportamiento de un promotor 512 u operador 514.
La célula 500 también puede incluir una molécula adicional de ADNds 540 que también incluye un sitio diana 542. De manera similar a la primera molécula de ADNds 502, la molécula adicional de ADNds 540 puede incluir solo un único caso del sitio diana 542. O, la molécula adicional de ADNds 540 puede incluir múltiples copias del mismo sitio diana o múltiples sitios diana diferentes.
La molécula adicional de ADNds 540 y el sitio diana 542 pueden tener secuencias idénticas o similares a la primera molécula de ADNds 502 y el primer sitio diana 504. Así, la molécula adicional de ADNds 540 puede pensarse como una "copia" de la primera molécula de ADNds 502. Esta copia adicional de una molécula idéntica o similar puede proporcionar redundancia mediante la creación de una segunda cadena de datos binarios que, sin errores, registrará la misma serie de 0 y 1 en ambas moléculas de ADNds 502, 540. En una implementación, la molécula adicional de ADNds 540 puede incluir un sitio diana 542 con una secuencia diferente del sitio diana 504 en la primera molécula de ADNds 502. El tener sitios diana 504, 542 diferentes en diferentes moléculas de ADNds 502, 540 permite la codificación simultánea, o alternante, de datos binarios en dos esquemas de codificación diferentes. Los dos esquemas de codificación diferentes pueden ser no superpuestos u "ortogonales", de manera que las enzimas y los moldes de reparación homóloga asociados con un esquema de codificación no interaccionan con la molécula de ADNds usada para el otro esquema de codificación. Se entiende que, en la implementación real, puede haber cientos de miles de moléculas de ADNds con sitios diana respectivos. También puede haber un número correspondiente de esquemas de codificación diferentes y secuencias diferentes para los sitios diana respectivos.
Sistema y dispositivos de computación ilustrativos
La FIG. 6 muestra una arquitectura ilustrativa 600 para la implementación e interacción con moléculas de ADN que almacenan datos introducidos a través de HDR como se ha descrito anteriormente. La arquitectura puede incluir cualquiera de un ordenador digital 602, un sintetizador de oligonucleótidos 604, un sistema automatizado 606, y/o un secuenciador de polinucleótidos 608. La arquitectura 600 también puede incluir otros componentes además de los discutidos en la presente memoria.
Tal y como se usa en la presente memoria, "ordenador digital" significa un dispositivo de computación que incluye al menos un microprocesador hardware 610 y memoria 612 capaz de almacenar información en un formato binario. El ordenador digital 602 puede ser un superordenador, un servidor, un ordenador de mesa, un ordenador portátil, un ordenador tableta, una consola de juegos, un ordenador móvil, un smartphone, o semejantes. El microprocesador hardware 610 puede implementarse en cualquier tipo de procesador tal como un procesador de núcleo único, un procesador de múltiples núcleos, una unidad de procesamiento central (CPU), una unidad de procesamiento gráfico (GPU), o semejantes. La memoria 612 puede incluir almacenamiento removible, almacenamiento no removible, almacenamiento local, y/o almacenamiento remoto para proporcionar el almacenamiento de instrucciones legibles por ordenador, estructuras de datos, módulos de programas, y otros datos. La memoria 612 puede implementarse como medios legibles por ordenador. Los medios legibles por ordenador incluyen, al menos, dos tipos de medios, concretamente medios de almacenamiento legibles por ordenador y medios de comunicaciones. Los medios de almacenamiento legibles por ordenador incluyen medios volátiles y no volátiles, removibles y no removibles implementados en cualquier método o tecnología para el almacenamiento de información tal como instrucciones legibles por ordenador, estructuras de datos, módulos de programas, u otros datos. Los medios de almacenamiento legibles por ordenador incluyen, pero no están limitados a, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio no de transmisión que puede usarse para almacenar información para el acceso mediante un dispositivo de computación.
Por el contrario, los medios de comunicaciones pueden abarcar instrucciones legibles por ordenador, estructuras de datos, módulos de programas, u otros datos en una señal de datos modulada, tal como una onda portadora, u otro mecanismo de transmisión. Como se define en la presente memoria, los medios de almacenamiento legibles por ordenador y los medios de comunicaciones son mutuamente excluyentes.
El ordenador digital 602 también puede incluir uno o más dispositivos de entrada/salida 614 tales como un teclado, un dispositivo señalador, una pantalla táctil, un micrófono, una cámara, una pantalla, un altavoz, una impresora, y semejantes.
Un diseñador del molde de reparación dirigida por homología (HDR) 616 puede incluirse como parte del ordenador digital 602, por ejemplo, como instrucciones almacenadas en la memoria 612. El diseñador de molde de HDR 616 puede diseñar moldes de reparación homóloga sobre la base de secuencias de sitios diana, secuencias de moléculas de ADNds, esquemas de codificación, sitios de reconocimiento de enzimas, etc. En una implementación, el diseñador de moldes de HDR 616 puede diseñar moldes de reparación homóloga para evitar la intercomunicación entre diferentes esquemas de codificación. El diseñador de moldes de HDR 616 también puede comparar el porcentaje de similitud y las condiciones de hibridación para moldes de reparación homóloga potenciales, así como porciones de los moldes de reparación homóloga. Por ejemplo, el diseñador de moldes de HDR 616 puede diseñar moldes de reparación homóloga para evitar la formación de horquillas, así como para evitar o minimizar la hibridación entre moldes de reparación homóloga. El diseñador de moldes de HDR 616 también puede diseñar moldes de reparación homóloga para maximizar una diferencia entre la secuencia en el extremo 3', la secuencia en el extremo 5', y/o secuencia media. Por ejemplo, la diferencia puede ser el contenido de G:C y el diseñador de moldes de HDR 616 puede diseñar secuencias con una preferencia para incrementar la diferencia en el contenido de G:C entre las secuencias terminales y la secuencia media.
El ordenador digital 602 también puede incluir una base de datos de codificación 618. Sin embargo, la base de datos de codificación 618 puede ser parte de un dispositivo de hardware que está físicamente separado del ordenador digital 602. La base de datos de codificación 618 incluye la correspondencia entre una secuencia de ADN y un valor binario. Por ejemplo, la información incluida en la Tabla 1 es un ejemplo de una codificación que puede almacenarse en la base de datos de codificación 618. La base de datos de codificación 618 puede almacenar cualquier número de codificaciones diferentes. La base de datos de codificación 618 puede ser referenciada por el diseñador de moles de HDR 616 para determinar qué molde de HDR debe usarse a continuación con el fin de codificar un bit dado. De forma similar, un descodificador 620 también puede referenciar la base de datos de codificación 618 para determinar qué valor de bit asignar a una secuencia dada. El descodificador 620 puede implementarse como instrucciones almacenadas en la memoria 612. Así, los datos de secuencia 622 pueden proporcionarse al descodificador 620 que convierte los datos de secuencia 622 en datos binarios 624.
El descodificador 620 también puede proporcionar corrección de errores. En las implementaciones en la que los datos binarios 624 se codifican de forma redundante bien por escritura con un mismo esquema de codificación en múltiples sitios diana o por escritura de los mismos datos binarios 624 en múltiples esquemas de codificación, el descodificador 620 puede identificar la secuencia más probable de múltiples secuencias diferentes, todas representando los mismos datos binarios 624. Por lo tanto, las áreas que pueden estar presentes en algunas de las secuencias se corregirán si una mayoría de las secuencias incluye el valor correcto para un bit dado.
El descodificador 620 puede proporcionar la corrección de errores a través de otras técnicas tales como el uso de bits de paridad y códigos de bloque. Un bit de paridad es un bit añadido a una cadena de código binario que indica si el número de 1 -bits en la cadena es par o impar. Los bits de paridad son formas simples de código de detección de errores. En el caso de paridad par, para un conjunto dado de bits, se cuentan las apariciones de los bits cuyo valor es 1. Si este recuento es impar, el valor del bit de paridad se ajusta a 1, haciendo que el recuento total de apariciones de los 1 en el conjunto completo (incluyendo el bit de paridad) sea un número par. Si el recuento de los 1 en un conjunto dado de bits ya es par, el valor del bit de paridad es 0. En el caso de paridad impar, la codificación se invierte. Para un conjunto dado de bits, si el recuento de bits con un valor de 1 es par, el valor del bit de paridad se ajusta a 1 haciendo que el recuento total de los 1 en el conjunto completo (incluyendo el bit de paridad) sea un número impar. Si el recuento de bits con un valor de 1 es impar, el recuento ya es impar, de manera que el valor del bit de paridad es 0. Así, mediante el uso de moldes de reparación homóloga para añadir bits paridad sobre la base de la secuencia binaria que se pretende codificar, la lectura de los datos binarios 624 a partir de una secuencia de ADN reproducirá aquellos bits de paridad y esto puede ser usado por el descodificador 620 como una manera de identificar un error.
Hay muchos tipos de códigos de bloque tales como los códigos de Reed-Solomon, los códigos de Hamming, los códigos de Hadamard, los códigos Expander, los códigos de Golay, y los códigos de Reed-Muller. El término código de bloque también puede referirse a cualquier código corrector de errores que actúa en un bloque de k bits de datos de entrada para producir n bits de datos de salida (n, k). Los códigos de bloque pueden aplicarse de la manera convencional siendo el mensaje la cadena pretendida de datos binarios 624 y el ruido del canal de comunicación introduciéndose bien en la incorporación de moldes de reparación homóloga en ADNds o en la secuenciación del ADN.
Los errores pueden introducirse de múltiples maneras incluyendo errores delas ADN polimerasas, hibridación inespecífica y no pretendida, errores en la síntesis de moldes de reparación homóloga, y errores en las lecturas generadas por la secuenciación del ADN. Estos tipos de errores son conocidos por los expertos en la técnica y pueden mitigarse por técnicas convencionales.
Algunos errores específicos de las técnicas de esta descripción incluyen la inserción de un molde de reparación homóloga incorrecto y el fracaso en la inserción del molde de reparación homóloga correcto. Por ejemplo, si se crea una DSB en un sitio diana X1X2 entonces cualquier molde de reparación homóloga del formato X1 X2 puede hibridar con el ADNds en cualquier lado de la DSB. Si, con el fin de codificar el siguiente bit, debería incorporarse el molde de reparación homóloga X1Y1Y2X2 en el ADNds a través de HDR pero, en lugar de esto, se incorpora el molde de reparación homóloga X1Z1Z2X2, esto dará lugar al ADNds que codifica un bit incorrecto. El molde de reparación homóloga erróneo puede estar disponible para la incorporación porque permanece de una iteración previa. Por lo tanto, las tasas de error pueden reducirse eliminando los moldes de reparación homóloga no incorporados entre cada iteración. Otro tipo de error puede ocurrir cuando un molde de reparación homóloga debería incorporarse, pero no lo hace. Por ejemplo, después de la creación de una DSB en el ADNds en los dos extremos, los cortes de ADN pueden unirse entre sí. Esto da lugar a la formación de nuevo del sitio diana que se había cortado recientemente. La siguiente iteración puede usar una enzima que no reconoce este sitio diana. Por lo tanto, pueden pasar varias iteraciones antes de que una enzima que reconoce el sitio diana se ponga en contacto a continuación con el ADNds. En este punto, el ADNds se cortará y el proceso de la incorporación de moldes de reparación homóloga continuará. Pero varios moldes de reparación homóloga se habrán perdido y los datos binarios 624 finales omitirán varios de los bits.
Con el fin de manipular el ADN y potencialmente el ARN que constituye los moldes de reparación homóloga y el ADNds, el ordenador digital 602 puede comunicarse con otros dispositivos a través de una o más interfaces de datos I/O 626. La o las interfaces de datos I/O 626 pueden intercambiar instrucciones y datos con otros dispositivos tales como el sintetizador de oligonucleótidos 604, el sistema automatizado 606, el secuenciador de polinucleótidos 608.
El sintetizador de oligonucleótidos 604 sintetiza químicamente oligonucleótidos sobre la base de las instrucciones recibidas como datos electrónicos. Los oligonucleótidos sintetizados pueden usarse como moldes de reparación homóloga. Así, en algunas implementaciones, la secuencia de nucleótidos que se proporciona al sintetizador de oligonucleótidos 604 puede provenir del diseñador de moldes de HDR 616.
Están disponibles varios métodos para la síntesis de ADN y sintetizadores comerciales de oligonucleótidos. Los métodos para la síntesis de ADN incluyen síntesis de fosforamidita en fase sólida, síntesis de oligonucleótidos basada en microchip, ensamblaje mediado por ligación, ensamblaje mediado por la reacción en cadena de la polimerasa PCR, y semejantes. Por ejemplo, dicha síntesis puede realizarse usando un Sintetizador de ADN ABI 394 (Applied Biosystems, Foster City, Calif.) en una escala de 0,2 pmoles seguido de un protocolo estándar de escisión y desprotección, p. ej., usando amoniaco acuoso al 28 % o una disolución 3:1 de amoniaco en metanol. Un experto en la técnica puede seleccionar otros agentes de escisión, tales como metilamina, para ser usados en lugar de, o además de, amoniaco, si se desea.
El término "oligonucleótido" tal y como se usa en la presente memoria se define como una molécula que incluye dos o más nucleótidos. Los oligonucleótidos incluyen sondas y cebadores. Los oligonucleótidos usados como sondas o cebadores también pueden incluir análogos de nucleótidos tales como fosforotioatos, alquilfosforotioatos, ácidos nucleicos peptídicos, o agentes intercalantes. La introducción de estas modificaciones puede ser ventajosa con el fin de influir positivamente en las características tales como cinética de hibridación, reversibilidad de la formación de híbridos, estabilidad de las moléculas de oligonucleótido, y semejantes.
El sistema automatizado 606 puede incluir cualquier tipo de robótica, automatización, u otro sistema para automatizar una o más manipulaciones que pueden realizarse en el ADNds con las enzimas y/o los moldes de reparación homóloga. El sistema automatizado 606 puede usarse conjuntamente con operaciones manuales de manera que la totalidad de las operaciones necesarias para llevar a la práctica las técnicas de esta descripción se hacen de una manera híbrida en la que algunas se realizan por la técnica automatizada y otras manualmente.
En una implementación, el sistema automatizado 606 puede incluir un sistema de microfluidos. Los microfluidos son un campo multidisciplinario que supone un cruce de ingeniería, física, química, bioquímica, nanotecnología, y biotecnología, con aplicaciones prácticas para el diseño de sistemas en los que se manejarán pequeños volúmenes de fluidos. Típicamente, los fluidos se mueven, mezclan, separan, o procesan de otra forma. Las numerosas aplicaciones emplean técnicas pasivas de control de fluidos como fuerzas capilares. En algunas aplicaciones, se usa adicionalmente un accionamiento externo para un transporte dirigido de los medios. Los ejemplos de accionamiento externo incluyen accionamientos rotarios que aplican fuerzas centrífugas para el transporte de los fluidos en los chips pasivos. Los microfluidos activos se refieren a la manipulación definida del fluido de trabajo por (micro) componentes activos tales como microbombas o microválvulas. Las microbombas suministran los fluidos de una manera continua o se usan para la dosificación. Las microválvulas determinan la dirección del flujo o el modo de movimiento de los líquidos bombeados. Frecuentemente, los procesos que se llevan a cabo normalmente en un laboratorio se miniaturizan en un único chip con el fin de aumentar la eficiencia y movilidad, así como reducir los volúmenes de muestra y reactivos. Tal y como se usa en la presente memoria, el sistema automatizado 606 puede incluir otro equipamiento para manipular el ADN.
El sistema automatizado 606 puede incluir un sistema sin células que puede implementarse, en parte, por microfluidos. El sistema sin células también puede implementarse como una célula artificial o una célula mínima. Una célula artificial o una célula mínima es una partícula preparada por ingeniería que mimetiza una o muchas funciones de una célula biológica. Las células artificiales son membranas biológicas o poliméricas que encierran materiales biológicamente activos. Como tales, las nanopartículas, liposomas, polimersomas, microcápsulas, micelas con detergente, y varias otras partículas pueden considerarse células artificiales. La microencapsulación permite el metabolismo en el interior de la membrana, el intercambio de moléculas pequeñas y la prevención del paso de sustancias grandes a través de ella. Las membranas para las células artificiales pueden estar compuestas por polímeros simples, proteínas reticuladas, membranas lipídicas o complejos de polímero-lípido. Además, las membranas pueden prepararse por ingeniería para presentar proteínas en la superficie tales como albúmina, antígenos, transportadores Na/K-ATPasa, o poros tales como canales iónicos. Los materiales usados comúnmente para la producción de membranas incluyen polímeros de hidrogeles tales como alginato, celulosa y polímeros termoplásticos tales como metacrilato de hidroxietilo-metacrilato de metilo (HEMA-MMA), poliacrilonitrilo-cloruro de polivinilo (PAN-PVC), así como variaciones de los materiales mencionados anteriormente.
Las células mínimas, también conocidas como proto-células, son células que ayudan en todos los requerimientos mínimos de la vida. Las células mínimas pueden crearse por una estrategia descendente que activa genes en un organismo unicelular hasta que se identifica un conjunto mínimo de genes necesario para la vida. Mycoplasma mycoides, E. coli, y Saccharomyces cerevisiae, son ejemplos de organismos que pueden modificarse para crear células mínimas.
El sistema sin células incluye componentes para la replicación y reparación del ADN tales como nucleótidos, ADN polimerasa, y ADN ligasa. El sistema sin células también incluirá ADNds que incluye al menos un sitio diana inicial para crear una DSB. El ADNds puede estar presente en el vector que incluye uno o más operones. El sistema sin células también incluirá tampones para mantener el pH y la disponibilidad de iones. Además, el sistema sin células también puede incluir las enzimas usadas para crear las DSB en el ADNds y los moldes de reparación homóloga usados para reparar el ADNds. Algunos sistemas sin células pueden incluir genes que codifican las enzimas y moldes de reparación homóloga. Para evitar que las enzimas permanezcan cuando sus funciones de corte respectivas ya no se desean, el sistema sin células puede incluir enzimas proteolíticas que degradan específicamente las enzimas que cortan el ADN.
En un sistema sin células, pueden añadirse componentes particulares cuando sea necesario bien moviendo volúmenes de líquido junto con microfluidos o incrementando la expresión de productos génicos que da lugar a la síntesis de enzimas, moldes de reparación homóloga, etc.
El sistema automatizado 606 puede incluir una estructura, tal como al menos una cámara que alberga una o más moléculas de ADN. La cámara puede implementarse como cualquier tipo de organización mecánica, biológica, o química que alberga un volumen de líquido que incluye ADN en una localización física. Por ejemplo, una única superficie plana que tiene una gotita presente en la misma, manteniéndose la gotita en parte por la tensión superficial del líquido, aunque no completamente incluida en un contenedor, es una implementación de una cámara.
El sistema automatizado 606 puede realizar muchos tipos de manipulaciones en moléculas de ADN. Por ejemplo, el sistema automatizado 606 puede configurarse para mover un volumen de líquido desde la cámara a otra cámara en respuesta a una serie de instrucciones de la interfaz de datos I/O 626.
Los sistemas de microfluidos y los métodos para dividir un volumen a granel en particiones incluyen emulsificación, generación de gotitas de "agua en aceite", y generación de gotitas monodispersadas, así como el uso de canales, válvulas, y bombas. Los métodos de partición pueden aumentarse con técnicas de manipulación de las gotitas, incluyendo medios eléctricos (p. ej., accionamiento electrostático, dielectroforesis), magnéticos, térmicos (p. ej., efectos térmicos de Marangoni, termocapilaridad), mecánicos (p. ej., ondas acústicas superficiales, microbombeo, peristáltico), ópticos (p. ej., opto-electrohumectación, pinzas ópticas), y químicos (p. ej., gradientes químicos). En algunas realizaciones, un microaccionador de gotitas se suplementa con una plataforma de microfluidos (p. ej., componentes de flujo continuo). Algunas implementaciones de sistemas de microfluidos usan un microaccionador de gotitas. Un microaccionador de gotitas puede ser capaz de efectuar la manipulación y/u operaciones de gotitas, tales como dispensación, división, transporte, fusión, mezclado, agitación, y semejantes.
El secuenciador de polinucleótidos 608 puede secuenciar moléculas de ADN usando cualquier técnica para la secuenciación de ácidos nucleicos conocida para los expertos en la técnica. El secuenciador de polinucleótidos 608 puede configurarse para secuencie todo o parte de una molécula de ADNds modificada según cualquiera de las técnicas descritas anteriormente y proporcionar los datos de secuencia 622 al ordenador digital 602.
Las técnicas de secuenciación de ADN incluyen reacciones clásicas de secuenciación didesoxi (método de Sanger) usando terminadores o cebadores marcados y separación en gel en electroforesis plana o capilar. En una implementación, se usan ventajosamente las plataformas de secuenciación de última generación (NextGen) en la práctica de la invención. La secuenciación NextGen se refiere a cualquiera de varios métodos de secuenciación post­ clásicos de tipo Sanger que son capaces de la secuenciación multiplex de alto rendimiento de grandes números de muestras simultáneamente. Las plataformas actuales de secuenciación NextGen son capaces de generar lecturas a partir de múltiples ácidos nucleicos distintos en la misma operación de secuenciación. El rendimiento varía, con 100 millones de bases a 600 giga bases por operación, y el rendimiento está incrementando rápidamente debido a mejoras en la tecnología. El principio de operación de diferentes plataformas de secuenciación NextGen también varía y puede incluir: secuenciación por síntesis usando nucleótidos marcados terminados reversiblemente, pirosecuenciación, secuenciación 454, hibridación específica de alelo a una biblioteca de sondas de oligonucleótidos marcadas, secuenciación por síntesis usando hibridación específica de alelo a una biblioteca de clones marcados que está seguida de ligación, monitorización en tiempo real de la incorporación de nucleótidos marcados durante una etapa de polimerización, secuenciación polony, secuenciación en tiempo real de una única molécula, secuenciación por nanoporos, y secuenciación SOLiD.
La secuenciación 454 implica dos etapas. En la primera etapa, el ADN se corta en fragmentos de aproximadamente 300-800 pares de bases, y los fragmentos tienen extremos romos. Después, se ligan adaptadores de oligonucleótidos a los extremos de los fragmentos. Los adaptadores sirven como cebadores para la amplificación y secuenciación de los fragmentos. Los fragmentos pueden unirse a lechos de captura de ADN, p. ej., lechos recubiertos con estreptavidina usando, p. ej., Adaptador B, que contiene una etiqueta de biotina en 5'. Los fragmentos unidos a los lechos se amplifican por PCR en gotitas de una emulsión de aceite en agua. El resultado es múltiples copias de fragmentos de ADN amplificados clonalmente en cada lecho. En la segunda etapa, los lechos se capturan en pocillos (tamaño de picolitro). Se realiza pirosecuenciación en cada fragmento de ADN en paralelo. La adición de uno o más nucleótidos genera una señal de luz que se registra con una cámara CCD en un instrumento de secuenciación. La potencia de la señal es proporcional al número de nucleótidos incorporados. La pirosecuenciación usa pirofosfato (PPi) que se libera después de la adición de los nucleótidos. El PPi se convierte en ATP por la ATP sulfurilasa en presencia de adenosina 5' fosfosulfato. La luciferasa usa el ATP para convertir luciferina en oxiluciferina, y esta reacción genera luz que se detecta y analiza.
Una técnica de secuenciación que puede usarse es Secuenciación de Molécula Única Verdadera Helicos (tSMS). En la técnica tSMS, una muestra de ADN se escinde en cadenas de aproximadamente 100 a 200 nucleótidos, y se añade una secuencia poliA al extremo 3' de cada cadena de ADN. Cada cadena se marca por la adición de un nucleótido de adenosina marcado fluorescentemente. Las cadenas de ADN se hibridan entonces con una celda de flujo, que contiene millones de sitios de captura de oligo-T que se inmovilizan en la superficie de la celda de flujo. Los moldes pueden estar a una densidad de aproximadamente 100 millones de moldes/cm2. La celda de flujo se carga entonces en un instrumento, p. ej., secuenciador HeliScope™, y un láser ilumina la superficie de la celda de flujo, revelando la posición de cada molde. Una cámara CCD puede mapear la posición de los moldes en la superficie de la celda de flujo. El marcaje fluorescente del molde se escinde entonces y se elimina por lavado. La reacción de secuenciación empieza con la introducción de una ADN polimerasa y un nucleótido marcado fluorescentemente. El ácido nucleico oligo-T sirve como un cebador. La polimerasa incorpora los nucleótidos marcados al cebador de una manera dirigida por el molde. La polimerasa y los nucleótidos no incorporados se eliminan. Los moldes que han dirigido la incorporación del nucleótido marcado fluorescentemente se detectan por imagenología de la superficie de la celda de flujo. Después de la imagenología, una etapa de escisión elimina el marcaje fluorescente, y el proceso se repite con otros nucleótidos marcados fluorescentemente hasta que se consigue la longitud de lectura deseada. La información de la secuencia se recoge con cada etapa de adición de nucleótidos.
Otro ejemplo de una técnica de secuenciación de ADN que puede usarse es la tecnología SOLiD (Applied Biosystems). En la secuenciación SOLiD, el ADN genómico se corta en fragmentos, y se unen adaptadores a los extremos 5' y 3' de los fragmentos para generar una biblioteca de fragmentos. Alternativamente, pueden introducirse adaptadores internos mediante la ligación de adaptadores a los extremos 5' y 3' de los fragmentos, circularización de los fragmentos, digestión del fragmento circularizado para generar un adaptador interno, y unión de adaptadores a los extremos 5' y 3' de los fragmentos resultantes para generar una biblioteca pareada (mate-paired). A continuación, se preparan poblaciones de lechos clonales en microrreactores que contienen lechos, cebadores, molde, y componentes de PCR. Después de la PCR, los moldes se desnaturalizan y los lechos se enriquecen para separar los lechos con moldes extendidos. Los moldes en los lechos seleccionados se someten a una modificación en 3' que permite la unión a un portaobjetos de vidrio.
Otro ejemplo de una tecnología de secuenciación que puede usarse es la secuenciación SOLEXA (lllumina). La secuenciación SOLEXA se basa en la amplificación del ADN en una superficie sólida usando PCR de puente y cebadores anclados. El ADN genómico se fragmenta, y se añaden adaptadores a los extremos 5' y 3' de los fragmentos. Los fragmentos de ADN que están unidos a la superficie de los canales de la celda de flujo se extienden y se amplifica en puente. Los fragmentos se convierten en bicatenarios, y las moléculas bicatenarias se desnaturalizan. Múltiples ciclos de amplificación en fase sólida seguidos de desnaturalización pueden crear agrupaciones de varios millones de aproximadamente 1.000 copias de moléculas de ADN monocatenario del mismo molde en cada canal de la celda de flujo. Se usan cebadores, ADN polimerasa y cuatro nucleótidos con terminadores reversibles marcados con fluoróforo para realizar la secuenciación secuencial. Después de la incorporación de los nucleótidos, se usa un láser para excitar a los fluoróforos, y se captura una imagen y se registra la identidad de la primera base. Los terminadores en 3' y los fluoróforos de cada base incorporada se eliminan y se repiten las etapas de incorporación, detección, e identificación.
Otro ejemplo de una tecnología de secuenciación que puede usarse incluye la tecnología en tiempo real de molécula única (SMRT™) de Pacific Biosciences. En SMRT, cada una de las cuatro bases del ADN se une a uno de cuatro tintes fluorescentes diferentes. Estos tintes se unen por fosfato. Una única ADN polimerasa se inmoviliza con una única molécula de molde de ADN monocatenario en el fondo de una guía de onda en modo cero (ZMW). Una ZMW es una estructura de confinamiento que permite la observación de la incorporación de un único nucleótido por la ADN polimerasa frente al fondo de nucleótidos fluorescentes que difunden rápidamente en y fuera de la ZMW (en microsegundos). Se tardan varios milisegundos en incorporar un nucleótido en una cadena creciente. Durante este tiempo, el marcaje fluorescente se excita y produce una señal fluorescente, y la etiqueta fluorescente se elimina por escisión. La detección de la fluorescencia correspondiente del tinte indica qué base se incorporó. El proceso se repite.
Otro ejemplo de una técnica de secuenciación que puede usarse es secuenciación por nanoporos. Un nanoporo es un pequeño agujero, del orden de 1 nanómetro de diámetro. La inmersión de un nanoporo en un fluido conductor y la aplicación de un potencial a su través da lugar a una ligera corriente eléctrica debida a la conducción de iones a través del nanoporo. La cantidad de corriente que fluye es sensible al tamaño del nanoporo. Al pasar una molécula de ADN a través de un nanoporo, cada nucleótido en la molécula de ADN obstruye el nanoporo en un grado diferente. Así, el cambio en la corriente que pasa a través del nanoporo al pasar la molécula de ADN a través del nanoporo representa una lectura de la secuencia del ADN.
Otro ejemplo de una técnica de secuenciación que puede usarse implica el uso de una matriz de transistores con efecto campo sensibles a químicos (chemFET) para secuenciar el ADN. En un ejemplo de la técnica, las moléculas de ADN pueden ponerse en cámaras de reacción, y las moléculas de molde pueden hibridar con un cebador de secuenciación unido a una polimerasa. La incorporación de uno o más trifosfatos en una nueva cadena de ácido nucleico en el extremo 3' del cebador de secuenciación puede detectarse por un cambio en la corriente por un chemFET. Una matriz puede tener múltiples sensores chemFET. En otro ejemplo, pueden unirse ácidos nucleicos únicos a lechos, y los ácidos nucleicos pueden amplificarse en el lecho, y los lechos individuales pueden transferirse a cámaras de reacción individuales en una matriz chemFET, teniendo cada cámara un sensor chemFET, y los ácidos nucleicos pueden secuenciarse.
Otro ejemplo de una técnica de secuenciación que puede usarse implica el uso de un microscopio electrónico. En un ejemplo de la técnica, se marcan moléculas de ADN individuales usando marcajes metálicos que son distinguibles usando un microscopio electrónico. Estas moléculas se estiran entonces en una superficie plana y se toman imágenes usando un microscopio electrónico para medir las secuencias.
Los datos de secuencia 622 generados por la secuenciación pueden enviarse desde el secuenciador de polinucleótidos 608 hasta el ordenador digital 602 para su descodificación por el descodificador 620 y también para su presentación en un dispositivo de la salida 614.
Realizaciones ilustrativas
Las siguientes cláusulas describen múltiples realizaciones posibles para implementar las características descritas en esta descripción. Las diversas realizaciones descritas en la presente memoria no son limitantes ni se requiere que cada característica de cualquier realización dada esté presente en otra realización. Cualquiera de dos o más de las realizaciones pueden combinarse conjuntamente a no ser que el contexto indique claramente otra cosa. Tal y como se usa en la presente memoria en este documento, "o" significa y/o. Por ejemplo, "A o B" significa A sin B, B sin A, o A y B. Tal y como se usa en la presente memoria, "que comprende" significa que incluye todas las características listadas y que incluye potencialmente la adición de otras características que no están listadas. "Que consiste esencialmente en" significa que incluye las características listadas y aquellas características adicionales que no afectan materialmente las características básicas y nuevas de las características listadas. "Que consiste en" significa solo las características listadas con la exclusión de cualquier característica no listada.
Conclusión
Los términos "un", "una", "el/la" y referentes similares usados en el contexto de la descripción de la invención (especialmente en el contexto de las siguientes reivindicaciones) debe considerarse que abarcan tanto el singular como el plural, a no ser que se indique otra cosa en la presente memoria o se contradiga claramente por el contexto.
Todos los métodos descritos en la presente memoria pueden realizarse en cualquier orden adecuado a no ser que se indique otra cosa en la presente memoria o se contradiga de otra forma claramente por el contexto. Se pretende que el uso de cualquiera y todos los ejemplos, o lenguaje ejemplar (p. ej., "tal como") proporcionado en la presente memoria sea meramente para iluminar mejor la invención y no presenta una limitación en el alcance de la descripción reivindicada de otra forma. Ningún lenguaje en la memoria descriptiva debe considerarse como que indica cualquier elemento no reivindicado esencial para la práctica de la invención.
Las agrupaciones de elementos o realizaciones alternativas de la descripción descritos en la presente memoria no deben considerarse como limitaciones. Cada miembro del grupo puede referirse y reivindicarse individualmente o en cualquier combinación con otros miembros el grupo u otros elementos encontrados en la presente memoria. Se anticipa que uno o más miembros de un grupo pueden estar incluidos en, o eliminados de, un grupo por razones de conveniencia y/o patentabilidad. Cuando ocurre cualquiera de dicha inclusión o eliminación, se considera que la memoria descriptiva contiene el grupo como se ha modificado, cumpliendo así la descripción escrita de todos los grupos de Markush usados en las reivindicaciones adjuntas.
En la presente memoria se describen determinadas realizaciones, incluyendo el mejor modo conocido por los inventores para llevar a cabo la invención. Por supuesto, las variaciones en estas realizaciones descritas serán evidentes para los expertos en la técnica después de leer la descripción anterior. Los expertos en la técnica sabrán cómo emplear dichas variaciones según sea apropiado, y las realizaciones descritas en la presente memoria pueden llevarse a la práctica de otra manera que la descrita específicamente. Por consiguiente, todas las modificaciones y equivalentes del contenido recitado en las reivindicaciones adjuntas a este documento se incluyen en el alcance de esta descripción. Además, cualquier combinación de los elementos descritos anteriormente en todas las posibles variaciones de los mismos está englobada por la descripción a no ser que se indique otra cosa en la presente memoria o se contradiga claramente de otra forma claramente por el contexto.
Aunque el contenido se ha descrito en lenguaje específico para las características estructurales y/o actos metodológicos, debe entenderse que el contenido definido en las reivindicaciones adjuntas no está limitado necesariamente a las características o actos específicos descritos anteriormente. En lugar de esto, las características y actos específicos se describen como formas de ejemplo de implementar las reivindicaciones.

Claims (11)

REIVINDICACIONES
1. Un método para codificar un dígito binario en un ácido nucleico de desoxirribosa bicatenario (ADNds) (100), el método que comprende:
crear una primera rotura de doble cadena (DSB) en un primer sitio diana (102) en el ADNds (100) con una primera enzima (104); (302)
seleccionar un primer molde de reparación homóloga según un primer dígito binario, el primer sitio diana, y un esquema de codificación (304); y
poner en contacto el ADNds con el primer molde de reparación homóloga (314),
en donde el primer molde de reparación homóloga (106) contiene una región complementaria a un segundo sitio diana (112) para una segunda enzima (200) para crear una segunda DSB en el ADNds (100) y el primer dígito binario se codifica por un orden de una secuencia parcial del primer sitio diana que está adyacente a una secuencia parcial del segundo sitio diana (118), en donde la secuencia parcial del primer sitio diana y la secuencia parcial del segundo sitio diana tienen una longitud de entre 5 y 20 nucleótidos.
2. El método de la reivindicación 1, en donde el primer sitio diana es único en el ADNds en el momento de hacer la primera DSB.
3. El método de la reivindicación 1, en donde:
una secuencia de ADN del primer sitio diana comprende una primera subsecuencia que se repite una vez; y el primer molde de reparación homóloga comprende:
una secuencia en el extremo 3' y una secuencia en el extremo 5' cada una que codifica una segunda subsecuencia que es complementaria a la primera subsecuencia; y
dos casos adyacentes de una tercera subsecuencia en el medio del primer molde de reparación homóloga.
4. El método de la reivindicación 1, en donde el primer molde de reparación homóloga se selecciona de dos moldes de reparación homóloga potenciales, en donde, según el esquema de codificación, el ADN complementario a una primera porción de los dos moldes de reparación homóloga potenciales representa el dígito binario 0 cuando está adyacente a la secuencia parcial del primer sitio diana y el ADN complementario a una segunda porción de los dos moldes de reparación homóloga potenciales representa el dígito binario 1 cuando está adyacente a la secuencia parcial del primer sitio diana.
5. El método de la reivindicación 1, que comprende además generar el primer molde de reparación homóloga por (i) síntesis de oligonucleótidos o (ii) a partir de una secuencia de ácido ribonucleico (ARN) usando transcriptasa inversa.
6. El método de la reivindicación 1, que comprende, además:
generar un archivo de secuencia por secuenciación del ADNds después de la reparación homóloga de la primera DSB con el molde de reparación homóloga; e
interpretar el archivo de secuencia para identificar el primer dígito binario sobre la base del esquema de codificación.
7. El método de la reivindicación 1, que comprende, además:
crear la segunda DSB en el segundo sitio diana en el ADNds con la segunda enzima;
seleccionar un segundo molde de reparación homóloga según un segundo dígito binario, el segundo sitio diana, y el esquema de codificación; y
poner en contacto el ADNds con el segundo molde de reparación homóloga,
en donde el segundo molde de reparación homóloga contiene un tercer sitio diana para que una tercera enzima cree una tercera DSB en el ADNds y el segundo dígito binario está codificado por un orden de la secuencia parcial del segundo sitio diana seguido de una secuencia parcial del tercer sitio diana.
8. El método de la reivindicación 7, que comprende, además, después de poner en contacto el ADNds con el primer molde de reparación homóloga y antes de poner en contacto el ADNds con el segundo molde de reparación homóloga, al menos uno de:
lavar el ADNds para eliminar el primer molde de reparación homóloga; o
esperar una duración de tiempo suficiente como para que una concentración del primer molde de reparación homóloga disminuya por debajo de un nivel umbral.
9. El método de la reivindicación 1, en donde la puesta en contacto del ADNds con el primer molde de reparación homóloga comprende transformar una célula que contiene el ADNds con el primer molde de reparación homóloga introduciendo de esta manera el ADNds en la célula, en donde el primer molde de reparación homóloga es exógeno para la célula.
10. El método de cualquiera de las reivindicaciones 1-9, en donde la primera enzima comprende una enzima de restricción, un sistema CRISPR/Cas, una TALEN, un dedo de cinc, o cualquier otro complejo proteína-proteína, complejo proteína-ARN, o complejo proteína-proteína-ARN capaz de cortar el ADNds en una secuencia de ADN específica.
11. Un método que comprende:
crear una primera rotura de doble cadena (DSB) en un primer sitio diana (404) en ADN bicatenario (406) con una primera enzima (408);
poner en contacto el ADN bicatenario con un primer molde de reparación homóloga (412), que incluye una secuencia en el extremo 3' complementaria a una primera porción del primer sitio diana (404) y una secuencia en el extremo 5' complementaria a una segunda porción del primer sitio diana (404);
en donde la primera porción del primer sitio diana (404) y la segunda porción del primer sitio diana (404) tienen ambas independientemente una longitud de entre 5 y 20 nucleótidos;
en donde el ADN bicatenario experimenta reparación dirigida por homología (HDR) y una porción media del primer molde de reparación homóloga (412) se incorpora en el ADN bicatenario, y dicha incorporación da lugar a que una porción del primer sitio diana (404) sea adyacente al ADN bicatenario generado por reparación de la primera DSB con el primer molde de reparación homóloga, en donde el orden de estas dos secuencias de ADN codifica un primer dígito binario según un primer esquema de codificación, y en donde la secuencia generada por reparación con el primer molde de reparación homóloga es un segundo sitio diana (414) según el primer esquema de codificación;
crear una segunda DSB en un tercer sitio diana (420) con una segunda enzima (422), teniendo el tercer sitio diana una secuencia que es diferente del primer sitio diana (404) y segundo sitio diana (414) y en donde el tercer sitio diana (420) es al menos un par de bases distante del primer sitio diana (404);
poner en contacto el ADN bicatenario con un segundo molde de reparación homóloga (426), que incluye una secuencia en el extremo 3' que es complementaria a una primera porción del tercer sitio diana (420) y una secuencia en el extremo 5' que es complementaria a una segunda porción del tercer sitio diana (420); en donde la primera porción del tercer sitio diana (404) y la segunda porción del tercer sitio diana (404) tienen ambas independientemente una longitud de entre 5 y 20 nucleótidos;
en donde la segunda DSB se repara con el segundo molde de reparación homóloga (426), y después de dicha reparación una secuencia de una porción del tercer sitio diana (420) adyacente a una porción del ADNds generado por la reparación de la segunda DSB codifica un segundo dígito binario (428) según un segundo esquema de codificación y la secuencia de ADN complementaria a una porción media del segundo molde de reparación homóloga (426) comprende un cuarto sitio diana (430) según el segundo esquema de codificación.
ES17735689T 2016-07-01 2017-06-15 Almacenamiento a través de la edición iterativa del ADN Active ES2817973T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662357828P 2016-07-01 2016-07-01
US201662399190P 2016-09-23 2016-09-23
PCT/US2017/037731 WO2018005117A1 (en) 2016-07-01 2017-06-15 Storage through iterative dna editing

Publications (1)

Publication Number Publication Date
ES2817973T3 true ES2817973T3 (es) 2021-04-08

Family

ID=59285331

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17735689T Active ES2817973T3 (es) 2016-07-01 2017-06-15 Almacenamiento a través de la edición iterativa del ADN

Country Status (5)

Country Link
US (2) US10669558B2 (es)
EP (1) EP3478852B1 (es)
CN (1) CN109477130B (es)
ES (1) ES2817973T3 (es)
WO (1) WO2018005117A1 (es)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3613852A3 (en) 2011-07-22 2020-04-22 President and Fellows of Harvard College Evaluation and improvement of nuclease cleavage specificity
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
US9340800B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College Extended DNA-sensing GRNAS
US20150166984A1 (en) 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting alpha-antitrypsin point mutations
WO2016022363A2 (en) 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
IL258821B (en) 2015-10-23 2022-07-01 Harvard College Nucleobase editors and their uses
US10892034B2 (en) 2016-07-01 2021-01-12 Microsoft Technology Licensing, Llc Use of homology direct repair to record timing of a molecular event
US20180004537A1 (en) 2016-07-01 2018-01-04 Microsoft Technology Licensing, Llc Molecular State Machines
US11359234B2 (en) * 2016-07-01 2022-06-14 Microsoft Technology Licensing, Llc Barcoding sequences for identification of gene expression
EP3478852B1 (en) 2016-07-01 2020-08-12 Microsoft Technology Licensing, LLC Storage through iterative dna editing
SG11201900907YA (en) 2016-08-03 2019-02-27 Harvard College Adenosine nucleobase editors and uses thereof
US11661590B2 (en) 2016-08-09 2023-05-30 President And Fellows Of Harvard College Programmable CAS9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
GB2573062A (en) 2016-10-14 2019-10-23 Harvard College AAV delivery of nucleobase editors
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
KR102534408B1 (ko) 2016-11-16 2023-05-18 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터 저장
US10853244B2 (en) * 2016-12-07 2020-12-01 Sandisk Technologies Llc Randomly writable memory device and method of operating thereof
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
EP3592853A1 (en) 2017-03-09 2020-01-15 President and Fellows of Harvard College Suppression of pain by gene editing
WO2018165629A1 (en) 2017-03-10 2018-09-13 President And Fellows Of Harvard College Cytosine to guanine base editor
CA3057192A1 (en) 2017-03-23 2018-09-27 President And Fellows Of Harvard College Nucleobase editors comprising nucleic acid programmable dna binding proteins
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
JP2020534795A (ja) 2017-07-28 2020-12-03 プレジデント アンド フェローズ オブ ハーバード カレッジ ファージによって支援される連続的進化(pace)を用いて塩基編集因子を進化させるための方法および組成物
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
EP3766077A4 (en) 2018-03-16 2021-12-08 Catalog Technologies, Inc. CHEMICAL PROCESSES FOR DATA STORAGE BASED ON NUCLEIC ACIDS
KR20210029147A (ko) 2018-05-16 2021-03-15 카탈로그 테크놀로지스, 인크. 핵산-기반 데이터를 저장하기 위한 조성물 및 방법
US11017170B2 (en) * 2018-09-27 2021-05-25 At&T Intellectual Property I, L.P. Encoding and storing text using DNA sequences
WO2020191153A2 (en) 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
KR20220017409A (ko) 2019-05-09 2022-02-11 카탈로그 테크놀로지스, 인크. Dna 기반 데이터 저장소에서 검색, 컴퓨팅 및 인덱싱하기 위한 데이터 구조 및 동작
GB201907460D0 (en) 2019-05-27 2019-07-10 Vib Vzw A method of storing information in pools of nucleic acid molecules
KR20220080172A (ko) 2019-10-11 2022-06-14 카탈로그 테크놀로지스, 인크. 핵산 보안 및 인증
KR20230019843A (ko) 2020-05-08 2023-02-09 더 브로드 인스티튜트, 인코퍼레이티드 표적 이중 가닥 뉴클레오티드 서열의 두 가닥의 동시 편집을 위한 방법 및 조성물
AU2021271639A1 (en) 2020-05-11 2022-12-08 Catalog Technologies, Inc. Programs and functions in DNA-based data storage
US11990184B2 (en) 2020-09-24 2024-05-21 Seagate Technology Llc DNA backbone editing for DNA data storage

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1135461A4 (en) 1998-12-02 2003-03-26 Univ Boston GENE NETWORKS FOR CONTROLLING GENE EXPRESSION
US7056724B2 (en) 2002-05-24 2006-06-06 Battelle Memorial Institute Storing data encoded DNA in living organisms
US20050053968A1 (en) 2003-03-31 2005-03-10 Council Of Scientific And Industrial Research Method for storing information in DNA
US6943417B2 (en) 2003-05-01 2005-09-13 Clemson University DNA-based memory device and method of reading and writing same
US20090248598A1 (en) 2008-03-31 2009-10-01 Burns Daniel J Hardware acceleration of DNA codeword searching
WO2010075441A1 (en) 2008-12-22 2010-07-01 Trustees Of Boston University Modular nucleic acid-based circuits for counters, binary operations, memory, and logic
WO2012142591A2 (en) 2011-04-14 2012-10-18 The Regents Of The University Of Colorado Compositions, methods and uses for multiplex protein sequence activity relationship mapping
WO2013169867A1 (en) 2012-05-08 2013-11-14 The Board Of Trustees Of The Leland Stanford Junior University Methods and compositions for rewritable digital data storage in live cells
IN2014DN10996A (es) 2012-05-30 2015-09-25 Baylor College Medicine
KR20150016572A (ko) 2012-06-01 2015-02-12 유럽피안 몰레큘러 바이올로지 래보러토리 Dna 디지털 정보의 고-용량 저장
CN108875312A (zh) 2012-07-19 2018-11-23 哈佛大学校长及研究员协会 利用核酸存储信息的方法
US9691017B2 (en) 2012-12-13 2017-06-27 Massachusetts Institute Of Technology Recombinase-based logic and memory systems
CN113563476A (zh) * 2013-03-15 2021-10-29 通用医疗公司 遗传和表观遗传调节蛋白至特定基因组基因座的rna引导的靶向
CN105121650A (zh) * 2013-04-02 2015-12-02 拜尔作物科学公司 真核生物中的靶向基因组工程
DK3011032T3 (da) * 2013-06-17 2020-01-20 Broad Inst Inc Fremføring, modificering og optimering af systemer, fremgangsmåder og sammensætninger til målretning mod og modellering af sygdomme og forstyrrelser i postmitotiske celler
KR20160029112A (ko) 2013-07-09 2016-03-14 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 멀티플렉스 rna-가이드된 게놈 조작
AU2014337248B2 (en) 2013-10-17 2020-09-24 Sangamo Therapeutics, Inc. Delivery methods and compositions for nuclease-mediated genome engineering
US11326209B2 (en) 2013-11-07 2022-05-10 Massachusetts Institute Of Technology Cell-based genomic recorded accumulative memory
US10047405B2 (en) 2013-12-20 2018-08-14 President And Fellows Of Harvard College Engineered genetic enteric sensor bacteria and uses thereof
US10233456B2 (en) * 2014-01-30 2019-03-19 The Board Of Trustees Of The University Of Arkansas Method, vectors, cells, seeds and kits for stacking genes into a single genomic site
US20150225801A1 (en) 2014-02-11 2015-08-13 California Institute Of Technology Recording and mapping lineage information and molecular events in individual cells
EP2947779A1 (en) 2014-05-23 2015-11-25 Thomson Licensing Method and apparatus for storing information units in nucleic acid molecules and nucleic acid storage system
KR20160001455A (ko) 2014-06-27 2016-01-06 한국생명공학연구원 데이터 저장용 dna 메모리 기술
SG11201610126RA (en) 2014-06-27 2017-01-27 Univ Nanyang Tech Systems and methods for synthetic biology design and host cell simulation
EP3180430A4 (en) 2014-08-15 2018-05-09 Massachusetts Institute Of Technology Genomically-encoded memory in live cells
US20170298450A1 (en) 2014-09-10 2017-10-19 The Regents Of The University Of California Reconstruction of ancestral cells by enzymatic recording
WO2016059610A1 (en) 2014-10-18 2016-04-21 Malik Girik A biomolecule based data storage system
WO2016183438A1 (en) 2015-05-14 2016-11-17 Massachusetts Institute Of Technology Self-targeting genome editing system
WO2016205728A1 (en) 2015-06-17 2016-12-22 Massachusetts Institute Of Technology Crispr mediated recording of cellular events
US10480009B2 (en) 2015-10-01 2019-11-19 Massachusetts Institute Of Technology Biological state machines
EP3474669B1 (en) 2016-06-24 2022-04-06 The Regents of The University of Colorado, A Body Corporate Methods for generating barcoded combinatorial libraries
EP3478852B1 (en) 2016-07-01 2020-08-12 Microsoft Technology Licensing, LLC Storage through iterative dna editing
US11359234B2 (en) 2016-07-01 2022-06-14 Microsoft Technology Licensing, Llc Barcoding sequences for identification of gene expression
US10892034B2 (en) 2016-07-01 2021-01-12 Microsoft Technology Licensing, Llc Use of homology direct repair to record timing of a molecular event
US20180004537A1 (en) 2016-07-01 2018-01-04 Microsoft Technology Licensing, Llc Molecular State Machines

Also Published As

Publication number Publication date
US10669558B2 (en) 2020-06-02
EP3478852A1 (en) 2019-05-08
US20200332317A1 (en) 2020-10-22
WO2018005117A1 (en) 2018-01-04
CN109477130A (zh) 2019-03-15
CN109477130B (zh) 2022-08-30
EP3478852B1 (en) 2020-08-12
US20180002725A1 (en) 2018-01-04

Similar Documents

Publication Publication Date Title
ES2817973T3 (es) Almacenamiento a través de la edición iterativa del ADN
US11422832B2 (en) Molecular state machines using HDR template insertion
EP3597748B1 (en) Timing of logged molecular events
US20220333096A1 (en) Methods for the production of long length clonal sequence verified nucleic acid constructs
ES2724824T3 (es) Métodos para la secuenciación de ácidos nucleicos
US20220290225A1 (en) Barcoding sequences for identification of gene expression
Duarte et al. Bacterial microcolonies in gel beads for high-throughput screening of libraries in synthetic biology
Raabe et al. The rocks and shallows of deep RNA sequencing: Examples in the Vibrio cholerae RNome
US20190194739A1 (en) Homopolymer encoded nucleic acid memory
Taylor et al. Selecting Fully‐Modified XNA Aptamers Using Synthetic Genetics
Torelli et al. Cotranscriptional folding of a bio-orthogonal fluorescent scaffolded RNA origami
Mi Molecular cloning of protein-based polymers
Singh New Frontiers and Applications of Synthetic Biology
Levy et al. Boundary-Free Ribosome Compartmentalization by Gene Expression on a Surface
CN116438302A (zh) 用于对货物核苷酸序列转位的系统和方法
Rodríguez-Serrano et al. 110th Anniversary: Engineered ribonucleic acid control elements as biosensors for in vitro diagnostics
Yang Developing Molecular Tools for Probing and Modulating Genomic Spatial Adjacency
Martini Cellular mimics that sense and respond to external stimuli
Martini Cellular mimics that sense and respond to external stimuli