ES2971549T3 - Nucleasas guiadas por ácidos nucleicos - Google Patents

Nucleasas guiadas por ácidos nucleicos Download PDF

Info

Publication number
ES2971549T3
ES2971549T3 ES18821213T ES18821213T ES2971549T3 ES 2971549 T3 ES2971549 T3 ES 2971549T3 ES 18821213 T ES18821213 T ES 18821213T ES 18821213 T ES18821213 T ES 18821213T ES 2971549 T3 ES2971549 T3 ES 2971549T3
Authority
ES
Spain
Prior art keywords
nucleic acid
sequence
target
nuclease
seq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18821213T
Other languages
English (en)
Inventor
Juhan Kim
Ryan T Gill
Andrew Garst
Tanya Elizabeth Warnecke LIPSCOMB
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inscripta Inc
Original Assignee
Inscripta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/631,989 external-priority patent/US10011849B1/en
Priority claimed from US15/632,001 external-priority patent/US9982279B1/en
Application filed by Inscripta Inc filed Critical Inscripta Inc
Application granted granted Critical
Publication of ES2971549T3 publication Critical patent/ES2971549T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • C12N15/81Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • A61K48/0008Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'non-active' part of the composition delivered, e.g. wherein such 'non-active' part is not delivered simultaneously with the 'active' part of the composition
    • A61K48/0016Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'non-active' part of the composition delivered, e.g. wherein such 'non-active' part is not delivered simultaneously with the 'active' part of the composition wherein the nucleic acid is delivered as a 'naked' nucleic acid, i.e. not combined with an entity such as a cationic lipid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mycology (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

En el presente documento se describen nucleasas guiadas por ácidos nucleicos, ácidos nucleicos guía y sistemas de nucleasas seleccionables, y métodos de uso. En el presente documento se describen nucleasas guiadas por ácidos nucleicos, ácidos nucleicos guía y sistemas de nucleasas seleccionables, así como métodos de uso, que se producen de forma no natural. Los sistemas de nucleasas dirigibles se pueden utilizar para editar objetivos genéticos, incluida la ingeniería genética recursiva y los métodos de ingeniería genética rastreables. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Nucleasas guiadas por ácidos nucleicos
Antecedentes de la divulgación
Las nucleasas guiadas por ácidos nucleicos se han convertido en herramientas importantes para la investigación y la ingeniería genómica. La aplicabilidad de estas herramientas puede verse limitada por los problemas de suministro, expresión o requisitos de especificidad de secuencia.
Sumario de la divulgación
La invención se define por las reivindicaciones adjuntas.
La Figura 1A representa una alineación de secuencia parcial MAD1-8 (SEQ ID NO: 1-8) y MAD10-12 (SEQ ID NO: 10-12). La Figura 1A desvela la SEQ ID NO: 721, los restos 703-707 de la SEQ ID NO: 1, los restos 625-629 de la SEQ ID NO: 2, los restos 587-591 de la SEQ ID NO: 3, los restos 654-658 de la SEQ ID NO: 4, los restos 581-585 de la SEQ ID NO: 5, los restos 637-641 de la SEQ ID NO: 6, los restos 590-594 de la SEQ ID NO: 7, los restos 645-649 de la SEQ ID NO: 8, SEQ ID NO: 395, los restos 619-623 de la SEQ ID NO: 10 y los restos 603-607 de la SEQ ID NO: 12, todos respectivamente, en orden de aparición.
La Figura 1B representa un árbol filogenético de nucleasas que incluye MAD 1-8.
La Figura 2 representa una construcción de expresión de proteína de ejemplo. La Figura 2 desvela "6X-His" como la SEQ ID NO: 376.
La Figura 3 representa un casete de edición de ejemplo y codones diana que representan las secuencias de edición SEQ ID NO: 396-398, respectivamente, en orden de aparición.
La Figura 4 representa un flujo de trabajo de experimento de cribado o selección de ejemplo.
La Figura 5A representa una construcción de expresión de proteína de ejemplo.
La Figura 5B representa un casete de edición de ejemplo.
La Figura 5C representa un flujo de trabajo de experimento de cribado o selección de ejemplo.
La Figura 6A representa una construcción de expresión de proteína de ejemplo.
La Figura 6B representa un casete de edición de ejemplo.
La Figura 6C representa un flujo de trabajo de experimento de cribado o selección de ejemplo.
La Figura 7 representa datos de ejemplo de un experimento de cribado o selección de un complejo de nucleasa funcional.
La Figura 8 representa datos de ejemplo de un experimento de edición basado en un complejo de nucleasa diana. La Figura 9 representa datos de ejemplo de un experimento de edición basado en un complejo de nucleasa diana. Las Figuras 10A y 10B representan datos de ejemplo de un experimento de edición basado en un complejo de nucleasa direccionable.
La Figura 11 representa una alineación de secuencia de ejemplo de secuencias seleccionadas de un experimento de edición. La Figura 11 desvela las SEQ ID NO: 399-401, 400, 400, 400, 400, 400, 402, 399-400 y 400, respectivamente, en orden de aparición.
La Figura 12 representa datos de ejemplo de un experimento de edición basado en un complejo de nucleasa diana. La Figura 13 representa una alineación de ejemplo de secuencias del armazón. La Figura 13 desvela las SEQ ID NO: 403-415, respectivamente, en orden de aparición.
Las Figuras 14A-14B representan datos de ejemplo de un experimento de validación de cebadores.
La Figura 15 representa datos de ejemplo de un experimento de edición basado en un complejo de nucleasa diana. La Figura 16 representa datos de validación de ejemplo que comparan los resultados de dos ensayos diferentes. Las Figuras 17A-17C representan un flujo de trabajo de ingeniería genética rastreable de ejemplo, que incluye un plásmido que comprende un casete de edición y un casete de registro, y secuenciación en dirección 3' de códigos de barras con el fin de identificar la edición o mutación incorporada. La Figura 17B desvela las SEQ ID NO: 416 417, respectivamente, en orden de aparición.
La Figura 18 representa un flujo de trabajo de ingeniería genética rastreable de ejemplo, que incluye rondas iterativas de ingeniería con un casete de edición diferente y un casete de registro con un código de barras único (BC) en cada ronda, que puede ir seguido de selección y rastreo para confirmar la etapa de ingeniería satisfactoria en cada ronda.
La Figura 19 representa un flujo de trabajo de ingeniería recursiva de ejemplo.
La Figura 20 representa un casete de expresión sujeto de ejemplo y la Figura 20B representa una secuencia diana de ejemplo en un gen diana.
Las Figuras 21A y 21B representan ejemplos de datos medidos de crecimiento de células y colonias.
Las Figuras 22A y 22B representan datos de ejemplo que comparan la cuantificación de la biblioteca de puntos temporales de entrada y de 15 horas.
Las Figuras 23A y 23B representan datos de puntuación de agotamiento de un experimento de ejemplo.
La Figura 23C representa secuencias diana y eficiencias de la edición de experimentos de ejemplo. La Figura 23C desvela las SEQ ID NO: 419-423, respectivamente, en orden de aparición.
Las Figuras 24A, 24B y 24C representan datos de puntuación de agotamiento de un experimento de ejemplo. La Figura 25 representa una representación en viñetas de ensayos sujeto utilizados para determinar la especificidad de PAM y los efectos fuera de la diana de los sistemas de nucleasa sujeto.
Las Figuras 26A, 26B y 26C representan datos de puntuación de agotamiento de experimentos de ejemplo. Las Figuras 27A y 27B representan datos de puntuación de agotamiento de experimentos de ejemplo.
Las Figuras 28A y 28B representan datos de puntuación de agotamiento de experimentos de ejemplo.
Las Figuras 29A y 29B representan datos de puntuación de agotamiento de experimentos de ejemplo.
Las Figuras 30A y 30B representan datos de puntuación de agotamiento de experimentos de ejemplo.
Las Figuras 31A, 31B y 31C representan datos de puntuación de agotamiento de experimentos de ejemplo. Las Figuras 32A, 32B, 32C, 32D, 32E, 32F, 32G y 32H representan datos de puntuación de agotamiento (puntuaciones de enriquecimiento negativo) de experimentos de ejemplo.
Las Figuras 32I, 32J, 32K, 32L, 32M, 32N, 32O y 32P representan datos de puntuación de agotamiento de experimentos de ejemplo.
La Figura 33 representa una construcción de ejemplo y un diseño experimental para determinar la especificidad de PAM y guiar la caracterización de secuencias del armazón y la optimización de los sistemas de nucleasas sujeto.
Las Figuras 34A y 34B representan alineaciones de secuencias del armazón de ácido nucleico guía, por ejemplo, secuencias de ARNcr de MAD. La Figura 34A desvela las SEQ ID NO: 639-666, respectivamente, en orden de aparición. La Figura 34B desvela las SEQ ID NO: 667-675, respectivamente, en orden de aparición.
Las Figuras 35A, 35B y 35C representan datos de ejemplo que caracterizan secuencias del bucle de ARNcr preferidas.
Las Figuras 36A, 36B, 36C, 36D, 36E y 36F representan datos de puntuación de agotamiento de ejemplo que caracterizan secuencias del bucle de ARNcr preferidas para MAD7, MAD2 y MAD4, respectivamente.
La Figura 37 representa datos de puntuación de agotamiento de experimentos de ejemplo que caracterizan la preferencia de secuencia del bucle del tallo de ARNcr.
La Figura 38A representa construcciones de expresión de ejemplo para su uso en células de mamífero.
La Figura 38B representa secuencias de ácido nucleico guía de ejemplo. La Figura 38B desvela las SEQ ID NO: 677-678, respectivamente, en orden de aparición.
Las Figuras 39A y 39B representan sitios diana de ejemplo a los que se dirigen las secuencias de ARNg indicadas dentro del gen diana indicado.
Las Figuras 39C y 39D resumen PAM y secuencias diana de los ácidos nucleicos guía indicados. La Figura 38C desvela las SEQ ID NO: 679-688, respectivamente, en orden de aparición. La Figura 39D desvela las SEQ ID NO: 689-698, respectivamente, en orden de aparición.
La Figura 40 representa las eficiencias de escisión (corte) de un ensayo de cortein vitro.
La Figura 41 representa la formación de indels dependiente de MAD7 (dos construcciones) en células HEK293T de mamíferos para dos genes a los que se dirigen tres ácidos nucleicos guía diferentes con dos longitudes diferentes del armazón (42 monómeros o 56 monómeros).
Descripción detallada de la divulgación
La presente divulgación proporciona nucleasas guiadas por ácidos nucleicos y métodos de uso. Con frecuencia, las nucleasas guiadas por ácidos nucleicos sujeto son parte de un sistema de nucleasa direccionable que comprende una nucleasa guiada por ácido nucleico y un ácido nucleico guía. Puede usarse un sistema de nucleasa direccionable sujeto para escindir, modificar y/o editar una secuencia de polinucleótidos diana, con frecuencia denominada secuencia diana. Un sistema de nucleasa direccionable sujeto se refiere colectivamente a transcritos y otros elementos implicados en la expresión o en la dirección de la actividad de los genes, que pueden incluir secuencias que codifican una proteína nucleasa guiada por ácido nucleico sujeto y un ácido nucleico guía como se desvela en el presente documento.
Los métodos, sistemas, vectores, polinucleótidos y composiciones descritos en el presente documento pueden usarse en diversas aplicaciones, incluyendo la alteración o modificación de la síntesis de un producto génico, tal como una proteína, escisión de polinucleótidos, edición de polinucleótidos, corte y empalme de polinucleótidos; tráfico del polinucleótido diana, rastreo del polinucleótido diana, aislamiento del polinucleótido diana, visualización del polinucleótido diana, etc. Los aspectos de la invención también abarcan métodos y usos de las composiciones y sistemas descritos en el presente documento en ingeniería genómica, por ejemplo, para alterar o manipular la expresión de uno o más genes o el uno o más productos génicos, en células procariotas, arqueas o eucariotas,in vitro, in vivooex vivo.
Nucleasas guiadas por ácidos nucleicos
Los sistemas de nucleasas direccionables de bacterias y arqueas se han convertido en herramientas poderosas para la edición genómica de precisión. Sin embargo, las nucleasas de origen natural tienen algunas limitaciones, incluyendo los desafíos de expresión y suministro debidos a la secuencia del ácido nucleico y el tamaño de la proteína. Las nucleasas direccionables que requieren reconocimiento de PAM también están limitadas en las secuencias a las que pueden dirigirse a lo largo de una secuencia genética. Otros desafíos incluyen la procesividad, la especificidad de reconocimiento de diana y la eficiencia, y eficiencia de acidez de nucleasa, que con frecuencia afectan a la eficiencia de la edición genética.
Las nucleasas direccionables de origen no natural y los sistemas de nucleasas direccionables de origen no natural pueden abordar muchos de estos desafíos y limitaciones.
En el presente documento se desvelan sistemas de nucleasas no direccionables de origen no natural. Dichos sistemas de nucleasas direccionables se modifican por ingeniería para abordar uno o más de los desafíos descritos anteriormente y pueden denominarse sistemas de nucleasas modificados por ingeniería. Los sistemas de nucleasas modificados por ingeniería pueden comprender una o más de una nucleasa modificada por ingeniería, tal como una nucleasa guiada por ácido nucleico modificada por ingeniería, un ácido nucleico guía modificado por ingeniería, unos polinucleótidos modificados por ingeniería que codifican dicha nucleasa o unos polinucleótidos modificados por ingeniería que codifican dicho ácido nucleico guía. Las nucleasas modificadas por ingeniería, los ácidos nucleicos guía modificados por ingeniería y los polinucleótidos modificados por ingeniería que codifican la nucleasa modificada por ingeniería o el ácido nucleico guía modificado por ingeniería no se producen de forma natural y no se encuentran en la naturaleza. De ello se deduce que los sistemas de nucleasas modificados por ingeniería que incluyen uno o más de estos elementos no son de origen natural.
Los siguientes son ejemplos no limitantes de tipos de ingeniería que pueden realizarse para obtener un sistema de nucleasa de origen no natural. La ingeniería puede incluir la optimización de codones para facilitar la expresión o mejorar la expresión en una célula hospedadora, tal como una célula hospedadora heteróloga. La ingeniería puede reducir el tamaño o el peso molecular de la nucleasa con el fin de facilitar la expresión o el suministro. La ingeniería puede alterar la selección de PAM con el fin de cambiar la especificidad de PAM o ampliar la gama de PAM reconocidos. La ingeniería puede alterar, aumentar o disminuir la estabilidad, la procesabilidad, la especificidad o la eficiencia de un sistema de nucleasa direccionable. La ingeniería puede alterar, aumentar o disminuir la estabilidad de la proteína. La ingeniería puede alterar, aumentar o disminuir la procesividad del cribado de ácidos nucleicos. La ingeniería puede alterar, aumentar o disminuir la especificidad de secuencia diana. La ingeniería puede alterar, aumentar o disminuir la actividad nucleasa. La ingeniería puede alterar, aumentar o disminuir la eficiencia de la edición. La ingeniería puede alterar, aumentar o disminuir la eficiencia de la transformación. La ingeniería puede alterar, aumentar o disminuir la expresión de la nucleasa o el ácido nucleico guía.
Los ejemplos de secuencias de ácidos nucleicos de origen no natural que se desvelan en el presente documento incluyen secuencias con codones optimizados para la expresión en bacterias, tales comoE. coli(por ejemplo, SEQ ID NO: 41-60), secuencias con codones optimizados para la expresión en eucariotas unicelulares, tales como levadura (por ejemplo, SEQ ID NO: 127-146), secuencias con codones optimizados para la expresión en eucariotas multicelulares, tales como células humanas (por ejemplo, SEQ ID NO: 147-166), polinucleótidos utilizados para la clonación o la expresión de cualquier secuencia desvelada en el presente documento (por ejemplo, SEQ ID NO: 61 80), plásmidos que comprenden secuencias de ácidos nucleicos (por ejemplo, SEQ ID NO: 21-40) unidas operativamente a un promotor heterólogo o señal de ubicación nuclear u otro elemento heterólogo, proteínas generadas a partir de secuencias de ácidos nucleicos modificadas por ingeniería u optimizadas con codones (por ejemplo, SEQ ID NO: 1-20), o ácidos nucleicos guía modificados que comprenden una cualquiera de las SEQ ID NO: 84-107. Dichas secuencias de ácidos nucleicos de origen no natural pueden amplificarse, clonarse, ensamblarse, sintetizarse, generarse a partir de dNTP u oligonucleótidos sintetizados, u obtenerse de otro modo usando métodos conocidos por los expertos en la materia.
En el presente documento se desvelan nucleasas guiadas por ácidos nucleicos. Las nucleasas sujeto son funcionalesin vitroo en células procariotas, arqueas o eucariotas para aplicacionesin vitro, in vivooex vivo.Las nucleasas guiadas por ácidos nucleicos adecuadas pueden ser de un organismo de un género que incluye, pero sin limitación,Thiomicrospira, Succinivibrio, Candidatus, Porphyromonas, Acidaminococcus, Acidomonococcus, Prevotella, Smithella, Moraxella, Synergistes, Francisella, Leptospira, Catenibacterium, Kandleria, Clostridium, Dorea, Coprococcus, Enterococcus, Fructobacillus, Weissella, Pediococcus, Corynebacter, Sutterella, Legionella, Treponema, Roseburia, Filifactor, Eubacterium, Streptococcus, Lactobacillus, Mycoplasma, Bacteroides, Flaviivola, Flavobacterium, Sphaerochaeta, Azospirillum, Gluconacetobacter, Neisseria, Roseburia, Parvibaculum, Staphylococcus, Nitratifractor, Mycoplasma, Alicyclobacillus, Brevibacilus, Bacillus, Bacteroidetes, Brevibacilus, Carnobacterium, Clostridiaridium, Clostridium, Desulfonatronum, Desulfovibrio, Helcococcus, Leptotrichia, Listeria, Methanomethyophilus, Methylobacterium, Opitutaceae, Paludibacter, Rhodobacter, Sphaerochaeta, Tuberibacillus, Oleiphilus,Omnitrophica,ParcubacteriayCampylobacter. Las especies de un organismo de un género de este tipo pueden ser como se analiza de otro modo en el presente documento. Las nucleasas guiadas por ácidos nucleicos adecuadas pueden ser de un organismo de un género o género sin clasificar dentro de un reino que incluye, pero sin limitación,Firmicute, Actinobacteria, Bacteroidetes, Proteobacteria, SpirochatesyTenericutes.Las nucleasas guiadas por ácidos nucleicos adecuadas pueden ser de un organismo de un género o de un género sin clasificar dentro de un filo que incluye, pero sin limitación,Erysipelotrichia, Clostridia, Bacilli, Actinobacteria, Bacteroidetes, Flavobacteria, Alphaproteobacteria,Betaproteobacteria,Gammaproteobacteria,Deltaproteobacteria,Epsilonproteobacteria,SpirochaetesyMollicutes.Las nucleasas guiadas por ácidos nucleicos adecuadas pueden ser de un organismo de un género o de un género sin clasificar dentro de un órden que incluye, pero sin limitación,Clostridiales, Lactobacillales, Actinomycetales, Bacteroidales, Flavobacteriales, Rhizobiales, Rhodospirillales, Burkholderiales, Neisseriales, Legionellales, Nautiliales, Campylobacterales, Spirochaetales, MycoplasmatalesyThiotrichales.Las nucleasas guiadas por ácidos nucleicos adecuadas pueden ser de un organismo de un género o de un género sin clasificar dentro de una familia que incluye, pero sin limitación,Lachnospiraceae,Enterococcaceae,Leuconostocaceae,Lactobacillaceae, Streptococcaceae, Peptostreptococcaceae, Staphylococcaceae, Eubacteriaceae, Corynebacterineae, Bacteroidaceae, Flavobacterium, Cryomoorphaceae, Rhodobiaceae, Rhodospirillaceae, Acetobacteraceae, Sutterellaceae, Neisseriaceae, Legionellaceae, Nautiliaceae, Campylobacteraceae, Spirochaetaceae, Mycoplasmataceae, PisciririckettsiaceaeyFrancisellaceae.Se han descrito otras nucleasas guiadas por ácidos nucleicos en la Publicación de Solicitud de Patente de los EE. UU. N.° US20160208243, presentada el 18 de diciembre de 2015, la Publicación de Solicitud de los EE. UU. N.° US20140068797, presentada el 15 de marzo de 2013, la Patente de los EE. UU. N.° US8697359, presentada el 15 de octubre de 20l3, y Zetscheet al.,Cell, 22 de octubre 2015; 163(3):759-71.
Algunas nucleasas guiadas por ácidos nucleicos adecuadas para su uso en los métodos, sistemas y composiciones de la presente divulgación incluyen aquellos derivados de un organismo tal como, pero sin limitación,Thiomicrospira sp.XS5,Eubacterium rectale, Succinivibrio dextrinosolvens, Candidatus Methanoplasma termitum, Candidatus Methanomethylophilus alvus, Porphyromonas crevioricanis, Flavobacterium branchiophilum, Acidaminococcus Sp., Acidomonococcus sp., Lachnospiraceae bacteriumCOE1,Prevotella brevisATCC 19188,Smithella sp.SCADC,Moraxella bovoculi, Synergistes jonesii, Bacteroidetestaxón oral 274,Francisella tularensis, Leptospira inadaiserovarLymecepa 10,Acidomonococcus sp.estructura cristalina (5B43) S.mutans, S. agalactiae, S. equisimilis, S. sanguinis, S. pneumonia; C. jejuni, C. coli; N. salsuginis, N. tergarcus; S. auricularis, S. carnosus; N. meningitides, N. gonorrhoeae; L. monocytogenes, L. ivanovii; C. botulinum, C. difficile, C. tetani, C. sordellii; Francisella tularensis1,Prevotella albensis, Lachnospiraceae bacteriumMC2017 1,Butyrivibrio proteoclasticus, Butyrivibrio proteoclasticusB316,Peregrinibacteria bacteriumGW2011_GWA2_33_10,Parcubacteria bacteriumGW2011_GWC2_44_17,Smithella sp.SCADC,Acidaminococcus sp.BV3L6,Lachnospiraceae bacteriumMA2020,Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi237,Leptospira inadai, Lachnospiraceae bacteriumND2006,Porphyromonas crevioricanis3,Prevotella disiens, Porphyromonas macacae, Catenibacterium sp.CAG:290,Kandleria vitulina, Clostridiales bacteriumKA00274,Lachnospiraceae bacterium3-2,Dorea longicatena, Coprococcus catusGD/7,Enterococcus columbaeDSM 7374,Fructobacillus sp.EFB-N1,Weissella halotolerans, Pediococcus acidilactici, Lactobacillus curvatus, Streptococcus pyogenes, Lactobacillus versmoldensis, Filifactor alocisATCC 35896,Alicyclobacillus acidoterrestris, Alicyclobacillus acidoterrestrisATCC 49025,Desulfovibrio inopinatus, Desulfovibrio inopinatusDSM 10711,Oleiphilus sp. Oleiphilus sp.HI0009,Candidtus kefeldibacteria, Parcubacteria CasY.4, Omnitrophica WOR 2 bacteriumGWF2,Bacillus sp.NSP2.1 yBacillus thermoamylovorans.
En la divulgación, la nucleasa guiada por ácido nucleico comprende la SEQ ID NO: 7.
En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico de la SEQ ID NO: 27.
En algunos casos, una nucleasa guiada por ácido nucleico desvelada en el presente documento está codificada en una secuencia de ácido nucleico. Un ácido nucleico de este tipo puede tener codones optimizada para su expresión en una célula hospedadora deseada. Las células hospedadoras adecuadas pueden incluir, como ejemplos no limitantes, células procariotas tales comoE. coli, P. aeruginosa, B. subtilus,yV. natriegens,y células eucariotas tales como S.cerevisiae,células vegetales tales comoArabidopsis thalianao células de la planta del tabaco, células de insecto, células de nematodo, células de anfibio, células de pez o células de mamífero, incluyendo las células humanas.
Una secuencia de ácido nucleico que codifica una nucleasa guiada por ácido nucleico puede tener codones optimizados para su expresión en bacterias grampositivas, por ejemplo,Bacillus subtiliso bacterias gramnegativas, por ejemplo,E. coli.En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico que comprende al menos aproximadamente el 85 %, 90 %, 95 %, más del 95 % de identidad de secuencia con la SEQ ID NO: 47 o 203-222. En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico de la SEQ ID NO: 47 o 203-222.
Una secuencia de ácido nucleico que codifica una nucleasa guiada por ácido nucleico puede tener codones optimizados para su expresión en una especie de levadura, por ejemplo, S.cerevisiae.En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico que comprende al menos aproximadamente el 50 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 %, más del 95 % de identidad de secuencia con la SEQ ID NO: 133 o 183-202. En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico de la SEQ ID NO: 133 o 183-202.
Una secuencia de ácido nucleico que codifica una nucleasa guiada por ácido nucleico puede tener codones optimizados para su expresión en células de mamífero. En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico que comprende al menos aproximadamente el 85 %, 90 %, 95 %, más del 95 % de identidad de secuencia con la SEQ ID NO: 153 o 243-262. En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico de la SEQ ID NO: 153 o 243-262.
Una secuencia de ácido nucleico que codifica una nucleasa guiada por ácido nucleico puede tener codones optimizados para su expresión en células vegetales. En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico que comprende al menos aproximadamente el 85 %, 90 %, 95 %, más del 95%de identidad de secuencia con la SEQ ID NO: 223-242. En algunos casos, la nucleasa guiada por ácido nucleico está codificada por la secuencia de ácido nucleico de la SEQ ID NO: 223-242.
Una secuencia de ácido nucleico que codifica una nucleasa guiada por ácido nucleico puede estar unida operativamente a un promotor. Dichas secuencias de ácidos nucleicos pueden ser lineales o circulares. Las secuencias de ácido nucleico pueden estar comprendidas en secuencias de ácidos nucleicos lineales o circulares más grandes que comprenden elementos adicionales tales como un origen de replicación, marcador seleccionable o cribable, terminador, otros componentes de un sistema de nucleasa direccionable, tal como un ácido nucleico guía, o un casete de edición o registrador como se desvela en el presente documento. Estas secuencias de ácidos nucleicos más grandes pueden ser vectores de expresión recombinantes, como se describen con más detalle más adelante.
Ácido nucleico guía
En general, un ácido nucleico guía puede formar complejo con una nucleasa guiada por ácido nucleico compatible y puede hibridarse con una secuencia diana, dirigiendo de este modo la nucleasa a la secuencia diana. Una nucleasa guiada por ácido nucleico sujeto capaz de formar complejo con un ácido nucleico guía puede denominarse una nucleasa guiada por ácido nucleico que es compatible con el ácido nucleico guía. Análogamente, un ácido nucleico guía capaz de formar complejo con una nucleasa guiada por ácido nucleico puede denominarse un ácido nucleico guía que es compatible con las nucleasas guiadas por ácidos nucleicos.
Un ácido nucleico guía puede ser ADN. Un ácido nucleico guía puede ser ARN. Un ácido nucleico guía puede comprender tanto ADN como ARN. Un ácido nucleico guía puede comprender nucleótidos modificados de origen no natural. En los casos en los que el ácido nucleico guía comprende ARN, el ácido nucleico guía de ARN puede estar codificado por una secuencia de ADN en una molécula de polinucleótido tal como un plásmido, construcción lineal o casete de edición como se desvela en el presente documento.
Un ácido nucleico guía puede comprender una secuencia guía. Una secuencia guía es una secuencia de polinucleótidos que tenga suficiente complementariedad con una secuencia de polinucleótidos diana para hibridar con la secuencia diana y dirigir la unión específica de secuencia de una nucleasa guiada por ácido nucleico complejada a la secuencia diana. El grado de complementariedad entre una secuencia guía y su secuencia diana correspondiente, cuando se alinean de manera óptima usando un algoritmo de alineación adecuado, es de aproximadamente o más de aproximadamente el 50 %, 60 %, 75 %, 80 %, 85 %, 90 %, 95 %, 97,5 %, 99 % o más. La alineación óptima puede determinarse con el uso de cualquier algoritmo adecuado para alinear secuencias. En algunas realizaciones, la secuencia diana candidata tiene aproximadamente o más de aproximadamente 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75 o más nucleótidos de longitud. En algunas realizaciones, una secuencia guía tiene menos de aproximadamente 75, 50, 45, 40, 35, 30, 25, 20 nucleótidos de longitud. Preferentemente, la secuencia guía tiene 10-30 nucleótidos de longitud. La secuencia guía puede tener 15-20 nucleótidos de longitud. La secuencia guía puede tener 15 nucleótidos de longitud. La secuencia guía puede tener 16 nucleótidos de longitud. La secuencia guía puede tener 17 nucleótidos de longitud. La secuencia guía puede tener 18 nucleótidos de longitud. La secuencia guía puede tener 19 nucleótidos de longitud. La secuencia guía puede tener 20 nucleótidos de longitud.
Un ácido nucleico guía puede comprender una secuencia del armazón. En general, una "secuencia del armazón" incluye cualquier secuencia que tenga una secuencia suficiente para promover la formación de un complejo de nucleasa direccionable, en donde el complejo de nucleasa direccionable comprende una nucleasa guiada por ácido nucleico y un ácido nucleico guía que comprende una secuencia del armazón y una secuencia guía. Una secuencia suficiente dentro de la secuencia del armazón para promover la formación de un complejo de nucleasa direccionable puede incluir un grado de complementariedad a lo largo de la longitud de dos regiones de secuencia dentro de la secuencia del armazón, tales como una o dos regiones de secuencia implicadas en la formación de una estructura secundaria. En algunos casos, la una o dos regiones de secuencia están comprendidas o codificadas en el mismo polinucleótido. En algunos casos, la una o dos regiones de secuencia están comprendidas o codificadas en polinucleótidos separados. La alineación óptima puede determinarse mediante cualquier algoritmo de alineación adecuado, y puede explicar además las estructuras secundarias, tales como la autocomplementariedad dentro de una o dos regiones de secuencia. En algunas realizaciones, el grado de complementariedad entre la una o dos regiones de secuencia a lo largo de la longitud de la más corta de las dos cuando se alinean de manera óptima es de aproximadamente o más de aproximadamente el 25 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 97,5 %, 99 % o superior. En algunas realizaciones, al menos una de las dos regiones de secuencia tiene aproximadamente o más de aproximadamente 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 40, 50 o más nucleótidos de longitud.
Una secuencia del armazón de un ácido nucleico guía sujeto puede comprender una estructura secundaria. Una estructura secundaria puede comprender una región de pseudonudo. En algunos casos, la cinética de unión de un ácido nucleico guía a una nucleasa guiada por ácido nucleico está determinada en parte por estructuras secundarias dentro de la secuencia del armazón. En algunos casos, la cinética de unión de un ácido nucleico guía a una nucleasa guiada por ácido nucleico se determina en parte por la secuencia de ácido nucleico con la secuencia del armazón. En la Figura 49C se representa un ejemplo de una región de pseudonudo dentro de una secuencia del armazón.
Una secuencia del armazón puede comprender una secuencia del bucle. Una secuencia del bucle puede comprender 1 o más nucleótidos. En algunos ejemplos, la secuencia del bucle comprende 4 nucleótidos. En algunos ejemplos, la secuencia del bucle comprende 5 nucleótidos. Una secuencia del bucle puede ser una región de la secuencia del armazón que no está hibridada con otra secuencia o no está hibridada con otra secuencia dentro de la secuencia del armazón. En la Figura 49C se representa un ejemplo de una secuencia del bucle dentro de una secuencia del armazón.
Una secuencia del armazón puede comprender la secuencia de una cualquiera de las SEQ ID NO: 84-107 o 172-182. Una secuencia del armazón puede comprender la secuencia de una cualquiera de las SEQ ID NO: 84-103. Una secuencia del armazón puede comprender la secuencia de una cualquiera de las SEQ ID NO: 84-91 o 93-95. Una secuencia del armazón puede comprender la secuencia de una cualquiera de las SEQ ID NO: 88, 93, 94 o 95. Una secuencia del armazón puede comprender la secuencia de la SEQ ID NO: 88. Una secuencia del armazón puede comprender la secuencia de la SEQ ID NO: 93. Una secuencia del armazón puede comprender la secuencia de la SEQ ID NO: 94. Una secuencia del armazón puede comprender la secuencia de la SEQ ID NO: 95. Una secuencia del armazón puede comprender una secuencia o secuencia consenso representada en la Figura 49A, 49B o 49C.
En algunos aspectos, la divulgación proporciona una nucleasa que se une a un ácido nucleico guía que comprende una secuencia del armazón conservada. Por ejemplo, las nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo conservada como se muestra en la Figura 13. Específicamente, las nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a un ácido nucleico guía que comprende una región de pseudonudo conservada como se muestra en la Figura 13. Determinadas nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-1 (SEQ ID NO: 172). Otras nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95% o 100% de identidad de secuencia con la región de pseudonudo del Armazón-3 (SEQ ID NO: 173). Otras nucleasas guiadas por ácidos nucleicos más para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-4 (SEQ ID NO: 174). Otras nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-5 (SEQ ID NO: 175). Otras nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-6 (SEQ ID NO: 176). Otras nucleasas guiadas por ácidos nucleicos más para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-7 (SEQ ID NO: 177). Otras nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-8 (SEQ ID NO: 178). Otras nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-10 (SEQ ID NO: 179). Otras nucleasas guiadas por ácidos nucleicos más para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-11 (SEQ ID NO: 180). Determinadas nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-12 (SEQ ID NO: 181). Determinadas nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una región de pseudonudo que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con la región de pseudonudo del Armazón-25 (SEQ ID NO: 182).
Determinadas nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una secuencia del armazón que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con una cualquiera de las SEQ ID NO: 84-107 o 172-182. Determinadas nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una secuencia del armazón que tiene al menos el 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con una cualquiera de las secuencias representadas en las Figuras 49A, 49B o 49C.
Determinadas nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una secuencia del armazón que tiene una secuencia del bucle representada en las Figuras 49A, 49B o 49C. Determinadas nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una secuencia del armazón que tiene una secuencia del bucle de UAUU, UUU, UGUU, UCUU, UCUUU o UAGU.
Determinadas nucleasas guiadas por ácidos nucleicos para su uso en la presente divulgación pueden unirse a una secuencia del armazón que comprende la versión de ARN de la SEQ ID NO: 181, en donde T se reemplaza por U. En algunos casos, la secuencia del armazón comprende al menos una mutación en comparación con la versión de ARN de la SEQ ID NO: 181. Por ejemplo, la secuencia del armazón puede comprender una secuencia alterada en la secuencia del bucle de la secuencia del armazón. Por ejemplo, la secuencia del bucle puede comprender UAUU, UUU, UGUU, UCUU, UCUUU o UAGU.
Un ácido nucleico guía puede comprender la secuencia de una cualquiera de las SEQ ID NO: 84-107. Un ácido nucleico guía puede comprender la secuencia de una cualquiera de las SEQ ID NO: 84-103. Un ácido nucleico guía puede comprender la secuencia de una cualquiera de las SEQ ID NO: 84-91 o 93-95. Un ácido nucleico guía puede comprender la secuencia de una cualquiera de las SEQ ID NO: 88, 93, 94 o 95. Un ácido nucleico guía puede comprender la secuencia de la SEQ ID NO: 88. Un ácido nucleico guía puede comprender la secuencia de la SEQ ID NO: 93. Un ácido nucleico guía puede comprender la secuencia de la SEQ ID NO: 94. Un ácido nucleico guía puede comprender la secuencia de la SEQ ID NO: 95.
En aspectos de la invención, la expresión "ácido nucleico guía" se refiere a uno o más polinucleótidos que comprenden 1) una secuencia guía capaz de hibridarse con una secuencia diana y 2) una secuencia del armazón capaz de interactuar o formar complejo con una nucleasa guiada por ácido nucleico como se describe en el presente documento. Un ácido nucleico guía puede proporcionarse en forma de uno o más ácidos nucleicos. En realizaciones específicas, la secuencia guía y la secuencia del armazón se proporcionan en forma de un único polinucleótido.
Un ácido nucleico guía puede ser compatible con una nucleasa guiada por ácido nucleico cuando los dos elementos pueden formar un complejo de nucleasa direccionable funcional capaz de escindir una secuencia diana. Con frecuencia, puede encontrarse una secuencia del armazón compatible para un ácido nucleico guía compatible barriendo secuencias adyacentes a un locus de nucleasa guiada por ácido nucleico nativa. Dicho de otra manera, las nucleasas guiadas por ácidos nucleicos nativos pueden estar codificadas en un genoma en la proximidad de un ácido nucleico guía compatible correspondiente o una secuencia del armazón.
Las nucleasas guiadas por ácidos nucleicos pueden ser compatibles con ácidos nucleicos guía que no se encuentran dentro del hospedador endógeno de nucleasas. Dichos ácidos nucleicos guía ortogonales pueden determinarse mediante ensayos empíricos. Los ácidos nucleicos guía ortogonales pueden provenir de diferentes especies bacterianas o ser sintéticos o estar modificados por ingeniería de otro modo para que no sean de origen natural.
Los ácidos nucleicos guía ortogonales que son compatibles con una nucleasa guiada por ácido nucleico común pueden comprender una o más características comunes. Las características comunes pueden incluir una secuencia fuera de una región de pseudonudo. Las características comunes pueden incluir una región de pseudonudo. Las características comunes pueden incluir una secuencia primaria o una estructura secundaria.
Un ácido nucleico guía pueden modificarse por ingeniería para dirigirse a una secuencia diana deseada alterando la secuencia guía de manera que la secuencia guía sea complementaria a la secuencia diana, permitiendo de este modo la hibridación entre la secuencia guía y la secuencia diana. Un ácido nucleico guía con una secuencia guía modificada por ingeniería puede denominarse un ácido nucleico guía modificado por ingeniería. Los ácidos nucleicos guía modificados por ingeniería con frecuencia no son de origen natural y no se encuentran en la naturaleza.
Los ácidos nucleicos guía compatibles o secuencias del armazón para una nucleasa sujeto pueden identificarse o someterse a ensayo usando un ensayo de cribado como se desvela en el presente documento. En general, puede generarse una biblioteca de vectores como se desvela en el presente documento, comprendiendo dicho vector una secuencia diana adyacente a una secuencia de PAM. Dicho vector puede comprender un marcador seleccionable o un marcador cribable. Dicho vector puede comprender una secuencia de ácido nucleico guía que ha de someterse a ensayo. Dicho vector puede comprender un código de barras u otro identificador único que permita la identificación del ácido nucleico guía que ha de someterse a ensayo. Dicho ácido nucleico guía puede comprender una secuencia de direccionamiento capaz de dirigirse a la secuencia diana del vector. Dicho ácido nucleico guía puede comprender una secuencia del armazón. En general, dentro de una biblioteca de dicho vector, la secuencia del armazón variaría entre los diferentes vectores de manera que podrían cribarse o someterse a ensayo numerosas secuencias del armazón diferentes dentro de un único experimento o de una manera de alto rendimiento. En algunos casos, una secuencia del bucle del tallo dentro de la secuencia del armazón varía entre los diferentes vectores de manera que podrían cribarse o someterse a ensayo numerosas secuencias del armazón diferentes dentro de un único experimento o de una manera de alto rendimiento. En algunos casos, la biblioteca de vectores comprende una diversidad de secuencias de PAM diferentes adyacentes a la secuencia diana. Después, la biblioteca de vectores puede introducirse en células hospedadoras, comprendiendo dichas células hospedadoras una nucleasa sujeto. Dicha nucleasa sujeto puede expresarse a partir del mismo vector o un vector diferente que se introduce en la célula ya sea simultáneamente, anteriormente o posteriormente al vector de ácido nucleico guía. En otros casos, la nucleasa sujeto puede introducirse en la célula en forma de un transcrito de ARNm. En otros casos, la nucleasa sujeto puede introducirse en la célula en forma de una proteína. Sin desear quedar ligados a teoría alguna, dentro de cada célula, se expresaría el ácido nucleico guía. Si el ácido nucleico guía expresado es compatible con la nucleasa sujeto, entonces el ácido nucleico guía formaría complejo con la nucleasa sujeto y dirigiría la nucleasa a la secuencia diana, y entonces la nucleasa escindiría la secuencia diana. Este evento de escisión provocaría que la célula hospedadora pierda el vector que comprende la secuencia diana o pierda la función del marcador direccionable o marcador cribable y, por lo tanto, la célula hospedadora moriría en una selección o se perdería durante el cribado. Por otra parte, si el ácido nucleico guía no es compatible con la nucleasa sujeto, entonces la secuencia diana no se escindiría y, por lo tanto, la célula hospedadora mantendría el marcador seleccionable o cribable. Comparando los vectores de entrada con los seleccionados o cribados para vectores de las células hospedadoras de salida supervivientes o seleccionadas, pueden identificarse vectores que se han agotado. Mediante la secuenciación o el análisis del código de barras o el identificador único de los vectores de entrada y los vectores de salida, pueden identificarse los códigos de barras o identificadores únicos que se han agotado, lo que permitiría la identificación de los ácidos nucleicos guía que estaban agotados. Los ácidos nucleicos guía agotados incluirían aquellos que son compatibles con la nucleasa sujeto.
En algunos casos, cuando se realiza el ensayo de cribado o prueba de ácido nucleico guía descrito en el presente documento, el ensayo también puede usarse para identificar o cribar secuencias de PAM que sean compatibles con la nucleasa sujeto. En dichos casos, los vectores dentro de la biblioteca de vectores pueden comprender un código de barras o un identificador único adyacente al PAM. Comparando los vectores de entrada con los vectores de salida, pueden identificarse las secuencias de PAM que se han agotado. Las secuencias de PAM agotadas incluirían aquellas que son compatibles con la nucleasa sujeto. En algunos casos, mediante el uso de los ensayos descritos en el presente documento, los ácidos nucleicos guía compatibles y las secuencias de PAM para una nucleasa sujeto pueden identificarse o someterse a ensayo dentro de un único experimento o cribado o de una manera de alto rendimiento.
El agotamiento puede referirse a una disminución en la secuencia sujeto con respecto a una frecuencia de partida o una frecuencia de secuencia de referencia. El agotamiento es lo contrario del enriquecimiento y, por lo tanto, también puede expresarse como un valor de enriquecimiento negativo. El agotamiento puede calcularse usando cualquier método conocido en el campo. En algunos casos, las puntuaciones de agotamiento pueden calcularse calculando la frecuencia de cada secuencia o construcción dentro de los datos experimentales y comparando la frecuencia sujeto con un control, en donde el agotamiento es el nivel de cambio de la frecuencia sujeto con respecto a la frecuencia de control o referencia. En algunos casos, se usa una frecuencia umbral con el fin de reducir el ruido, por ejemplo, puede haber un corte de al menos 50 recuentos antes de que los datos se usen en el cálculo de la puntuación de agotamiento. Se calcula una media y una desviación típica para las secuencias que no muestran cambios con respecto a una frecuencia de control o de referencia. Esta media y desviación típica pueden usarse para derivar puntuaciones z que pueden producir valores de p <0,05 para inferir un umbral de significancia. En algunos casos, con el fin de corregir la posible sobreestimación de una puntuación de agotamiento, se usa un corte y las puntuaciones de agotamiento que superan ese umbral se consideran agotadas. En algunos casos, el umbral se puede se log2 -1, log2 -2, log2 -3, log2 -4 o log2 -5.
En algunos ejemplos, las puntuaciones de agotamiento pueden calcularse como la log2 de puntuación de agotamiento usando la siguiente ecuación: W = log2(Fx,f/Fx,i); donde Fx,f es la frecuencia del casete X en el punto temporal final y Fx,i es la frecuencia inicial del casete X, y W es la aptitud absoluta de cada variante. Las frecuencias se determinaron dividiendo los recuentos de lectura para cada variante por los recuentos experimentales totales, incluyendo aquellos que se perdieron durante la filtración. Pueden usarse promedios ponderados por recuento de múltiples réplicas para inferir la puntuación de aptitud promedio de cada mutación de la siguiente manera: Wprom = (ZNi=l recuente^ * Wi) / (ZNi=l recuentosi). Las puntuaciones calculadas pueden denominarse puntuación de agotamiento cuando el valor calculado es negativo, y también pueden denominarse puntuación de enriquecimiento si el valor calculado es positivo.
Sistema de nucleasa direccionable
En el presente documento se desvelan sistemas de nucleasas direccionables. Un sistema de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico y un ácido nucleico guía compatible. Un sistema de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico o una secuencia de polinucleótidos que codifica la nucleasa guiada por ácido nucleico. Un sistema de nucleasa direccionable puede comprender un ácido nucleico guía o una secuencia de polinucleótidos que codifica el ácido nucleico guía.
En general, un sistema de nucleasa direccionable como se desvela en el presente documento se caracteriza por elementos que promueven la formación de un complejo de nucleasa direccionable en el sitio de una secuencia diana, en donde el complejo de nucleasa direccionable comprende una nucleasa guiada por ácido nucleico y un ácido nucleico guía.
Un ácido nucleico guía junto con una nucleasa guiada por ácido nucleico forma un complejo de nucleasa direccionable que es capaz de unirse a una secuencia diana dentro de un polinucleótido diana, según lo determinado por la secuencia guía del ácido nucleico guía.
En general, para generar una rotura bicatenaria, en la mayoría de los casos, un complejo de nucleasa direccionable se une a una secuencia diana según lo determinado por el ácido nucleico guía, y la nucleasa tiene que reconocer una secuencia de motivo adyacente protoespaciador (PAM) adyacente a la secuencia diana.
Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible. En cualquiera de estos casos, el ácido nucleico guía puede comprender una secuencia del armazón compatible con la nucleasa guiada por ácido nucleico. En cualquiera de estos casos, la secuencia del armazón puede ser una secuencia del armazón nativa o una secuencia del armazón heteróloga. En cualquiera de estos casos, el ácido nucleico guía puede comprender además una secuencia guía. La secuencia guía puede modificarse por ingeniería para dirigirse a cualquier secuencia diana deseada. La secuencia guía puede modificarse por ingeniería para que sea complementaria a cualquier secuencia diana deseada. La secuencia guía puede modificarse por ingeniería para hibridarse con cualquier secuencia diana deseada.
Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende una cualquiera de las SEQ ID NO: 84-107 o 172-182. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende una cualquiera de las SEQ ID NO: 88, 93, 94 o 95. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 88. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 93. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 94. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 95. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 172. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 173. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 174. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 175. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 176. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 177. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 178. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 179. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 180. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 181. Un complejo de nucleasa direccionable puede comprender una nucleasa guiada por ácido nucleico de la SEQ ID NO: 7 y un ácido nucleico guía compatible que comprende la SEQ ID NO: 182. En cualquiera de estos casos, el ácido nucleico guía puede comprender además una secuencia guía. La secuencia guía puede modificarse por ingeniería para dirigirse a cualquier secuencia diana deseada. La secuencia guía puede modificarse por ingeniería para que sea complementaria a cualquier secuencia diana deseada. La secuencia guía puede modificarse por ingeniería para hibridarse con cualquier secuencia diana deseada.
Un complejo de nucleasa direccionable puede comprender una nucleasa direccionable sujeto y un ácido nucleico guía. En algunos casos, el ácido nucleico guía se selecciona basándose en su compatibilidad con la nucleasa sujeto. En el presente documento se desvelan métodos de determinación y selección de ácidos nucleicos guía compatibles y se describen con más detalle en otra parte. En algunos casos, el ácido nucleico guía se selecciona basándose en la eficiencia de escisión que confiere al complejo de nucleasa direccionable. La eficiencia de escisión puede ser la frecuencia de corte de un ácido nucleico diana. En algunos casos, el ácido nucleico guía se selecciona basándose en la eficiencia de direccionamiento que confiere al complejo de nucleasa direccionable. La eficiencia de direccionamiento puede ser la frecuencia de direccionamiento a un ácido nucleico diana previsto. En algunos casos, el ácido nucleico guía se selecciona basándose en la especificidad de escisión que confiere al complejo de nucleasa direccionable. La especificidad de escisión puede ser la frecuencia de escisión de la secuencia diana prevista en comparación con la escisión de secuencias diana no previstas. En algunos casos, el ácido nucleico guía se selecciona basándose en la especificidad de direccionamiento que confiere al complejo de nucleasa direccionable. La especificidad de direccionamiento puede ser la frecuencia de direccionamiento a la secuencia diana prevista en comparación con el direccionamiento a secuencias diana no previstas.
Características tales como la especificidad de escisión, la eficiencia de escisión, la especificidad de direccionamiento o la eficiencia de direccionamiento pueden determinarse basándose en las características del ácido nucleico guía. Por ejemplo, la secuencia del armazón, la región de pseudonudo o la secuencia del bucle pueden afectar, cada una o en combinación, a las características de direccionamiento o escisión de un complejo de nucleasa sujeto. En algunos ejemplos, las porciones de la secuencia del armazón que interactúan con la nucleasa afectan a la especificidad o eficiencia de escisión o direccionamiento del complejo. En algunos casos, la secuencia guía (en ocasiones denominada secuencia de direccionamiento) del ácido nucleico guía afecta a la especificidad o eficiencia de escisión o direccionamiento del complejo. En algunos ejemplos, la selección de la secuencia diana afecta a la especificidad o eficiencia de escisión o direccionamiento del complejo. Por ejemplo, los emparejamientos erróneos entre la secuencia guía y la secuencia diana pueden afectar a la especificidad o eficiencia de escisión o direccionamiento del complejo. En algunos casos, la ubicación del emparejamiento erróneo con respecto al PAM puede afectar a la especificidad o eficiencia de escisión o direccionamiento del complejo. En algunos casos, el número de emparejamientos erróneos o el espaciamiento de los emparejamientos erróneos entre sí pueden afectar a la especificidad o eficiencia de escisión o direccionamiento del complejo. En cualquiera de estos casos, el parámetro citado puede aumentar o disminuir la especificidad de direccionamiento, eficiencia de direccionamiento, especificidad de escisión o eficiencia de escisión del complejo de nucleasa direccionable sujeto.
Una secuencia diana de un complejo de nucleasa direccionable puede ser cualquier polinucleótido endógeno o exógeno a una célula procariota o eucariota, oin vitro.Por ejemplo, la secuencia diana puede ser un polinucleótido que reside en el núcleo de la célula eucariota. Una secuencia diana puede ser una secuencia que codifica un producto génico (por ejemplo, una proteína) o una secuencia no codificante (por ejemplo, un polinucleótido regulador o un ADN basura). Sin desear quedar ligados a teoría alguna, se cree que la secuencia diana debe asociarse a un PAM; es decir, una secuencia corta reconocida por un complejo de nucleasa direccionable. Los requisitos precisos de secuencia y longitud para un PAM difieren dependiendo de la nucleasa guiada por ácido nucleico utilizada, pero los PAM normalmente son secuencias de 2-5 pares de bases adyacentes a la secuencia diana. En la sección de ejemplos a continuación se proporcionan ejemplos de secuencias de PAM, y el experto será capaz de identificar secuencias de PAM adicionales para su uso con una nucleasa guiada por ácido nucleico dada. Adicionalmente, la modificación por ingeniería del dominio de Interacción con PAM (PI) puede permitir la programación de la especificidad de PAM, mejorar la fidelidad del reconocimiento del sitio diana y aumentar la versatilidad de una plataforma de ingeniería del genoma de nucleasa guiada por ácido nucleico. Las nucleasas guiadas por ácidos nucleicos pueden modificarse por ingeniería para alterar su especificidad de PAM, por ejemplo, como se describe en Kleinstiver B Pet al.Engineered CRISPR-Cas9 nucleases with altered PAM specificities. Nature. 23 de julio de 2015; 523 (7561): 481-5. doi: 10.1038/nature14592.
Un sitio de PAM es una secuencia de nucleótidos próxima a una secuencia diana. En la mayoría de los casos, una nucleasa guiada por ácido nucleico sólo puede escindir una secuencia diana si hay presente un PAM adecuado. Los PAM son específicos de nucleasas guiadas por ácidos nucleicos y pueden ser diferentes entre dos nucleasas guiadas por ácidos nucleicos diferentes. Un PAM puede estar en 5' o 3' de una secuencia diana. Un PAM puede estar en dirección 5' o en dirección 3' de una secuencia diana. Un PAM puede tener 1,2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos de longitud. Con frecuencia, un PAM tiene entre 2-6 nucleótidos de longitud.
Los sitios de PAM compatibles con una nucleasa sujeto o un complejo de nucleasa direccionable pueden identificarse usando métodos desvelados en el presente documento. En general, puede generarse una biblioteca de vectores como se desvela en el presente documento, comprendiendo dicho vector una secuencia diana adyacente a una secuencia de PAM. Dentro de una biblioteca de dicho vector, la secuencia de PAM puede variar entre los diferentes vectores de manera que puede cribarse o someterse a ensayo numerosas secuencias de PAM diferentes dentro de un único experimento o de una manera de alto rendimiento. Dicho vector puede comprender un código de barras u otro identificador único que permita la identificación del PAM que ha de someterse a ensayo. Dicho vector puede comprender un marcador seleccionable o un marcador cribable. Dicho vector puede comprender una secuencia de ácido nucleico guía. Dicho ácido nucleico guía puede comprender una secuencia de direccionamiento capaz de dirigirse a la secuencia diana del vector. Dicho ácido nucleico guía puede comprender una secuencia del armazón. En algunos casos, la biblioteca de vectores comprende una diversidad de secuencia de ácido nucleico guía o secuencias del armazón diferentes. Después, la biblioteca de vectores puede introducirse en células hospedadoras, comprendiendo dichas células hospedadoras una nucleasa sujeto. Dicha nucleasa sujeto puede expresarse a partir del mismo vector o un vector diferente que se introduce en la célula ya sea simultáneamente, anteriormente o posteriormente al vector de ácido nucleico guía. En otros casos, la nucleasa sujeto puede introducirse en la célula en forma de un transcrito de ARNm. En otros casos, la nucleasa sujeto puede introducirse en la célula en forma de una proteína. Sin desear quedar ligados a teoría alguna, dentro de cada célula, el ácido nucleico guía se expresaría y formaría complejo con la nucleasa sujeto. Después, el ácido nucleico guía puede dirigir la nucleasa a la secuencia diana. En algunos casos, si el PAM adyacente a la secuencia diana es compatible con la nucleasa sujeto, entonces la nucleasa sujeto puede escindir la secuencia diana. Este evento de escisión provocaría que la célula hospedadora pierda el vector que comprende la secuencia diana o pierda la función del marcador direccionable o marcador cribable y, por lo tanto, la célula hospedadora moriría en una selección o se perdería durante el cribado. Por otra parte, si el PAM no es compatible con la nucleasa sujeto, entonces la secuencia diana no se escindiría y, por lo tanto, la célula hospedadora mantendría el marcador seleccionable o cribable. Comparando los vectores de entrada con los seleccionados o cribados para vectores de las células hospedadoras de salida supervivientes o seleccionadas, pueden identificarse vectores que se han agotado. Mediante la secuenciación o el análisis del código de barras o el identificador único de los vectores de entrada y los vectores de salida, pueden identificarse los códigos de barras o identificadores únicos que se han agotado, lo que permitiría la identificación de las secuencias de PAM que estaban agotados. Las secuencias de PAM agotadas incluirían aquellas que son compatibles con la nucleasa sujeto.
En algunos casos, cuando se realiza el ensayo de cribado o prueba de PAM descrito en el presente documento, el ensayo también puede usarse para identificar o cribar secuencias de ácidos nucleicos guía que sean compatibles con la nucleasa sujeto. En dichos casos, los vectores dentro de la biblioteca de vectores pueden comprender un código de barras o un identificador único adyacente al ácido nucleico guía. Comparando los vectores de entrada con los vectores de salida, pueden identificarse las secuencias de ácidos nucleicos guía que se han agotado. Las secuencias de ácidos nucleicos guía agotados incluirían aquellos que son compatibles con la nucleasa sujeto. En algunos casos, mediante el uso de los ensayos descritos en el presente documento, los ácidos nucleicos guía compatibles y las secuencias de PAM para una nucleasa sujeto pueden identificarse o someterse a ensayo dentro de un único experimento o cribado o de una manera de alto rendimiento. Los métodos para calcular y evaluar el agotamiento descritos anteriormente también son aplicables al cálculo y la evaluación del agotamiento en estos casos.
En algunos ejemplos, puede proporcionarse un PAM en un oligonucleótido separado. En dichos casos, proporcionar PAM en un oligonucleótido permite la escisión de una secuencia diana que de otro modo no podría escindirse porque no hay PAM adyacente presente en el mismo polinucleótido que la secuencia diana.
Las secuencias de polinucleótidos que codifican un componente de un sistema de nucleasa direccionable pueden comprender uno o más vectores. En general, el término "vector" se refiere a una molécula de ácido nucleico capaz de transportar otro ácido nucleico al que se ha unido. Los vectores incluyen, pero sin limitación, moléculas de ácido nucleico que son monocatenarias, bicatenarias o parcialmente bicatenarias; moléculas de ácido nucleico que comprenden uno o más extremos libres, ningún extremo libre (por ejemplo, circulares); moléculas de ácido nucleico que comprenden ADN, ARN o ambos; y otras diversidades de polinucleótidos conocidas en la técnica. Un tipo de vector es un "plásmido", que se refiere a un bucle circular de ADN bicatenario en el que pueden insertarse segmentos de ADN adicionales, tales como mediante técnicas convencionales de clonación molecular. Otro tipo de vector es un vector vírico, en donde las secuencias de ADN o ARN derivadas de virus están presentes en el vector para empaquetar en un virus (por ejemplo, retrovirus, retrovirus defectuosos para la replicación, adenovirus, adenovirus defectuosos para la replicación y dependoparvovirus). Los vectores víricos también incluyen polinucleótidos transportados por un virus para la transfección en una célula hospedadora. Determinados vectores son capaces de replicarse de manera autónoma en una célula hospedadora en la que se introducen (por ejemplo, vectores bacterianos que tienen un origen de replicación bacteriano y vectores episómicos de mamíferos). Otros vectores (por ejemplo, vectores no episómicos de mamífero) se integran en el genoma de una célula hospedadora tras su introducción en la célula hospedadora y, de este modo, se replican junto con el genoma del hospedador. Por otra parte, determinados vectores son capaces de dirigir la expresión de genes a los que están unidos operativamente. Dichos vectores se denominan en el presente documento "vectores de expresión". Los vectores de expresión comunes de utilidad en las técnicas de ADN recombinante están con frecuencia en forma de plásmidos. En el presente documento, se proporciona un análisis adicional de los vectores.
Los vectores de expresión recombinantes pueden comprender un ácido nucleico de la invención en una forma adecuada para la expresión del ácido nucleico en una célula hospedadora, lo que significa que los vectores de expresión recombinantes incluyen uno o más elementos reguladores, que pueden seleccionarse basándose en las células hospedadoras que han de usarse para la expresión, que está unido operativamente a la secuencia de ácido nucleico que ha de expresarse. Dentro de un vector de expresión recombinante, "unido operativamente" pretende significar que la secuencia de nucleótidos de interés se une al uno o más elementos reguladores de una manera que permite la expresión de la secuencia de nucleótidos (por ejemplo, en un sistema de transcripción/traducciónin vitroo en una célula hospedadora cuando se introduce el vector en la célula hospedadora). Con respecto a los métodos de recombinación y clonación, se hace mención de la solicitud de patente de los EE.UU. 10/815.730, publicada el 2 de septiembre de 2004 como el documento US 2004-0171156 A1.
En algunos casos, un elemento regulador está unido operativamente a uno o más elementos de un sistema de nucleasa direccionable para impulsar la expresión de uno o más componentes del sistema de nucleasa direccionable.
En algunos casos, un vector comprende un elemento regulador unido operativamente a una secuencia de polinucleótidos que codifica una nucleasa guiada por ácido nucleico. La secuencia de polinucleótidos que codifica la nucleasa guiada por ácido nucleico puede tener codones optimizados para la expresión en células particulares, tales como células procariotas o eucariotas. Las células eucariotas pueden ser células de levaduras, hongos, algas, vegetales, animales o humanas. Las células eucariotas pueden ser de o derivar de un organismo particular, tal como un mamífero, incluyendo, pero sin limitación, ser humano, ratón, rata, conejo, perro o mamífero no humano, incluyendo los primates no humanos.
En general, la optimización de codones se refiere a un proceso de modificación de una secuencia de ácido nucleico para una expresión potenciada en las células hospedadoras de interés reemplazando al menos un codón (por ejemplo, aproximadamente o más de aproximadamente 1, 2, 3, 4, 5, 10, 15, 20, 25, 50 o más codones) de la secuencia nativa por codones que están con más frecuencia o que se usan con más frecuencia en los genes de esa célula hospedadora mientras se mantiene la secuencia de aminoácidos nativa. Diversas especies muestran un sesgo particular para determinados codones de un aminoácido particular. El sesgo de codones (las diferencias en el uso de codones entre organismos) con frecuencia se correlaciona con la eficacia de la traducción del ARN mensajero (ARNm), que a su vez se cree que depende de, entre otras cosas, las propiedades de los codones que se traducen y la disponibilidad de determinadas moléculas de ARN de transferencia (ARNt). El predominio de los ARNt seleccionados en una célula es generalmente un reflejo de los codones utilizados con mayor frecuencia en la síntesis de péptidos. En consecuencia, los genes pueden adaptarse para una expresión génica óptima en un organismo dado en función de la optimización de codones. Las tablas de uso de codones están disponibles, por ejemplo, en la "Codon Usage Database" disponible en www.kazusa.orjp/codon/ (visitada el 9 de julio de 2002), y estas tablas se pueden adaptar de varias maneras. Véase Nakamura, Y.,et al."Codon usage tabulated from the international DNA sequence databases: status for the year 2000" Nucl. Acids Res. 28:292 (2000). También hay disponibles algoritmos informáticos para optimizar codones de una secuencia particular para su expresión en una célula hospedadora particular, tales como Gene Forge (Aptagen; Jacobus, Pa.). En algunos casos, uno o más codones (por ejemplo, 1,2, 3, 4, 5, 10, 15, 20, 25, 50 o más, o todos los codones) en una secuencia que codifica una nucleasa modificadas por ingeniería corresponden al codón más frecuentemente usado para un determinado aminoácido.
En algunos casos, un vector codifica una nucleasa guiada por ácido nucleico que comprende una o más secuencias de ubicación nuclear (NLS, por sus siglas en inglés), tal como aproximadamente o más de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más NLS. En algunos casos, la nucleasa modificadas por ingeniería comprende aproximadamente o más de aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10 o más NLS en o cerca del extremo amino, aproximadamente o más de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más NLS en o cerca del extremo carboxi, o una combinación de estas (por ejemplo, una o más NLS en el extremo amino y una o más NLS en el extremo carboxi). Cuando hay más de una<n>L<s>, cada una puede seleccionarse independientemente de las otras, de manera que una sola NLS puede estar presente en más de una copia y/o en combinación con una o más NLS presentes en una o más copias. En un caso preferido, la nucleasa modificada por ingeniería comprende como máximo 6 NLS. En algunos casos, una NLS se considera cerca del extremo N o C cuando el aminoácido más cercano de la NLS está a una distancia de aproximadamente 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50 o más aminoácidos a lo largo de la cadena polipeptídica del extremo N o C. Los ejemplos no limitantes de NLS incluyen una secuencia NLS derivada de: la NLS del antígeno T grande del virus SV40, que tiene la secuencia de aminoácidos PKKKRKV (SEQ ID NO: 111); la NLS de nucleoplasmina (por ejemplo, la NLS de nucleoplasmina bipartita con la secuencia KRPAATKKAGQAKKKK (SEQ ID NO: 112)); la NLS de c-myc que tiene la secuencia de aminoácidos PAAKRVKLD (SEQ ID NO: 113) o RQRRNELKRSP (S<e>Q ID NO: 114); la NLS de hRNPA1 M9 que tiene la secuencia NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 115); la secuencia RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO: 1116) del dominio IBB de la importina-alfa; las secuencias VSRKRPRP (SEQ ID NO:117) y PPKKARED (SEQ ID NO:118) de la proteína T de mioma; la secuencia PQPKKKPL (SEQ ID NO: 119) de p53 humana; la secuencia SALIKKKKKMAP (SEQ ID NO: 120) de c-abl IV de ratón; las secuencias DRLRR (SEQ ID NO: 121) y PKQKKRK (SEQ ID NO: 122) de NS1 del virus de la gripe; la secuencia RKLKKKIKKL (SEQ ID NO: 123) del antígeno delta del virus de la hepatitis; la secuencia REKKKFLKRR (SEQ ID NO: 124) de la proteína Mx1 de ratón; la secuencia KRKGDEVDGVDEVAKKKSKK (SEQ ID NO: 125) de la poli(ADP-ribosa) polimerasa humana; y la secuencia RKCLQAGMNLEARKTKK (SEQ ID NO: 126) de los receptores de hormonas esteroideas (humanos) conocidos como receptores de glucocorticoides.
En general, una o más NLS tienen la fuerza suficiente para impulsar la acumulación de la nucleasa guiada por ácido nucleico en una cantidad detectable en el núcleo de una célula eucariota. En general, la fuerza de la actividad de ubicación nuclear puede derivar del número de NLS, la una o más NLS particulares utilizadas, o una combinación de estos factores. La detección de la acumulación en el núcleo puede realizarse mediante cualquier técnica adecuada. Por ejemplo, puede fusionarse un marcador detectable a la nucleasa guiada por ácido nucleico, de manera que pueda visualizarse la ubicación dentro de una célula, tal como en combinación con un medio para detectar la ubicación del núcleo (por ejemplo, una tinción específica para el núcleo tal como DAPI). Los núcleos celulares también pueden aislarse de las células, cuyos contenidos pueden analizarse a continuación mediante cualquier proceso adecuado para detectar proteínas, tal como inmunohistoquímica, transferencia Western o ensayo de actividad enzimática. La acumulación en el núcleo también puede determinarse indirectamente, tal como mediante un ensayo para determinar el efecto de la formación de complejo de nucleasa guiada por ácido nucleico (por ejemplo, un ensayo para la escisión o mutación de ADN en la secuencia diana, o un ensayo para determinar la actividad de expresión génica alterada afectada por la formación de complejo de nucleasa direccionable y/o la actividad guiada por ácido nucleico), en comparación con un control no expuesto al complejo de nucleasa guiada por ácido nucleico o nucleasa direccionable, o expuesto a una nucleasa guiada por ácido nucleico que carece de una o más NLS.
Una nucleasa guiada por ácido nucleico y uno o más ácidos nucleicos guía pueden suministrarse como ADN o ARN. El suministro de una nucleasa guiada por ácido nucleico y ácido nucleico guía como moléculas de ARN (sin modificar o que contienen modificaciones de bases o de cadena principal) puede usarse para reducir la cantidad de tiempo que la nucleasa guiada por ácido nucleico persiste en la célula. Esto puede reducir el nivel de actividad de escisión fuera de la diana en la célula diana. Puesto que el suministro de una nucleasa guiada por ácido nucleico como ARNm requiere tiempo para traducirse en proteína, podría ser ventajoso suministrar el ácido nucleico guía varias horas después del suministro del ARNm de nucleasa guiada por ácido nucleico, para maximizar el nivel de ácido nucleico guía disponible para la interacción con la proteína nucleasa guiada por ácido nucleico. En otros casos, el ARNm de nucleasa guiada por ácido nucleico y el ácido nucleico guía se suministran simultáneamente. En otros ejemplos, el ácido nucleico guía se suministra secuencialmente, tal como 0,5, 1,2, 3, 4 o más horas después del ARNm de nucleasa guiada por ácido nucleico.
En situaciones donde la cantidad de ácido nucleico guía es limitante, puede ser deseable introducir una nucleasa guiada por ácido nucleico como ARNm y un ácido nucleico guía en forma de un casete de expresión de ADN con un promotor que impulsa la expresión del ácido nucleico guía. De esta manera, la cantidad de ácido nucleico guía disponible se amplificará a través de transcripción.
El ácido nucleico guía en forma de ARN o codificado en un casete de expresión de ADN puede introducirse en una célula hospedadora que comprende una nucleasa guiada por ácido nucleico codificada en un vector o cromosoma. El ácido nucleico guía puede proporcionarse en los uno o más polinucleótidos de casete, que pueden ser contiguos o no contiguos en el casete. En casos específicos, el ácido nucleico guía se proporciona en el casete en forma de un único polinucleótido contiguo.
Puede usarse una diversidad de sistemas de suministro para introducir una nucleasa guiada por ácido nucleico (ADN o ARN) y ácido nucleico guía (ADN o ARN) en una célula hospedadora. Estos incluyen el uso de sistemas de levadura, sistemas de lipofección, sistemas de microinyección, sistemas biolísticos, virosomas, liposomas, inmunoliposomas, policationes, conjugados de lípido:ácido nucleico, viriones, viriones artificiales, vectores víricos, electroporación, péptidos permeables en células, nanopartículas, nanocables (Shaleket al.,Nano Letters, 2012), exosomas. Pueden usarse liposomas caballo de Troya moleculares (Pardridgeet al.,Cold Spring Harb Protoc; 2010; doi:10.1101/pdb.prot5407) para suministrar una nucleasa modificada por ingeniería y guiar una nucleasa a través de la barrera hematoencefálica.
En algunos casos, también se proporciona un molde de edición. Un molde de edición puede ser un componente de un vector como se describe en el presente documento, contenido en un vector separado, o proporcionado como un polinucleótido, tal como un oligonucleótido, polinucleótido lineal o polinucleótido sintético. En algunos casos, un molde de edición está en el mismo polinucleótido que un ácido nucleico guía. En algunas realizaciones, un molde de edición se diseña para que sirva como molde en la recombinación homóloga, tal como dentro o cerca de una secuencia diana cortada o escindida por una nucleasa guiada por ácido nucleico como parte de un complejo como se desvela en el presente documento. Un polinucleótido molde de edición puede tener cualquier longitud adecuada, tal como aproximadamente o más de aproximadamente 10, 15, 20, 25, 50, 75, 100, 150, 200, 500, 1000 o más nucleótidos de longitud. En algunos casos, el polinucleótido molde de edición es complementario a una porción de un polinucleótido que comprende la secuencia diana. Cuando se alinean de forma óptima, un polinucleótido molde de edición podría superponerse con uno o más nucleótidos de una secuencia diana (por ejemplo, aproximadamente o más de aproximadamente 1, 5, 10, 15, 20, 25, 30, 35, 40 o más nucleótidos). En algunos casos, cuando una secuencia molde de edición y un polinucleótido que comprende una secuencia diana se alinean de manera óptima, el nucleótido más próximo del polinucleótido molde está dentro de aproximadamente 1, 5, 10, 15, 20, 25, 50, 75, 100, 200, 300, 400, 500, 1000, 5000, 10000 o más nucleótidos de la secuencia diana.
En muchos ejemplos, un molde de edición comprende al menos una mutación en comparación con la secuencia diana. Un molde de edición puede comprender una inserción, supresión, modificación o cualquier combinación de las mismas en comparación con la secuencia diana. En una sección posterior se describen con más detalle ejemplos de algunos moldes de edición.
En algunos aspectos, la divulgación proporciona métodos que comprenden suministrar uno o más polinucleótidos, tales como o uno o más vectores o polinucleótidos lineales como se describen en el presente documento, uno o más transcritos de los mismos y/o una o más proteínas transcritas a partir de los mismos, a una célula hospedadora. En algunos aspectos, la divulgación proporciona además células producidas mediante dichos métodos y los organismos comprendidos o producidos a partir de dichas células. En algunos casos, se suministra a una célula una nucleasa modificada por ingeniería en combinación con (y opcionalmente complejada con) un ácido nucleico guía.
Pueden usarse métodos convencionales de transferencia de genes víricos y no víricos para introducir ácidos nucleicos en células, tales como células procariotas, células eucariotas, células de mamíferos o tejidos diana. Dichos métodos pueden usarse para administrar ácidos nucleicos que codifican componentes de un sistema de nucleasa guiada por ácido nucleico modificada por ingeniería a células en cultivo o en un organismo hospedador. Los sistemas de suministro de vectores no víricos incluyen plásmidos de ADN, ARN (por ejemplo, un transcrito de un vector descrito en el presente documento), ácido nucleico desnudo y ácido nucleico complejado con un vehículo de suministro, tal como un liposoma. Los sistemas de suministro de vectores víricos incluyen virus de ADN y ARN, que tienen genomas episómicos o integrados después del suministro a la célula. Para una revisión de los procedimientos de terapia génica, véase Anderson, Science 256:808-813 (1992); Nabel y Feigner, TIBTECH 11:211-217 (1993); Mitani y Caskey, TIBTECH 11:162-166 (1993); Dillon. TIBTECH 11:167-175 (1993); Miller, Nature 357:455-460 (1992); Van Brunt, Biotechnology 6(10):1149-1154 (1988); Vigne, Restorative Neurology and Neuroscience 8:35-36 (1995); Kremer y Perricaudet, British Medical Bulletin 51(1):31-44 (1995); Haddadaet al.,en Current Topics in Microbiology and Immunology Doerfler and Bohm (eds) (1995); y Yuet al.,Gene Therapy 1:13-26 (1994).
Los métodos de suministro no vírico de ácidos nucleicos incluyen lipofección, microinyección, biolística, virosomas, liposomas, inmunoliposomas, policatión o conjugados de lípido:ácido nucleico, ADN desnudo, viriones artificiales y captación de ADN potenciada por un agente. La lipofección se describe en, por ejemplo, las Patentes de los EE.UU. N.° 5.049.386, 4.946.787; y 4.897.355) y los reactivos de lipofección se comercializan en el mercado (por ejemplo, Transfectam™ y Lipofectin™). Los lípidos catiónicos y neutros que son adecuados para la lipofección eficiente de polinucleótidos con reconocimiento de receptor incluyen aquellos de Felgner, documento WO 91/17424; documento WO 91/16024. El suministro puede ser a células (por ejemplo, administraciónin vitrooex vivo)o a tejidos diana (por ejemplo, administraciónin vivo).
La preparación de los complejos de lípido:ácido nucleico, incluyendo los liposomas diana tales como complejos de inmunolípidos, es muy conocida por el experto en la materia (véase, por ejemplo, Crystal, Science 270:404-410 (1995); Blaeseet al.,Cancer Gene Ther. 2:291-297 (1995); Behret al.,Bioconjugate Chem. 5:382-389 (1994); Remyet al.,Bioconjugate Chem. 5:647-654 (1994); Gaoet al.,Gene Therapy 2:710-722 (1995); Ahmadet al.,Cáncer Res.
52:4817-4820 (1992); las Pat. de los EE.UU. N.° 4.186.183, 4.217.344, 4.235.871, 4.261.975, 4.485.054, 4.501.728, 4.774.085, 4.837.028 y 4.946.787).
El uso de sistemas basados en ARN o ADN vírico para el suministro de ácidos nucleicos aprovecha procesos altamente evolucionados para el direccionamiento de un virus a células específicas en cultivo o en el hospedador y el transporte de la carga vírica al núcleo o genoma de la célula hospedadora. Los vectores víricos pueden administrarse directamente a células en cultivo, pacientes(in vivo),o pueden usarse para tratar célulasin vitro,y las células modificadas pueden administrarse opcionalmente a pacientes(ex vivo).Los sistemas convencionales a base de virus podrían incluir vectores retrovíricos, lentivirus, adenovíricos, adenoasociados y del virus del herpes simple para la transferencia de genes. La integración en el genoma del hospedador es posible con los métodos de transferencia génica de retrovirus, lentivirus, y virus adenoasociados, lo que con frecuencia da como resultado la expresión a largo plazo del transgén insertado. Adicionalmente, se han observado altas eficiencias de transducción en muchos tipos diferentes celulares y tejidos diana.
El tropismo de un retrovirus puede alterarse incorporando proteínas de la envoltura extrañas, expandiendo la población diana potencial de células diana. Los vectores lentivíricos son vectores retrovíricos que son capaces de transducir o infectar células que no se dividen y normalmente producen títulos víricos altos. La selección de un sistema de transferencia génica retrovírico dependería por lo tanto del tejido diana. Los vectores retrovíricos están compuestos por repeticiones terminales largas que actúan en cis con capacidad de empaquetamiento de hasta 6-10 kb de secuencia extraña. Las LTR que actúan encismínimas son suficientes para la replicación y el empaquetamiento de los vectores, que se usan después para integrar el gen terapéutico en la célula diana para proporcionar una expresión transgénica permanente. Los vectores retrovíricos ampliamente utilizados incluyen los basados en el virus de la leucemia murina (MuLV), el virus de leucemia del gibón (GaLV), el virus de la inmunodeficiencia de simios (SIV), virus de la inmunodeficiencia humana (VIH) y combinaciones de los mismos (véase, por ejemplo, Buchscheret al.,J. Virol.
66:2731-2739 (1992); Johannet al.,J. Virol. 66: 1635-1640 (1992); Sommnerfeltet al.,Virol. 176:58-59 (1990); Wilsonet al.,J. Virol. 63:2374-2378 (1989); Milleret al.,J. Virol. 65:2220-2224 (1991); documento PCT/US94/05700).
En aplicaciones en las que se prefiere la expresión transitoria, pueden usarse sistemas basados en adenovirus. Los vectores basados en adenovirus son capaces de una eficacia de transducción muy alta en muchos tipos celulares y no requieren división celular. Con dichos vectores, se han obtenido un alto título y altos niveles de expresión. Este vector puede producirse en grandes cantidades en un sistema relativamente simple.
Los vectores de virus adenoasociados ("AAV") también pueden usarse para transducir células con ácidos nucleicos diana, por ejemplo, en la producciónin vitrode ácidos nucleicos y péptidos, y para procedimientos de terapia génicain vivoyex vivo(véase, por ejemplo, Westet al.,Virology 160:38-47 (1987); Patente de los EE.UU. N.° 4.797.368; documento WO 93/24641; Kotin, Human Gene Therapy 5:793-801 (1994); Muzyczka, J. Clin. Invest. 94:1351 (1994). La construcción de vectores de AAV recombinantes se describe en varias publicaciones, incluyendo la Pat. de los EE.UU. N.° 5.173.414; Tratschinet al.,Mol. Cell. Biol. 5:3251-3260 (1985); Tratschin,et al.,Mol. Cell. Biol. 4:2072-2081 (1984); Hermonat y Muzyczka, PNAS 81:6466-6470 (1984); y Samulskiet al.,J. Virol. 63:03822-3828 (1989).
En algunos casos, una célula hospedadora se transfecta de forma transitoria o no transitoria con uno o más vectores, polinucleótidos lineales, polipéptidos, complejos de ácido nucleico-proteína o cualquier combinación de los mismos como se describe en el presente documento. En algunos casos, una célula transfectadain vitro,en cultivo oex vivo.En algunos casos, una célula se transfecta como se produce de forma natural en un sujeto. En algunos casos, se toma una célula transfectada de un sujeto. En algunos casos, la célula procede de células extraídas de un sujeto, tal como una estirpe celular.
En algunos casos, una célula transfectada con uno o más vectores, polinucleótidos lineales, polipéptidos, los complejos de ácido nucleico-proteína, o cualquier combinación de los mismos como se describe en el presente documento, se usan para establecer una nueva estirpe celular que comprende una o más secuencias derivadas de la transfección. En algunos casos, una célula transfectada transitoriamente con los componentes de un sistema de nucleasa guiada por ácido nucleico modificada por ingeniería como se describe en el presente documento (tal como por transfección transitoria de uno o más vectores, o transfección con ARN), y modificada a través de la actividad de un complejo de nucleasa modificada por ingeniería, se usa para establecer una nueva estirpe celular que comprende células que contienen la modificación pero que carecen de cualquier otra secuencia exógena.
En algunos casos, uno o más vectores descritos en el presente documento se usan para producir una célula transgénica no humana, organismo, animal o planta. En algunos casos, el animal transgénico es un mamífero, tal como un ratón, rata o conejo. Se conocen en la técnica métodos para producir células transgénicas, organismos, plantas y animales, y generalmente comienzan con un método de transformación o transfección celular, tal como se describe en el presente documento.
Los eventos de escisión fuera de la diana pueden analizarse usando los métodos desvelados en el presente documento. Los eventos de escisión fuera de la diana pueden ser eventos de escisión que ocurren en una ubicación de secuencia de ácido nucleico distinta de la secuencia diana prevista, convirtiéndolos de este modo en una secuencia diana no prevista. En general, puede generarse una biblioteca de vectores como se desvela en el presente documento, comprendiendo dicho vector una secuencia diana o secuencia diana no prevista adyacente a una secuencia de PAM. Dentro de una biblioteca de dicho vector, la secuencia diana o secuencia diana no prevista puede variar entre los diferentes vectores de manera que se pueden cribar o someter a ensayo numerosas secuencias diana o secuencias diana no previstas diferentes dentro de un único experimento o de una manera de alto rendimiento. Dicho vector puede comprender un código de barras u otro identificador único que permita la identificación de la secuencia diana o de la secuencia diana no prevista que ha de someterse a ensayo. Dicho vector puede comprender un marcador seleccionable o un marcador cribable. Dicho vector puede comprender una secuencia de ácido nucleico guía. Dicho ácido nucleico guía puede comprender una secuencia diana capaz de dirigirse a secuencias diana compatibles dentro del vector. Dicho ácido nucleico guía puede comprender una secuencia del armazón. Después, la biblioteca de vectores puede introducirse en células hospedadoras, comprendiendo dichas células hospedadoras una nucleasa sujeto. Dicha nucleasa sujeto puede expresarse a partir del mismo vector o un vector diferente que se introduce en la célula ya sea simultáneamente, anteriormente o posteriormente al vector de ácido nucleico guía. En otros casos, la nucleasa sujeto puede introducirse en la célula en forma de un transcrito de ARNm. En otros casos, la nucleasa sujeto puede introducirse en la célula en forma de una proteína. Sin desear quedar ligados a teoría alguna, dentro de cada célula, el ácido nucleico guía se expresaría y formaría complejo con la nucleasa sujeto. Entonces el ácido nucleico guía puede dirigir la nucleasa a secuencias diana compatibles. En algunos casos, si el ácido nucleico guía es capaz de hibridarse con la secuencia diana o con la secuencia diana no prevista, entonces la nucleasa sujeto puede escindir la secuencia diana o secuencia diana no prevista. Este evento de escisión provocaría que la célula hospedadora pierda el vector que comprende la secuencia diana o pierda la función del marcador direccionable o marcador cribable y, por lo tanto, la célula hospedadora moriría en una selección o se perdería durante el cribado. Por otra parte, si el ácido nucleico guía no es capaz de hibridarse con la secuencia diana no prevista, entonces la secuencia diana no prevista no se escindiría y, por lo tanto, la célula hospedadora mantendría el marcador seleccionable o cribable. Comparando los vectores de entrada con los seleccionados o cribados para vectores de las células hospedadoras de salida supervivientes o seleccionadas, pueden identificarse vectores que se han agotado. Mediante la secuenciación o el análisis del código de barras o el identificador único de los vectores de entrada y los vectores de salida, pueden identificarse los códigos de barras o identificadores únicos que se han agotado, lo que permitiría la identificación de las secuencias diana o secuencias diana no previstas que estaban agotadas. Las secuencias diana agotadas o secuencias diana no previstas incluirían aquellas que fueron capaces de hibridarse con el ácido nucleico guía y, por lo tanto, pudieron ser escindidas por la nucleasa sujeto. Las secuencias diana no previstas agotadas comprenderían los eventos de escisión fuera de la diana o las secuencias fuera de la diana que pudieron ser escindidas por el sistema de nucleasa sujeto.
Las secuencias diana no deseadas que han de someterse a ensayo o cribarse en ensayos fuera de la diana desvelados en el presente documento pueden ser variantes de una secuencia diana conocida a la que ha de dirigirse un ácido nucleico guía sujeto. Por ejemplo, usando la secuencia diana conocida de interés, las secuencias diana no deseadas pueden diseñarse para comprender inserciones, supresiones, reordenamientos u otras alteraciones de secuencia en comparación con la secuencia diana conocida. Dichas alteraciones de secuencia pueden comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleótidos. Los nucleótidos alterados pueden ser contiguos o no contiguos.
Los métodos para calcular y evaluar el agotamiento descritos anteriormente también son aplicables al cálculo y la evaluación del agotamiento en estos casos.
Otros ensayos de evaluación fuera de la diana implicaron la secuenciación del genoma del organismo hospedador con el fin de identificar los eventos de escisión fuera de la diana, que con frecuencia son identificables debido a mutaciones en la secuencia tales como inserción, supresión y mutación de uno o más nucleótidos. Por lo tanto, estos otros métodos están limitados por la secuencia genómica de la célula hospedadora cuando se evalúan los efectos fuera de la diana del sistema de nucleasa sujeto. Los ensayos sujeto desvelados en el presente documento permiten un método mucho más robusto y de alto rendimiento de identificación de efectos fuera de la diana para prácticamente cualquier secuencia y no están limitados por la secuencia genómica de la célula hospedadora.
Métodos de uso
En el contexto de la formación de un complejo de nucleasa modificada por ingeniería, "secuencia diana" se refiere a una secuencia para la que se diseña una secuencia guía para que tenga complementariedad, donde la hibridación entre una secuencia diana y una secuencia guía promueve la formación de un complejo de nucleasas modificada por ingeniería. Una secuencia diana puede comprender cualquier polinucleótido, tal como DNA, ARN o un híbrido de<a>DN-ARN. Una secuencia diana puede ubicarse en el núcleo o citoplasma de una célula. Una secuencia diana puede ubicarsein vitroo en un entorno sin células.
Normalmente, la formación de un complejo de nucleasa modificada por ingeniería que comprende un ácido nucleico guía hibridado con una secuencia diana y complejado con una o más nucleasas modificadas por ingeniería como se desvelan en el presente documento da como resultado la escisión de una o ambas cadenas en o cerca de (por ejemplo, a una distancia de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50 o más pares de bases de) la secuencia diana. La escisión puede producirse dentro de una secuencia diana, 5' de la secuencia diana, en dirección 5' de una secuencia diana, 3' de la secuencia diana o en dirección 3' de una secuencia diana.
En algunos casos, uno o más vectores que impulsan la expresión de uno o más componentes de un sistema de nucleasa direccionable se introducen en una célula hospedadora oin vitrodicha formación de un complejo de nucleasa direccionable en uno o más sitios diana. Por ejemplo, una nucleasa guiada por ácido nucleico y un ácido nucleico guía podrían unirse operativamente cada uno a elementos reguladores separados en vectores separados. Como alternativa, dos o más de los elementos expresados a partir del mismo o diferentes elementos reguladores, pueden combinarse en un único vector, con uno o más vectores adicionales que proporcionan cualquier componente del sistema de nucleasa direccionable no incluido en el primer vector. Los elementos del sistema de nucleasa direccionable que se combinan en un único vector pueden disponerse en cualquier orientación adecuada, tal como un elemento ubicado en 5 'con respecto a ("dirección 5'" de) o en 3' con respecto a ("dirección 3'" de) un segundo elemento. La secuencia codificante de un elemento puede ubicarse en la misma cadena o en la cadena opuesta de la secuencia codificante de un segundo elemento y puede orientarse en la misma dirección u opuesta. En algunos casos, un único promotor impulsa la expresión de un transcrito que codifica una nucleasa guiada por ácido nucleico y uno o más ácidos nucleicos guía. En algunos casos, una nucleasa guiada por ácido nucleico y uno o más ácidos nucleicos guía están unidos operativamente y se expresan a partir del mismo promotor. En otros casos, uno o más ácidos nucleicos guía o polinucleótidos que codifican el uno o más ácidos nucleicos guía se introducen en una célula o entornoin vitroque ya comprende una nucleasa guiada por ácido nucleico o secuencia de polinucleótidos que codifica la nucleasa guiada por ácido nucleico.
Cuando se usan múltiples secuencias guía diferentes, puede usarse una única construcción de expresión para dirigir la actividad nucleasa a múltiples secuencias diana diferentes correspondientes dentro de una célula oin vitro.Por ejemplo, un único vector puede comprender aproximadamente o más de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 o más secuencias guía. En algunos casos, pueden proporcionarse aproximadamente o aproximadamente más de 1,2, 3, 4, 5, 6, 7, 8, 9, 10, o más, de dichos vectores que contienen secuencias guía y suministrarse opcionalmente a una célula oin vitro.
Los métodos y composiciones desvelados en el presente documento pueden comprender más de un ácido nucleico guía, en donde cada ácido nucleico guía tiene una secuencia guía diferente, dirigiéndose de este modo a una secuencia diana diferente. En dichos casos, pueden usarse múltiples ácidos nucleicos guía en la multiplexación, en donde múltiples dianas son diana simultáneamente. Adicionalmente o como alternativa, los múltiples ácidos nucleicos guía se introducen en una población de células, de manera que cada célula de una población recibió un ácido nucleico guía diferente o aleatorio, dirigiéndose de este modo a múltiples secuencias diana diferentes en una población de células. En dichos casos, la colección de células alteradas posteriormente puede denominarse biblioteca.
Los métodos y composiciones desvelados en el presente documento pueden comprender múltiples nucleasas guiadas por ácidos nucleicos diferentes, cada uno con uno o más ácidos nucleicos guía correspondientes diferentes, permitiendo de este modo el direccionamiento de diferentes secuencias diana mediante nucleasas guiadas por ácidos nucleicos diferentes. En algunos de dichos casos, cada nucleasa guiada por ácido nucleico puede corresponder a una pluralidad distinta de ácidos nucleicos guía, permitiendo dos o más eventos de multiplexación no superpuestos, parcialmente superpuestos o totalmente superpuestos.
En algunos casos, la nucleasa guiada por ácido nucleico tiene actividad de escisión de ADN o actividad de escisión de ARN. En algunos casos, la nucleasa dirigida por ácido nucleico dirige la escisión de una o ambas cadenas en la ubicación de una secuencia diana, tal como dentro de la secuencia diana y/o dentro del complemento de la secuencia diana. En algunos casos, la nucleasa guiada por ácido nucleico dirige la escisión de una o ambas cadenas a una distancia de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 200, 500 o más pares de bases desde el primer o último nucleótido de una secuencia diana.
En algunos casos, una nucleasa guiada por ácido nucleico puede formar un componente de un sistema inducible. La naturaleza inducible del sistema permitiría el control espaciotemporal de la edición génica o de la expresión génica usando una forma de energía. La forma de energía puede incluir, pero sin limitación, radiación electromagnética, energía acústica, energía química, energía luminosa, temperatura y energía térmica. Los ejemplos de sistema inducible incluyen promotores inducibles por tetraciclina (Tet-On o Tet-Off), sistemas de activación de transcripción de dos híbridos de molécula pequeña (FKBP, ABA, etc.) o sistemas inducibles por luz (Fitocromo, dominios LOV o criptocromo). En un caso, la nucleasa guiada por ácido nucleico puede ser parte de un Efector transcripcional inducible por luz (LITE) para dirigir cambios en la actividad transcripcional de una manera específica de secuencia. Los componentes de un sistema inducible por luz pueden incluir una nucleasa guiada por ácido nucleico, un heterodímero citocromo sensible a la luz (por ejemplo, deArabidopsis thaliana)y un dominio de activación/represión transcripcional. Se proporcionan ejemplos adicionales de proteínas de unión a ADN inducibles y métodos para su uso en los documentos U.S. 61/736465 y U.S. 61/721.283. Un sistema inducible puede ser inducible por temperatura de manera que el sistema se activa o inactiva aumentando o disminuyendo la temperatura. En algunos sistemas inducibles por temperatura, aumentar la temperatura activa el sistema. En algunos sistemas inducibles por temperatura, aumentar la temperatura inactiva el sistema.
En algunos aspectos, la divulgación proporciona métodos de modificación de una secuencia dianain vitroo en una célula procariota o eucariota, cual puede serin vivo, ex vivooin vitro.En algunos casos, el método comprende muestrear una célula o población de células tales como células procariotas, o aquellas de un animal o planta humano o no humano (incluyendo microalgas) y modificar la célula o células. El cultivo puede producirse en cualquier fasein vitrooex vivo.La célula o células pueden incluso reintroducirse en el hospedador, tal como un animal no humano o planta (incluyendo microalgas). Para las células reintroducidas se prefiere particularmente que las células sean células madre.
En algunos casos, el método comprende permitir que un complejo de nucleasa direccionable se una a la secuencia diana para efectuar la escisión de dicha secuencia diana, modificando de este modo la secuencia diana, en donde el complejo de nucleasa direccionable comprende una nucleasa guiada por ácido nucleico complejada con un ácido nucleico guía en donde la secuencia guía del ácido nucleico guía se hibrida con una secuencia diana dentro de un polinucleótido diana.
En algunos aspectos, la divulgación proporciona un método de identificación de la expresión de un polinucleótido diana enin vitroo en una célula procariota o eucariota. En algunos casos, el método comprende permitir que un complejo de nucleasa direccionable se una a una secuencia diana con el polinucleótido diana de manera que dicha unión dé como resultado una expresión aumentada o disminuida de dicho polinucleótido diana; en donde el complejo de nucleasa direccionable comprende una nucleasa guiada por ácido nucleico complejada con un ácido nucleico guía, y en donde la secuencia guía del ácido nucleico guía se hibrida con una secuencia diana dentro de dicho polinucleótido diana. Se aplican consideraciones similares a las anteriores para los métodos de modificación de un polinucleótido diana. De hecho, estas opciones de muestreo, cultivo y reintroducción se aplican en todos los aspectos de la presente invención.
En algunos aspectos, la divulgación proporciona métodos para usar uno o más elementos de un sistema de nucleasa direccionable modificado por ingeniería. Un complejo de nucleasa direccionable de la divulgación proporciona un medio eficaz para modificar una secuencia diana dentro de un polinucleótido diana. Un complejo de nucleasa direccionable de la divulgación tiene una amplia diversidad de utilidades que incluyen modificar (por ejemplo, suprimir, insertar, translocar, inactivar, activar) un polinucleótido diana en una multiplicidad de tipos celulares. Como un complejo de nucleasa direccionable de este tipo de la invención tiene un amplio espectro de aplicaciones en, por ejemplo, optimización de la vía bioquímica, estudios de todo el genoma, ingeniería genómica, genoterapia, cribado de fármacos, diagnóstico y pronóstico de enfermedades. Un complejo de nucleasa direccionable de ejemplo comprende una nucleasa guiada por ácido nucleico como se desvela en el presente documento complejada con un ácido nucleico guía, en donde la secuencia guía del ácido nucleico guía puede hibridarse con una secuencia diana dentro del polinucleótido diana. Un ácido nucleico guía puede comprender una secuencia guía unida a una secuencia del armazón. Una secuencia del armazón puede comprender una o más regiones de secuencia con un grado de complementariedad de manera que juntas formen una estructura secundaria. En algunos casos, la una o más regiones de secuencia están comprendidas o codificadas en el mismo polinucleótido. En algunos casos, la una o más regiones de secuencia están comprendidas o codificadas en polinucleótidos separados.
En el presente documento se proporcionan métodos de escisión de un polinucleótido diana. El método comprende escindir un polinucleótido diana usando un complejo de nucleasa direccionable que se une a una secuencia diana dentro de un polinucleótido diana y efectúa la escisión de dicho polinucleótido diana. Normalmente, el complejo de nucleasa direccionable de la invención, cuando se introduce en una célula, crea una rotura (por ejemplo, una rotura de cadena monocatenaria o bicatenaria) en la secuencia diana. Por ejemplo, el método puede usarse para escindir un gen diana en una célula o para reemplazar una secuencia de tipo silvestre con una secuencia modificada.
La rotura creada por el complejo de nucleasa escindible puede repararse mediante procesos de reparación tales como la vía de unión de extremos no homólogos (NHEJ, por sus siglas en inglés), propensa a errores, la reparación dirigida por homología (HDR, por sus siglas en inglés) de alta fidelidad, o mediante vías de recombinación. Durante estos procesos de reparación, puede introducirse un molde de edición en la secuencia genómica. En algunos métodos, el proceso de HDR o recombinación se usa para modificar una secuencia diana. Por ejemplo, en una célula se introduce un molde de edición que comprende una secuencia que ha de integrarse flanqueada por una secuencia en dirección 5' y una secuencia en dirección 3'. Las secuencias en dirección 5' y en dirección 3' comparten similitud de secuencia con ambos lados del sitio de integración en el cromosoma, vector diana o polinucleótido diana.
Un molde de edición puede ser ADN o ARN, por ejemplo, un plásmido de ADN, un cromosoma artificial bacteriano (BAC), un cromosoma artificial de levadura (YAC), un vector vírico, un trozo lineal de ADN, un fragmento de PCR, oligonucleótido, polinucleótido sintético, un ácido nucleico desnudo o un ácido nucleico complejado con un vehículo de suministro tal como un liposoma o poloxámero.
Un polinucleótido molde de edición puede comprender una secuencia que ha de integrarse (por ejemplo, un gen mutado). Una secuencia para la integración puede ser una secuencia endógena o exógena a la célula. Los ejemplos de una secuencia que ha de integrarse incluyen polinucleótidos que codifican una proteína o un ARN no codificante (por ejemplo, un microARN). Por lo tanto, la secuencia para la integración puede estar unida operativamente a una secuencia o secuencias de control adecuadas. Como alternativa, la secuencia que ha de integrarse puede proporcionar una función reguladora. La secuencia que ha de integrarse puede ser una forma mutada o variante de una secuencia de tipo silvestre endógena. Como alternativa, la secuencia que ha de integrarse puede ser una versión de tipo silvestre de una secuencia mutada endógena. Adicionalmente o como alternativa, la secuencia que ha de integrarse puede ser una forma variante o mutada de una secuencia mutada o variante endógena.
Pueden seleccionarse secuencias en dirección 5' y en dirección 3' en un polinucleótido molde de edición para promover la recombinación entre el polinucleótido diana de interés y el polinucleótido molde de edición. La secuencia en dirección 5' puede ser una secuencia de ácido nucleico que tenga similitud de secuencia con la secuencia en dirección 5' del sitio diana para la integración. De forma similar, la secuencia en dirección 3' puede ser una secuencia de ácido nucleico que tenga similitud con la secuencia en dirección 3' del sitio diana de integración. Las secuencias en dirección 5' y en dirección 3' en un molde de edición pueden tener un 75 %, 80 %, 85 %, 90 %, 95 % o 100 % de identidad de secuencia con el polinucleótido diana. Preferentemente, las secuencias en dirección 5' y dirección 3' en el polinucleótido molde de edición tienen aproximadamente un 95%, 96%, 97%, 98%, 99% o 100% de identidad de secuencia con el polinucleótido diana. En algunos métodos, las secuencias en dirección 5' y en dirección 3' en el polinucleótido molde de edición tienen aproximadamente un 99 % o un 100 % de identidad de secuencia con el polinucleótido diana.
Una secuencia en dirección 5' o en dirección 3' puede comprender de aproximadamente 20 pb a aproximadamente 2500 pb, por ejemplo, aproximadamente 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400 o 2500 pb. En algunos métodos, la secuencia de ejemplo en dirección 5' o en dirección 3' tiene de aproximadamente 15 pb a aproximadamente 50 pb, de aproximadamente 30 pb a aproximadamente 100 pb, de aproximadamente 200 pb a aproximadamente 2000 pb, de aproximadamente 600 pb a aproximadamente 1000 pb, o más particularmente de aproximadamente 700 pb a aproximadamente 1000 pb.
En algunos métodos, el polinucleótido molde de edición puede comprender además un marcador. Un marcador de este tipo puede facilitar cribar integraciones diana. Los ejemplos de marcadores adecuados incluyen sitios de restricción, proteínas fluorescentes o marcadores seleccionables. El molde de polinucleótido exógeno de la invención puede construirse usando técnicas recombinantes (véase, por ejemplo, Green y Sambrooket al.,2014 y Ausubelet al.,2017).
En un método de ejemplo para modificar un polinucleótido diana mediante la integración de un polinucleótido molde de edición, se introduce una rotura bicatenaria en la secuencia genómica mediante un complejo de nucleasa modificada por ingeniería, la rotura puede repararse a través de recombinación homóloga usando un molde de edición de manera que el molde se integre en el polinucleótido diana. La presencia de una rotura bicatenaria puede aumentar la eficiencia de la integración del molde de edición.
En el presente documento se desvelan métodos para modificar la expresión de un polinucleótido en una célula. Algunos métodos comprenden aumentar o disminuir la expresión de un polinucleótido diana mediante el uso de un complejo de nucleasa direccionable que se une al polinucleótido diana.
En algunos métodos, puede inactivarse un polinucleótido diana para efectuar la modificación de la expresión en una célula. Por ejemplo, tras la unión de un complejo de nucleasa direccionable a una secuencia diana en una célula, el polinucleótido diana se inactiva de manera que la secuencia no se transcriba, la proteína codificada no se produzca o la secuencia no actúe como lo hace la secuencia de tipo silvestre. Por ejemplo, puede inactivarse una secuencia codificante de proteína o microARN de manera que no se produzca la proteína.
En algunos métodos, una secuencia de control puede inactivarse de manera que ya no actúe como una secuencia reguladora. Como se usa en el presente documento, "secuencia reguladora" puede referirse a cualquier secuencia de ácido nucleico que efectúe la transcripción, traducción o accesibilidad de una secuencia de ácido nucleico. Los ejemplos de secuencias reguladoras incluyen, un promotor, un terminador de la transcripción y un potenciador.
Una secuencia diana inactivada puede incluir una mutación de supresión (es decir, supresión de uno o más nucleótidos), una mutación de inserción (es decir, inserción de uno o más nucleótidos) o una mutación sin sentido (es decir, sustitución de un único nucleótido por otro nucleótido de manera que se introduzca un codón de terminación). En algunos métodos, la inactivación de una secuencia diana da como resultado la "inactivación" de la secuencia diana.
Una expresión alterada de uno o más polinucleótidos diana asociados a una vía bioquímica de señalización puede determinarse mediante el análisis de una diferencia en los niveles de ARNm de los genes correspondientes entre la célula modelo de ensayo y una célula de control, cuando se ponen en contacto con un agente candidato. Como alternativa, la expresión diferencial de las secuencias asociadas a una vía bioquímica de señalización se determina mediante la detección de una diferencia en el nivel del polipéptido o producto génico codificado.
Para someter a ensayo una alteración inducida por un agente en el nivel de transcritos de ARNm o polinucleótidos correspondientes, se extrae en primer lugar el ácido nucleico contenido en una muestra de acuerdo con los métodos convencionales en la materia. Por ejemplo, el ARNm puede aislarse usando diversas enzimas líticas o soluciones químicas de acuerdo con los procedimientos expuestos en Green y Sambrook (2014), o se extraen mediante resinas de unión a ácidos nucleicos siguiendo las instrucciones adjuntas proporcionadas por los fabricantes. Después, se detecta el ARNm contenido en la muestra de ácido nucleico extraído mediante procedimientos de amplificación o ensayos de hibridación convencionales (por ejemplo, análisis de transferencia Northern) de acuerdo con métodos ampliamente conocidos en la materia o basados en los métodos ejemplificados en el presente documento.
Para los fines de la presente divulgación, amplificación significa cualquier método que emplee un cebador y una polimerasa capaces de replicar una secuencia diana con una fidelidad razonable. La amplificación puede realizarse mediante ADN polimerasas naturales o recombinantes, tales como TaqGold™, ADN polimerasa T7, fragmento Klenow de ADN polimerasa deE. coliy transcriptasa inversa. Un método de amplificación preferido es la PCR. En particular, el ARN aislado puede someterse a un ensayo de transcripción inversa que se acopla con una reacción en cadena de polimerasa cuantitativa (RT-PCR) con el fin de cuantificar el nivel de expresión de una secuencia asociada a una vía bioquímica de señalización.
La detección del nivel de expresión génica puede realizarse en tiempo real en un ensayo de amplificación. En un aspecto, los productos amplificados pueden visualizarse directamente con agentes de unión a ADN fluorescentes que incluyen, pero sin limitación, intercaladores de ADN y compuestos de unión al surco de ADN. Debido a que la cantidad de los intercaladores incorporados en las moléculas de ADN bicatenario es, normalmente, proporcional a la cantidad de los productos de ADN amplificados, puede determinarse convenientemente la cantidad de los productos amplificados mediante la cuantificación de la fluorescencia del colorante intercalado usando sistemas ópticos convencionales. El colorante de unión a ADN adecuado para esta aplicación incluye SYBR verde, SYBR azul, DAPI, yoduro de propidio, Hoeste, SYBR oro, bromuro de etidio, acridinas, proflavina, naranja de acridina, acriflavina, fluorcoumanina, ellipticina, daunomicina, cloroquina, distamicina D, cromomicina, homidio, mitramicina, polipiridilos de rutenio, antramicina y similares.
En otro aspecto, pueden emplearse otros marcadores fluorescentes tales como sondas específicas de secuencia en la reacción de amplificación para facilitar la detección y cuantificación de los productos amplificados. La amplificación cuantitativa basada en sondas se basa en la detección específica de secuencia de un producto amplificado deseado. Utiliza sondas específicas de diana fluorescentes (por ejemplo, sondas TaqMan™) dando como resultado una mayor especificidad y sensibilidad. Los métodos para realizar la amplificación cuantitativa basada en sondas están bien establecidos en la materia y se enseñan en la Pat. de los EE.<u>U. N.° 5.210.015.
En otro aspecto más, pueden realizarse ensayos de hibridación convencionales que usan sondas de hibridación que comparten homología de secuencia con secuencias asociadas a una vía bioquímica de señalización. Normalmente, se permite que las sondas formen complejos estables con las secuencias asociadas a una vía bioquímica de señalización contenida dentro de la muestra biológica procedente del sujeto de ensayo en una reacción de hibridación. Un experto en la materia apreciará que cuando se usa antisentido como el ácido nucleico de la sonda, los polinucleótidos diana proporcionados en la muestra se eligen para que sean complementarios a las secuencias de los ácidos nucleicos antisentido. Por el contrario, cuando la sonda de nucleótidos es un ácido nucleico sentido, el polinucleótido diana se selecciona para que sea complementario a las secuencias del ácido nucleico sentido.
La hibridación puede realizarse en condiciones de diversa rigurosidad, por ejemplo, como se describe en el presente documento. Las condiciones de hibridación adecuadas para la práctica de la presente invención son de manera que la interacción de reconocimiento entre la sonda y las secuencias asociadas a una vía bioquímica de señalización es tanto suficientemente específica como suficientemente estable. Las condiciones que aumentan la rigurosidad de una reacción de hibridación son ampliamente conocidas y están ampliamente publicadas en la técnica. Véase, por ejemplo, (Green and Sambrook,et al.,(2014); Nonradioactive in Situ Hybridization Application Manual, Boehringer Mannheim, segunda edición). El ensayo de hibridación puede formarse usando sondas inmovilizadas sobre cualquier soporte sólido, incluyendo, pero sin limitación, nitrocelulosa, vidrio, silicio y una diversidad de matrices génicas. Un ensayo de hibridación preferido se realiza en chips génicos de alta densidad como se describe en la Pat. de los EE.u U. N.° 5.445.934.
Para una detección conveniente de los complejos de sonda-diana formados durante el ensayo de hibridación, las sondas de nucleótidos se conjugan con un marcador detectable. Los marcadores detectables adecuados para su uso en la presente invención incluyen cualquier composición detectable por medios fotoquímicos, bioquímicos, espectroscópicos, inmunoquímicos, eléctricos, ópticos o químicos. Se conoce en la materia una amplia diversidad de marcadores detectables adecuados, que incluyen marcadores fluorescentes o quimioluminiscentes, marcadores de isótopos radiactivos, ligandos enzimáticos u otros. En realizaciones preferidas, es probable que se desee emplear un marcador fluorescente o un marcador enzimático, tal como digoxigenina, p-galactosidasa, ureasa, fosfatasa alcalina o peroxidasa, complejo de avidina/biotina.
Los métodos de detección utilizados para detectar o cuantificar la intensidad de hibridación dependerán normalmente del marcador seleccionado anteriormente. Por ejemplo, los radiomarcadores pueden detectarse usando una película fotográfica o una placa de fósforo. Los marcadores fluorescentes pueden detectarse y cuantificarse usando un fotodetector para detectar la luz emitida. Los marcadores enzimáticos se detectan normalmente proporcionando a la enzima un sustrato y midiendo el producto de reacción producido mediante la acción de la enzima en el sustrato; y por último los marcadores colorimétricos se detectan simplemente visualizando el marcador coloreado.
Un cambio inducido por un agente en la expresión de secuencias asociadas a una vía bioquímica de señalización también puede determinarse mediante el examen de los productos génicos correspondientes. La determinación del nivel de proteína generalmente implica a) poner en contacto la proteína contenida en una muestra biológica con un agente que se une específicamente a una proteína asociada a una vía bioquímica de señalización; y (b) identificar cualquier complejo agente:proteína formado de este modo. En un aspecto de esta realización, el agente que se une específicamente a una proteína asociada a una vía bioquímica de señalización es un anticuerpo, preferentemente un anticuerpo monoclonal.
La reacción se realiza poniendo en contacto el agente con una muestra de las proteínas asociadas a una vía bioquímica de señalización derivada de las muestras de ensayo en condiciones que permitirán que se forme un complejo entre el agente y las proteínas asociadas a una vía bioquímica de señalización. La formación del complejo puede detectarse directa o indirectamente de acuerdo con los procedimientos convencionales en la técnica. En el método de detección directa, los agentes se suministran con un marcador detectable y los agentes sin reaccionar pueden retirarse del complejo; la cantidad de marcador restante indica, de este modo, la cantidad de complejo formado. Para dicho método, es preferible seleccionar marcadores que permanezcan unidos a los agentes incluso durante condiciones de lavado rigurosas. Es preferible que el marcador no interfiera con la reacción de unión. Como alternativa, un procedimiento de detección indirecta puede usar un agente que contenga un marcador introducido químicamente o enzimáticamente. Un marcador deseable, generalmente, no interfiere con la unión o la estabilidad del complejo agente:polipéptido resultante. Sin embargo, el marcador está modificado, normalmente, para ser accesible a un anticuerpo para una unión eficaz y, por lo tanto, para generar una señal detectable.
Se conoce en la técnica una amplia diversidad de marcadores adecuados para detectar niveles de proteína. Los ejemplos no limitantes incluyen radioisótopos, enzimas, metales coloidales, compuestos fluorescentes, compuestos bioluminiscentes y compuestos quimioluminiscentes.
La cantidad de complejos agente:polipéptido formados durante la reacción de unión puede cuantificarse mediante ensayos cuantitativos convencionales. Como se ha ilustrado anteriormente, la formación del complejo agente:polipéptido puede medirse directamente mediante la cantidad de marcador que permanece en el sitio de unión. En una alternativa, la proteína asociada a una vía bioquímica de señalización se somete a ensayo para determinar su capacidad para competir con un análogo marcado por los sitios de unión en el agente específico. En este ensayo competitivo, la cantidad de marcador capturado es inversamente proporcional a la cantidad de secuencias de proteínas asociadas a una vía bioquímica de señalización presente en una muestra de ensayo.
En la técnica hay disponible una serie de técnicas para el análisis de proteínas basado en los principios generales descritos anteriormente. Incluyen, pero sin limitación, radioinmunoensayos, ELISA (ensayos inmunorradiométricos ligados a enzimas), inmunoensayos en "sándwich", ensayos inmunoradiométricos, inmunoensayosin situ(usando, por ejemplo, marcadores de oro coloidal, enzimas o radioisótopos), análisis de transferencia de Western, ensayos de inmunoprecipitación, ensayos inmunofluorescentes y SDS-PAGE.
Los anticuerpos que específicamente reconocen o se unen a proteínas asociadas a una vía bioquímica de señalización son preferibles para realizar los análisis de proteínas mencionados anteriormente. Cuando se desee, pueden usarse anticuerpos que reconozcan un tipo específico de modificaciones postraduccionales (por ejemplo, modificaciones inducibles de la vía bioquímica de señalización). Las modificaciones postraduccionales incluyen, pero sin limitación, glicosilación, lipidación, acetilación y fosforilación. Estos anticuerpos pueden adquirirse en proveedores comerciales. Por ejemplo, los anticuerpos anti-fosfotirosina que reconocen específicamente las proteínas fosforiladas en tirosina están disponibles en varios proveedores, incluyendo Invitrogen y Perkin Elmer. Los anticuerpos anti-fosfotirosina son particularmente útiles en la detección de proteínas que se fosforilan diferencialmente en sus restos de tirosina en respuesta a un estrés ER. Dichas proteínas incluyen, pero sin limitación, factor 2 alfa de inicio de la traducción eucariota (eIF-2a). Como alternativa, estos anticuerpos pueden generarse usando tecnologías de anticuerpos policlonales o monoclonales convencionales mediante la inmunización de un animal hospedador o una célula productora de anticuerpos con una proteína diana que presenta la modificación postraduccional deseada.
En la práctica de un método sujeto, puede ser deseable discernir el patrón de expresión de una proteína asociada a una vía bioquímica de señalización en diferentes tejidos corporales, en diferentes tipos celulares y/o en diferentes estructuras subcelulares. Estos estudios pueden realizarse con el uso de ensayos específicos de tejido, anticuerpos específicos de células o de estructuras subcelulares capaces de unirse a marcadores de proteínas que se expresan preferentemente en determinados tejidos, tipos celulares o estructuras subcelulares.
Una expresión alterada de un gen asociado a una vía bioquímica de señalización también puede determinarse mediante el examen de un cambio en la actividad del producto génico con respecto a una célula de control. El ensayo de un cambio inducido por el agente en la actividad de una proteína asociada a una vía bioquímica de señalización dependerá de la actividad biológica y/o la vía de transducción de señales que se esté investigando. Por ejemplo, cuando la proteína es una cinasa, puede determinarse un cambio en su capacidad para fosforilar el sustrato o sustratos corriente abajo mediante una diversidad de ensayos conocidos en la materia. Los ensayos representativos incluyen, pero sin limitación, inmunotransferencia e inmunoprecipitación con anticuerpos tales como anticuerpos antifosfotirosina que reconocen proteínas fosforiladas. Además, la actividad cinasa puede detectarse mediante ensayos quimioluminiscentes de alto rendimiento, tales como AlphaScreen™ (disponible en Perkin Elmer) y el ensayo eTag™ (Chan-Hui,et al.(2003)Clinical Immunology111: 162-174).
Cuando la proteína asociada a una vía bioquímica de señalización es parte de una cascada de señalización que conduce a una fluctuación de la condición de pH intracelular, las moléculas sensibles al pH, tales como los colorantes de pH fluorescentes, pueden usarse como moléculas indicadoras. En otro ejemplo en el que la proteína asociada a una vía bioquímica de señalización es un canal iónico, pueden controlarse las fluctuaciones en el potencial de membrana y/o la concentración de iones intracelulares. Un número de kits comerciales y dispositivos de alto rendimiento son particularmente adecuados para una detección rápida y robusta de moduladores de canales iónicos. Los instrumentos representativos incluyen FLIPR™ (Molecular Devices, Inc.) y VIPR (Aurora Biosciences). Estos instrumentos pueden detectar reacciones en más de 1000 pocillos de muestra de una microplaca simultáneamente, y proporcionar mediciones en tiempo real y datos funcionales en un segundo o incluso una fracción del mismo.
En la práctica de cualquiera de los métodos desvelados en el presente documento, puede introducirse un vector adecuado en una célula, tejido, organismo o un embrión no humano a través de uno o más métodos conocidos en la técnica, incluyendo, sin limitación, microinyección, electroporación, sonoporación, biolística, transfección mediada por fosfato de calcio, transfección catiónica, transfección con liposomas, transfección con dendrímeros, transfección por choque térmico, transfección de nucleofección, magnetofección, lipofección, impalefeccion, transfección óptica, absorción de ácidos nucleicos patentada por el agente y el suministro a través de liposomas, inmunoliposomas, virosomas o viriones artificiales. En algunos métodos, el vector o vectores pueden introducirse en una célula mediante nucleofección.
Secuencia diana
Un polinucleótido diana de un complejo de nucleasa dirigible puede ser cualquier polinucleótido endógeno o exógeno a la célula hospedadora. Por ejemplo, el polinucleótido diana puede ser un polinucleótido que reside en el núcleo de la célula eucariota, el genoma de una célula procariota o un vector extracromosómico de una célula hospedadora. El polinucleótido diana puede ser una secuencia que codifica un producto génico (por ejemplo, una proteína) o una secuencia no codificante (por ejemplo, un polinucleótido regulador o un ADN basura).
Los ejemplos de polinucleótidos diana incluyen una secuencia asociada a una vía bioquímica de señalización, por ejemplo, un gen o polinucleótido asociado a la vía bioquímica de señalización. Los ejemplos de polinucleótidos diana incluyen un gen o polinucleótido asociado a enfermedad. Un gen o polinucleótido "asociado a enfermedad" se refiere a cualquier gen o polinucleótido que produce productos de transcripción o traducción a un nivel anómalo o en una forma anómala en células procedentes de tejidos afectados por una enfermedad en comparación tejidos o células de un control sin enfermedad. Puede ser un gen que se expresa en un nivel anormalmente alto; puede ser un gen que se expresa en un nivel anormalmente bajo, donde la expresión alterada se correlaciona con la aparición y/o la progresión de la enfermedad. Un gen asociado a enfermedad también se refiere a un gen que posee mutaciones o variaciones genéticas que son directamente responsables o están en desequilibrio de unión con uno o más genes que es responsable de la etiología de una enfermedad. Los productos transcritos o traducidos pueden ser conocidos o desconocidos, y pueden estar en un nivel normal o anormal.
La divulgación también se refiere a métodos y composiciones relacionadas con la inactivación de genes, la edición de genes, la alteración de genes, la amplificación de genes y la reparación de mutaciones particulares. La alteración de genes también puede significar la manipulación epigenética de una secuencia diana. Este puede ser el estado de la cromatina de una secuencia diana, tal como mediante modificación del estado de metilación de la secuencia diana (es decir, adición o retirada de metilación o patrones de metilación o islas CpG), modificación de histonas, aumentando o reduciendo la accesibilidad a la secuencia diana, o promoviendo el plegamiento 3D. Se apreciará que cuando se hace referencia a un método de modificación de una célula, organismo o mamífero, incluyendo un ser humano o un mamífero u organismo no humano mediante la manipulación de una secuencia diana en un locus genómico de interés, esto puede aplicarse al organismo (o mamífero) en su conjunto o solo a una única célula o población de células de ese organismo (si el organismo es multicelular). En el caso de los seres humanos, por ejemplo, los solicitantes prevén, entre otras cosas, una única célula o una población de células y estas pueden modificarse preferentementeex vivoy después reintroducirse. En este caso, puede ser necesaria una biopsia u otra muestra de tejido o fluido biológico. A este respecto también se prefieren especialmente las células madre. Pero, por supuesto, también se prevén realizacionesin vivo.Y la invención es especialmente ventajosa en lo que respecta a las HSC.
La funcionalidad de un complejo de nucleasa direccionable puede evaluarse mediante cualquier ensayo adecuado. Por ejemplo, los componentes de un sistema de nucleasa direccionable suficientes para formar un complejo de nucleasa direccionable, incluyendo un ácido nucleico guía y una nucleasa guiada por ácido nucleico, pueden proporcionarse a una célula hospedadora que tenga la secuencia diana correspondiente, tal como mediante transfección con vectores que codifican los componentes del sistema de nucleasa modificada por ingeniería, seguida de una evaluación de la escisión preferencial dentro de la secuencia diana. De forma similar, la escisión de una secuencia diana puede evaluarse en un tubo de ensayo proporcionando la secuencia diana y los componentes de un complejo de nucleasa direccionable. Son posibles otros ensayos y se les ocurrirán a los expertos en la materia. Puede seleccionarse una secuencia guía para dirigirse a cualquier secuencia diana. En algunos casos, la secuencia diana es una secuencia dentro de un genoma de una célula. Las secuencias diana ilustrativas incluyen las que son únicas en el genoma diana.
Casete de edición
En el presente documento se describen composiciones y métodos para editar una secuencia de polinucleótidos diana. Dichas composiciones incluyen polinucleótidos que contienen uno o más componentes de un sistema de nucleasa direccionable. Las secuencias de polinucleótidos para su uso en estos métodos pueden denominarse casetes de edición.
Un casete de edición puede comprender uno o más sitios de cebador. Los sitios de cebador pueden usarse para amplificar un casete de edición usando cebadores oligonucleotídicos que comprenden secuencias complementarias inversas que pueden hibridarse con uno o más sitios de cebador. Un casete de edición puede comprender dos o más tiempos de cebador. En ocasiones, un casete de edición comprende un sitio de cebador en cada extremo del casete de edición, flanqueando dichos sitios de cebador uno o más de los otros componentes del casete de edición. Los sitios de cebador pueden tener aproximadamente 10, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26 o más nucleótidos de longitud.
Un casete de edición puede comprender un molde de edición como se desvela en el presente documento. Un casete de edición puede comprender una secuencia de edición. Una secuencia de edición puede ser homóloga a una secuencia diana. Una secuencia de edición puede comprender al menos una mutación con respecto a una secuencia diana. Una secuencia de edición con frecuencia comprende una región de homología (o brazos de homología) que flanquea al menos una mutación con respecto a una secuencia diana, de manera que las regiones de homología flanqueantes faciliten la recombinación homóloga de la secuencia de edición en una secuencia diana. Una secuencia de edición puede comprender un molde de edición como se desvela en el presente documento. Por ejemplo, la secuencia de edición puede comprender al menos una mutación con respecto a una secuencia diana que incluye una o más mutaciones de PAM que mutan o suprimen un sitio de PAM. Una secuencia de edición puede comprender una o más mutaciones en un codón o secuencia no codificante con respecto a un sitio diana no de edición.
Una mutación de PAM puede ser una mutación silenciosa. Una mutación silenciosa puede ser un cambio en al menos un nucleótido de un codón con respecto al codón original que no cambia el aminoácido codificado por el codón original. Una mutación silenciosa puede ser un cambio en un nucleótido dentro de una región no codificante, tal como un intrón, región sin traducir 5', región sin traducir 3' u otra región no codificante.
Una mutación de PAM puede ser una mutación no silenciosa. Las mutaciones no silenciosas pueden incluir una mutación de sentido erróneo. Una mutación de sentido erróneo puede ser un cambio en al menos un nucleótido de un codón con respecto al codón original que cambia el aminoácido codificado por el codón original. Las mutaciones de sentido erróneo pueden ocurrir dentro de un exón, marco de lectura abierto u otra región codificante.
Una secuencia de edición puede comprender al menos una mutación con respecto a una secuencia diana. Una mutación puede ser una mutación silenciosa o una mutación no silenciosa, tal como una mutación de sentido erróneo. Una mutación puede incluir una inserción de uno o más nucleótidos o pares de bases. Una mutación puede incluir una supresión de uno o más nucleótidos o pares de bases. Una mutación puede incluir una sustitución de uno o más nucleótidos o pares de bases por uno o más nucleótidos o pares de bases diferentes. Las secuencias insertadas o sustituidas pueden incluir secuencias exógenas o heterólogas.
Un casete de edición puede comprender un polinucleótido que codifica una secuencia de ácido nucleico guía. En algunos casos, la secuencia de ácido nucleico guía está opcionalmente unida operativamente a un promotor. Una secuencia de ácido nucleico guía puede comprender una secuencia del armazón y una secuencia guía como se describe en el presente documento.
Un casete de edición puede comprender un código de barras. Un código de barras puede ser una secuencia de ADN única que corresponde a la secuencia de edición de manera que el código de barras pueda identificar una o más mutaciones de la secuencia de edición correspondiente. En algunos ejemplos, el código de barras tiene 15 nucleótidos. El código de barras puede comprender menos de 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 88, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más de 200 nucleótidos. Un código de barras puede ser una secuencia de origen no natural. Un casete de edición que comprende un código de barras puede ser una secuencia de origen no natural.
Un casete de edición puede comprender uno o más de una secuencia de edición y un polinucleótido que codifica un ácido nucleico guía opcionalmente unido operativamente a un promotor, en donde el casete de edición y la secuencia de ácido nucleico guía están flanqueados por sitios de cebador. Un casete de edición puede comprender además un código de barras.
En la Figura 3 se representa un ejemplo de un casete de edición. Cada casete de edición puede diseñarse para editar un sitio en una secuencia diana. Los sitios a los que han de dirigirse pueden ser regiones codificantes, regiones no codificantes, sitios funcionalmente neutros o pueden ser un gen marcador cribable o seleccionable. Las regiones de homología dentro de la secuencia de edición flanquean las una o más mutaciones del casete de edición y pueden insertarse en la secuencia diana mediante recombinación. La recombinación puede comprender la escisión del ADN, tal como mediante una nucleasa guiada por ácido nucleico, y la reparación a través de recombinación homóloga.
Pueden generarse casetes de edición mediante síntesis química, ensamblaje de Gibson, SLIC, CPEC, PCA, clonación sin ligadura, extensión de oligos superpuestos, ensamblajein vitro,ensamblaje de oligosin vitro,PCR, clonación tradicional basada en ligadura, otros métodos conocidos en la técnica o cualquier combinación de los mismos.
Pueden diseñarse secuencias rastreables, tales como códigos de barras o secuencias registradoras, informáticamente a través de un código convencional con una mutación degenerada en el codón diana. La mutación degenerada puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30 o más de 30 restos de ácido nucleico. En algunos ejemplos, las mutaciones degeneradas pueden comprender 15 restos de ácido nucleico (N15).
Pueden añadirse brazos de homología a una secuencia de edición para permitir la incorporación de la secuencia de edición en la ubicación deseada a través de recombinación homóloga o reparación impulsada por homología. Pueden añadirse brazos de homología mediante síntesis, ensamblajein vitro,PCR u otros métodos conocidos en la técnica. Por ejemplo, síntesis química, ensamblaje de Gibson, SLIC, CPEC, PCA, clonación sin ligadura, extensión de oligos superpuestos, ensamblajein vitro,ensamblaje de oligosin vitro,PCR, clonación tradicional basada en ligadura, otros métodos conocidos en la técnica o cualquier combinación de los mismos. Puede añadirse un brazo de homología a ambos extremos de un código de barras, secuencia registradora y/o secuencia de edición, flanqueando de este modo la secuencia con dos brazos de homología distintos, por ejemplo, un brazo de homología 5' y un brazo de homología 3'.
Un brazo de homología puede comprender una secuencia homóloga a una secuencia diana. Un brazo de homología puede comprender una secuencia homóloga a una secuencia adyacente a una secuencia diana. Un brazo de homología puede comprender una secuencia homóloga a una secuencia en dirección 5' o en dirección 3' de una secuencia diana. Un brazo de homología puede comprender una secuencia homóloga a la secuencia dentro del mismo gen o marco de lectura abierto que una secuencia diana. Un brazo de homología puede comprender una secuencia homóloga a la secuencia en dirección 5' o en dirección 3' de un gen o marco de lectura abierto dentro del que se encuentra la secuencia diana. Un brazo de homología puede comprender una secuencia homóloga a una UTR 5' o UTR 3' de un gen o marco de lectura abierto dentro del que se encuentra una secuencia diana. Un brazo de homología puede comprender una secuencia homóloga a un gen diferente, marco de lectura abierto, promotor, terminador o secuencia de ácido nucleico que aquella en la que se encuentra la secuencia diana.
Los mismos brazos de homología 5' y 3' pueden añadirse a una pluralidad de secuencias de edición distintas, generando de este modo una biblioteca de secuencias de edición únicas, cada una de las cuales tiene el mismo sitio de inserción diana. Los mismos brazos de homología 5' y 3' pueden añadirse a una pluralidad de moldes de edición distintos, generando de este modo una biblioteca de moldes de edición únicos, cada uno de las cuales tiene el mismo sitio de inserción diana. En ejemplos alternativos, pueden añadirse diferentes o una diversidad de brazos de homología 5' o 3' a una pluralidad de secuencias de edición o moldes de edición.
Puede clonarse una biblioteca de códigos de barras o una biblioteca de secuencias registradoras que comprende brazos de homología flanqueantes en una cadena principal de vector. En algunos ejemplos, el código de barras que comprende brazos de homología flanqueantes se clona en un casete de edición. La clonación puede producirse mediante síntesis química, ensamblaje de Gibson, SLIC, CPEC, PCA, clonación sin ligadura, extensión de oligos superpuestos, ensamblajein vitro,ensamblaje de oligosin vitro,PCR, clonación tradicional basada en ligadura, otros métodos conocidos en la técnica o cualquier combinación de los mismos.
Puede clonarse una biblioteca de secuencias de edición que comprende brazos de homología flanqueantes en una cadena principal de vector. En algunos ejemplos, la secuencia de edición y los brazos de homología se clonan en un casete de edición. Los casetes de edición pueden comprender además, en algunos casos, una secuencia de ácido nucleico que codifica un ácido nucleico guía o ARNg modificado por ingeniería para dirigirse al sitio deseado de inserción de la secuencia de edición, por ejemplo, la secuencia diana. Los casetes de edición pueden comprender además, en algunos casos, comprenden además un código de barras o secuencia registradora. La clonación puede producirse mediante síntesis química, ensamblaje de Gibson, SLIC, CPEC, PCA, clonación sin ligadura, extensión de oligos superpuestos, ensamblajein vitro,ensamblaje de oligosin vitro,PCR, clonación tradicional basada en ligadura, otros métodos conocidos en la técnica o cualquier combinación de los mismos.
Pueden clonarse bibliotecas de edición de todo el gen o de todo el genoma en una cadena principal de vector. Puede insertarse o ensamblarse una biblioteca de códigos de barras o secuencias registradoras en un segundo sitio para generar plásmidos rastreables competentes que puedan incrustar el código de barras de registro en un locus fijo mientras se integran las bibliotecas de edición en una amplia diversidad de sitios definidos por el usuario. La clonación puede producirse mediante síntesis química, ensamblaje de Gibson, SLIC, CPEC, p Ca , clonación sin ligadura, extensión de oligos superpuestos, ensamblajein vitro,ensamblaje de oligosin vitro,PCR, clonación tradicional basada en ligadura, otros métodos conocidos en la técnica o cualquier combinación de los mismos.
En primer lugar, puede ensamblarse o insertarse un ácido nucleico guía o una secuencia que codifique el mismo en una cadena principal de vector, seguido de la inserción de una secuencia de edición y/o casete. En otros casos, en primer lugar puede insertarse o ensamblarse una secuencia de edición y/o casete en una cadena principal de vector, seguido de la inserción de un ácido nucleico guía o secuencia que codifica el mismo. En otros casos, el ácido nucleico guía o la secuencia que codifica el mismo y una secuencia de edición y/o casete se insertan o ensamblan simultáneamente en un vector. Puede insertarse una secuencia registradora o un código de barras antes o después de cualquiera de estas etapas. Dicho de otra manera, debe entenderse que hay muchas permutaciones posibles en el orden en el que se ensamblan los elementos de la divulgación. El vector puede ser lineal o circular y puede generarse mediante síntesis química, ensamblaje de Gibson, SLIC, CPEC, PCA, clonación sin ligadura, extensión de oligos superpuestos, ensamblajein vitro,ensamblaje de oligosin vitro,PCR, clonación tradicional basada en ligadura, otros métodos conocidos en la técnica o cualquier combinación de los mismos.
Puede sintetizarse una molécula de ácido nucleico que comprende uno o más elementos desvelados en el presente documento. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición. Puede sintetizarse una molécula de ácido nucleico que comprende un ácido nucleico guía. Puede sintetizarse una molécula de ácido nucleico que comprende un casete registrador. Puede sintetizarse una molécula de ácido nucleico que comprende un código de barras. Puede sintetizarse una molécula de ácido nucleico que comprende un brazo de homología. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición y un ácido nucleico guía. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición y un código de barras. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición, un ácido nucleico guía y un casete registrador. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición, un casete registrador y dos ácidos nucleicos guía. Puede sintetizarse una molécula de ácido nucleico que comprende un casete registrador y un ácido nucleico guía. En cualquiera de estos casos, el ácido nucleico guía puede opcionalmente estar unido operativamente a un promotor. En cualquiera de estos casos, la molécula de ácido nucleico puede incluir además uno o más códigos de barras.
La síntesis puede producirse mediante cualquier método de síntesis de ácidos nucleicos conocido en la técnica. La síntesis puede producirse mediante síntesis enzimática de ácidos nucleicos. La síntesis puede producirse mediante síntesis química. La síntesis puede producirse mediante síntesis basada en matrices. La síntesis puede producirse mediante síntesis en fase sólida o métodos de fosforamidita. La síntesis puede realizarse mediante métodos de columna o de múltiples pocillos. Las moléculas de ácido nucleico sintetizadas pueden ser moléculas de ácido nucleico de origen no natural.
Pueden usarse software y métodos de automatización para la síntesis y generación de múltiplex. Por ejemplo, el software y la automatización pueden usarse para crear 10, 102, 103, 104, 105, 106 o más polinucleótidos, casetes o plásmidos sintetizados. Un método de automatización puede generar secuencias y bibliotecas deseadas de manera rápida que pueden procesarse a través de un flujo de trabajo con etapas mínimas para producir bibliotecas definidas con precisión, tales como bibliotecas de edición de todo el gen o de todo el genoma.
Pueden generarse polinucleótidos o bibliotecas que comprendan dos o más moléculas de ácido nucleico o plásmidos que comprendan cualquier combinación desvelada en el presente documento de secuencia registradora, secuencia de edición, ácido nucleico guía y código de barras opcional, incluyendo combinaciones de uno o más de cualquiera de los elementos mencionados anteriormente. Por ejemplo, una biblioteca de este tipo puede comprender al menos 2, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000, 5500, 6000, 6500, 7000, 7500, 8000, 8500, 9000, 9500, 104, 105, 106, 107, 108, 109, 1010 o más moléculas de ácido nucleico o plásmidos de la presente divulgación. Debe entenderse que una biblioteca de este tipo puede incluir cualquier número de moléculas de ácido nucleico o plásmidos, incluso si el número específico no se ha enumerado de forma explícita anteriormente.
Pueden secuenciarse bibliotecas de plásmidos o bibliotecas de moléculas de ácido nucleico rastreables con el fin de determinar la secuencia registradora y el par de secuencias de edición que están comprendidos en cada plásmido rastreable. En otros casos, una secuencia de registradora conocida se empareja con una secuencia de edición conocida durante el proceso de generación de bibliotecas. Se prevén otros métodos de determinación de la asociación entre una secuencia registradora y una secuencia de edición comprendida en una molécula de ácido nucleico o plásmido común de manera que la secuencia de edición pueda identificarse mediante identificación o secuenciación de la secuencia registradora.
En el presente documento se proporcionan métodos y composiciones para rastrear bibliotecas episómicas editadas que se transportan entreE. coliy otros organismos/estirpes celulares. Las bibliotecas pueden estar comprendidas en plásmidos, cromosomas artificiales bacterianos (BAC), cromosomas artificiales de levaduras (YAC), cromosomas sintéticos o genomas víricos o de fagos. Estos métodos y composiciones pueden usarse para generar bibliotecas portátiles con códigos de barras en organismos hospedadores, tales comoE. coli.La generación de bibliotecas en dichos organismos puede ofrecer la ventaja de técnicas establecidas para realizar recombinación homóloga. Las bibliotecas de plásmidos con códigos de barras se pueden secuenciar en profundidad en un sitio para rastrear la diversidad mutacional diana a las porciones restantes del plásmido, lo que permite mejoras drásticas en la profundidad de la cobertura de la biblioteca.
Cualquier molécula de ácido nucleico desvelada en el presente documento puede ser un ácido nucleico aislado. Pueden prepararse ácidos nucleicos aislados mediante cualquier método conocido en la técnica, por ejemplo, usando métodos recombinantes convencionales, métodos de ensamblaje, técnicas de síntesis o combinaciones de los mismos. En algunas realizaciones, los ácidos nucleicos pueden clonarse, amplificarse, ensamblarse o construirse de otro modo.
Pueden obtenerse ácidos nucleicos aislados a partir de células, bacterias u otras fuentes usando cualquier número de metodologías de clonación conocidas en la técnica. En algunas realizaciones, pueden usarse sondas de oligonucleótidos que se hibridan selectivamente, en condiciones rigurosas, a otros oligonucleótidos o a los ácidos nucleicos de un organismo o célula para aislar o identificar un ácido nucleico aislado.
Puede cribarse ADN genómico celular, ARN o ADNc para detectar la presencia de un elemento genético de interés identificado usando una sonda basada en una o más secuencias. En el ensayo pueden emplearse diversos grados de rigurosidad de hibridación.
Las condiciones de alta rigurosidad para la hibridación de ácidos nucleicos se conocen bien en la técnica. Por ejemplo, las condiciones pueden comprender condiciones de baja sal y/o alta temperatura, tales como las proporcionadas por NaCl de aproximadamente 0,02 M a aproximadamente 0,15 M a temperaturas de aproximadamente 50 °C a aproximadamente 70 °C. Se entiende que la temperatura y la fuerza iónica de una rigurosidad deseada se determinan en parte por la longitud del ácido nucleico o ácidos nucleicos particulares, la longitud y el contenido de nucleótidos de la secuencia o secuencias diana, la composición de carga del ácido nucleico o ácidos nucleicos y por la presencia o concentración de formamida, cloruro de tetrametilamonio u otro disolvente o disolventes en una mezcla de hibridación. Los ácidos nucleicos pueden ser totalmente complementarios a una secuencia diana o pueden presentar uno o más emparejamientos erróneos.
Los ácidos nucleicos de interés también pueden amplificarse usando una diversidad de técnicas de amplificación conocidas. Por ejemplo, puede usarse tecnología de reacción en cadena de la polimerasa (PCR) para amplificar secuencias diana directamente a partir de ADN, ARN o ADNc. También pueden ser útiles PCR y otros métodos de amplificaciónin vitro,por ejemplo, para clonar secuencias de ácidos nucleicos, para fabricar ácidos nucleicos para usarlos como sondas para detectar la presencia de un ácido nucleico diana en muestras, para la secuenciación de ácidos nucleico o para otros fines.
Pueden prepararse ácidos nucleicos aislados mediante síntesis química directa mediante métodos tales como el método del fosfotriéster o usando un sintetizador automatizado. La síntesis química produce generalmente un oligonucleótido monocatenario. Este puede convertirse en ADN bicatenario mediante hibridación con una secuencia complementaria o mediante polimerización con una ADN polimerasa usando la cadena sencilla como molde.
Registrador
En algún ejemplo, pueden usarse dos casetes de edición juntos para rastrear una etapa de ingeniería genética. Por ejemplo, un casete de edición puede comprender un molde de edición y un ácido nucleico guía codificado, y un segundo casete de edición, denominado casete registrador, puede comprender un molde de edición que comprende una secuencia registradora y un ácido nucleico codificado que tiene una secuencia guía distinta en comparación con la del primer casete de edición. En dichos casos, la secuencia de edición y la secuencia registradora pueden insertarse en secuencias diana separadas y determinarse mediante sus correspondientes ácidos nucleicos guía. Una secuencia registradora puede comprender un código de barras, secuencia rastreable o localizable, y/o un elemento regulador operable con un marcador cribable o seleccionable.
A través de un enfoque de clonación multiplexada, el casete registrador puede acoplarse covalentemente a al menos un casete de edición en un plásmido (por ejemplo, Figura 17A) para generar bibliotecas de plásmidos que tienen una combinación única de casete registrador y de edición. Esta biblioteca puede secuenciarse para generar el cartografiado registrador/de edición y usarse para rastrear bibliotecas de edición en grandes segmentos del ADN diana (por ejemplo, Figura 17C). Las secuencias registradoras y de edición pueden estar comprendidas en el mismo casete, en cuyo caso ambos se incorporan en la secuencia de ácido nucleico diana, tal como un genoma o plásmido, mediante el mismo evento de recombinación. En otros ejemplos, las secuencias registradoras y de edición pueden estar comprendidas en casetes separados dentro del mismo plásmido, en cuyo caso las secuencias registradoras y de edición se incorporan a la secuencia de ácido nucleico diana mediante eventos de recombinación separados, ya sea simultánea o secuencialmente.
En el presente documento se proporcionan métodos para combinar la síntesis múltiple de oligonucleótidos múltiplex con recombinación, para crear bibliotecas de mutaciones rastreables y diseñadas específicamente. Los cribados y/o selecciones seguidas de métodos de secuenciación de alto rendimiento y/o micromatrices de códigos de barras pueden permitir un cartografiado rápido de mutaciones que conducen a un fenotipo de interés.
Los métodos y composiciones desvelados en el presente documento pueden usarse para modificar por ingeniería y rastrear simultáneamente eventos de ingeniería en una secuencia de ácido nucleico diana.
Estos plásmidos pueden generarse usando técnicas de ensamblaje o clonaciónin vitro.Por ejemplo, los plásmidos pueden generarse usando síntesis química, ensamblaje de Gibson, SLIC, CPEC, PCA, clonación sin ligadura, otras técnicas de ensamblaje de oligosin vitro,clonación tradicional basada en ligadura o cualquier combinación de las mismas.
Dichos plásmidos pueden comprender al menos una secuencia registradora, tal como un código de barras y al menos una secuencia de edición. En la mayoría de los casos, la secuencia registradora se usa para registrar y rastrear eventos de ingeniería. Cada secuencia de edición puede usarse para incorporar una edición deseada en una secuencia de ácido nucleico diana. La edición deseada puede incluir inserción, supresión, sustitución o alteración de la secuencia de ácido nucleico diana. En algunos ejemplos, la una o más secuencia registradora y secuencias de edición están comprendidas en un único casete comprendido dentro del plásmido de manera que se incorporan en la secuencia de ácido nucleico diana mediante el mismo evento de ingeniería. En otros ejemplos, las secuencias registradoras y de edición están comprendidas en casetes separados dentro del plásmido de manera que cada una de ellas se incorpora en el ácido nucleico diana mediante eventos de ingeniería distintos. En algunos ejemplos, el plásmido comprende dos o más secuencias de edición. Por ejemplo, puede usarse una secuencia de edición para alterar o silenciar una secuencia de PAM mientras que puede usarse una segunda secuencia de edición para incorporar una mutación en una secuencia distinta.
Pueden insertarse secuencias registradoras en un sitio separado del sitio de inserción de la secuencia de edición. La secuencia registradora insertada puede separarse de la secuencia de edición entre 1 pb y 1 Mpb. Por ejemplo, la distancia de separación puede ser de aproximadamente 1 pb, 10 pb, 50 pb, 100 pb, 500 pb, 1 kp, 2 kb, 5 kb, 10 kb o más. La distancia de separación puede ser cualquier número entero discreto entre 1 pb y 10 Mpb. En algunos ejemplos, la distancia máxima de separación depende del tamaño del ácido nucleico o genoma diana.
Las secuencias registradoras pueden insertarse adyacentes a las secuencias de edición o en la proximidad de la secuencia de edición. Por ejemplo, la secuencia registradora puede insertarse fuera del marco de lectura abierto dentro del cual se inserta la secuencia de edición. La secuencia registradora puede insertarse en una región sin traducir adyacente a un marco de lectura abierto dentro del cual se ha insertado una secuencia de edición. La secuencia registradora puede insertarse en un sitio funcionalmente neutro o no funcional. La secuencia registradora puede insertarse en un gen marcador cribable o seleccionable.
En algunos ejemplos, la secuencia de ácido nucleico diana está comprendida dentro de un genoma, cromosoma artificial, cromosoma sintético o plásmido episómico. En diversos ejemplos, la secuencia de ácido nucleico diana puede serin vitrooin vivo.Cuando la secuencia de ácido nucleico diana esin vivo,el plásmido puede introducirse en los organismos hospedadores mediante transformación, transfección, conjugación, biolística, nanopartículas, tecnologías de permeabilidad celular, u otros métodos conocidos para el suministro de ADN, o cualquier combinación de los mismos. En dichos ejemplos, el organismo hospedador puede ser un eucariota, procariota, bacteria, arquea, levadura u otros hongos.
El evento de ingeniería puede comprender recombinación, unión de extremos no homólogos, recombinación homóloga o reparación impulsada por homología. En algunos ejemplos, el evento de ingeniería se realizain vitrooin vivo.
Los métodos descritos en el presente documento pueden realizarse en cualquier tipo celular en el que pueda actuar un sistema de nucleasa direccionable (por ejemplo, dirigirse a y escindir ADN), incluyendo células procariotas y eucariotas. En algunas realizaciones, la célula es una célula bacteriana, tal comoEscherichiaspp. (por ejemplo,E. coli).En otras realizaciones, la célula es una célula fúngica, tal como una célula de levadura, por ejemplo,Saccharomyces spp.En otras realizaciones, la célula es una célula de alga, una célula vegetal, una célula de insecto o una célula de mamífero, incluyendo una célula humana.
En algunos ejemplos, la célula es un organismo recombinante. Por ejemplo, la célula puede comprender un sistema de nucleasa direccionable no nativo. Adicionalmente o como alternativa, la célula puede comprender maquinaria de sistema de recombinación. Dichos sistemas de recombinación pueden incluir el sistema de recombinación RED lambda, Cre/Lox, attB/attP u otros sistemas de integrasa. Cuando sea adecuado, el plásmido puede tener los componentes o maquinaria complementarios necesarios para que el sistema de recombinación seleccionado funcione correcta y eficientemente.
El método para la edición genómica puede comprender: (a) introducir un vector que codifica al menos un casete de edición y al menos un ácido nucleico guía en una primera población de células, produciendo de este modo una segunda población de células que comprende el vector; (b) mantener la segunda población de células en condiciones en las que se expresa o se mantiene una nucleasa guiada por ácido nucleico, en donde la nucleasa guiada por ácido nucleico está codificada en el vector, un segundo vector, en el genoma de las células de la segunda población de células, o introducidas de otro modo en la célula, dando como resultado la escisión y la incorporación de ADN del casete de edición; (c) obtener células viables; y (d) secuenciar la molécula de ADN diana en al menos una célula de la segunda población de células para identificar la mutación de al menos un codón.
Un método para la edición genómica puede comprender: (a) introducir un vector que codifica al menos un casete de edición que comprende una mutación de PAM como se desvela en el presente documento y al menos un ácido nucleico guía en una primera población de células, produciendo de este modo una segunda población de células que comprende el vector; (b) mantener la segunda población de células en condiciones en las que se expresa o se mantiene una nucleasa guiada por ácido nucleico, en donde la nucleasa guiada por ácido nucleico está codificada en el vector, un segundo vector, en el genoma de las células de la segunda población de células, o introducidas de otro modo en la célula, dando como resultado la escisión de ADN, la incorporación del casete de edición y la muerte de células de la segunda población de células que no comprenden la mutación de PAM, mientras que las células de la segunda población de células que comprenden la mutación de PAM son viables; (c) obtener células viables; y (d) secuenciar el ADN diana en al menos una célula de la segunda población de células para identificar la mutación de al menos un codón.
El método para la edición genómica rastreable puede comprender: (a) introducir un vector que codifica al menos un casete de edición, al menos un casete registrador y al menos dos ácidos nucleicos guía en una primera población de células, produciendo de este modo una segunda población de células que comprende el vector; (b) mantener la segunda población de células en condiciones en las que se expresa o se mantiene una nucleasa guiada por ácido nucleico, en donde la nucleasa guiada por ácido nucleico está codificada en el vector, un segundo vector, en el genoma de las células de la segunda población de células, o introducidas de otro modo en la célula, dando como resultado la escisión y la incorporación de ADN de los casetes de edición y registradores; (c) obtener células viables; y (d) secuenciar la secuencia registradora de la molécula de ADN diana en al menos una célula de la segunda población de células para identificar la mutación de al menos un codón.
En algunos ejemplos en los que el plásmido comprende una segunda secuencia de edición diseñada para silenciar un PAM, un método para la edición genómica rastreable puede comprender: (a) introducir un vector que codifica al menos un casete de edición, un casete registrador y al menos dos ácidos nucleicos guían en una primera población de células, produciendo de este modo una segunda población de células que comprende el vector; (b) mantener la segunda población de células en condiciones en las que se expresa o se mantiene una nucleasa guiada por ácido nucleico, en donde la nucleasa guiada por ácido nucleico está codificada en el vector, un segundo vector, en el genoma de las células de la segunda población de células, o introducidas de otro modo en la célula, dando como resultado la escisión de ADN, la incorporación de los casetes de edición y registradores, y la muerte de células de la segunda población de células que no comprenden la mutación de PAM, mientras que las células de la segunda población de células que comprenden la mutación de PAM son viables; (c) obtener células viables; y (d) secuenciar la secuencia registradora del ADN diana en al menos una célula de la segunda población de células para identificar la mutación de al menos un codón.
En algunos ejemplos, la eficiencia de la transformación se determina usando un ácido nucleico guía de control no dirigido, lo que permite la validación del procedimiento de recombinación y los cálculos de UFC/ng. En algunos casos, la eficiencia absoluta se obtiene contando el número total de colonias en cada placa de transformación, por ejemplo, contando las colonias tanto de color rojo como de color blanco de un control de galK. En algunos ejemplos, la eficiencia relativa se calcula mediante el número total de transformantes satisfactorios (por ejemplo, colonias de color blanco) de todas las colonias a partir de un control (por ejemplo, control de galK).
Los métodos de la divulgación pueden proporcionar, por ejemplo, mejoras superiores a 1000x en la eficiencia, escala, coste de generar una biblioteca combinatoria, y/o la precisión de dicha generación de biblioteca.
Los métodos de la divulgación pueden proporcionar, por ejemplo, más de: mejoras 10x, 50x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x, 1100x, 1200x, 1300x, 1400x, 1500x, 1600x, 1700x, 1800x, 1900x, 2000x o superiores en la eficiencia de generación de bibliotecas genómicas o combinatorias.
Los métodos de la divulgación pueden proporcionar, por ejemplo, más de: mejoras 10*, 50x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x, 1100x, 1200x, 1300x, 1400x, 1500x, 1600x, 1700x, 1800x, 1900x, 2000x o superiores en la escala de generación de bibliotecas genómicas o combinatorias.
Los métodos de la divulgación pueden proporcionar, por ejemplo, más de: una disminución 10*, 50x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x, 1100x, 1200x, 1300x, 1400x, 1500x, 1600x, 1700x, 1800x, 1900x, 2000x o superior en el coste de generación de bibliotecas genómicas o combinatorias.
Los métodos de la divulgación pueden proporcionar, por ejemplo, más de: mejoras 10*, 50x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x, 1100x, 1200x, 1300x, 1400x, 1500x, 1600x, 1700x, 1800x, 1900x, 2000x o superiores en la precisión de la generación de bibliotecas genómicas o combinatorias.
Rastreo recursivo para ingeniería combinatoria
En el presente documento se desvelan métodos y composiciones para rondas iterativas de ingeniería. En el presente documento se desvelan estrategias de ingeniería recursiva que permiten la implementación del registro CREATE a nivel de célula única a través de varios ciclos de ingeniería en serie (por ejemplo, Figura 18 y Figura 19). Estos métodos y composiciones desvelados pueden permitir tecnologías basadas en búsqueda que puedan construir y explorar eficazmente un espacio genotípico complejo. Los términos recursivo e iterativo pueden usarse indistintamente.
Los métodos de ingeniería combinatoria pueden comprender múltiples rondas de ingeniería. Los métodos desvelados en el presente documento pueden comprender 2 o más rondas de ingeniería. Por ejemplo, un método puede comprender 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 25, 30 o más de 30 rondas de ingeniería.
En algunos ejemplos, durante cada ronda de ingeniería se incorpora una nueva secuencia registradora, tal como un código de barras, en el mismo locus en sitios cercanos (por ejemplo, Figura 18, barras de color gris, o Figura 19, barras de color negro) de manera que después de múltiples ciclos de ingeniería para construir diversidad combinatoria en todo el genoma (por ejemplo, Figura 18, barras de color gris, o Figura 19, barras de color gris) puede usarse una PCR simple del locus de registro para reconstruir cada genotipo combinatorio o para confirmar que la edición de ingeniería de cada ronda se ha incorporado al sitio diana.
En el presente documento se desvelan métodos para seleccionar rondas sucesivas de ingeniería. La selección puede producirse mediante una mutación de PAM incorporada por un casete de edición. La selección puede producirse mediante una mutación de PAM incorporada por un casete registrador. La selección puede producirse usando un marcador cribable, seleccionable o contra-seleccionable. La selección puede producirse mediante el direccionamiento a un sitio para edición o registro que se incorporó mediante una ronda previa de ingeniería, seleccionando de este modo variantes que incorporaron satisfactoriamente ediciones y secuencias registradoras de ambas rondas o de todas las rondas de ingeniería anteriores.
La cuantificación de estos genotipos puede usarse para comprender los efectos mutacionales combinatorios en grandes poblaciones y la investigación de fenómenos biológicos importantes tales como la epistasis.
La edición en serie y el rastreo combinatorio pueden implementarse usando sistemas de vectores recursivos como se desvela en el presente documento. Estos sistemas de vectores recursivos pueden usarse para avanzar rápidamente a través del procedimiento de transformación. En algunos ejemplos, estos sistemas consisten en dos o más plásmidos que contienen orígenes de replicación ortogonales, marcadores de antibióticos y ácidos nucleicos guía codificados. El ácido nucleico guía codificado en cada vector puede diseñarse para dirigirse a uno de los otros marcadores de resistencia para su destrucción mediante escisión mediada por nucleasas guiadas por ácidos nucleicos. Estos sistemas pueden usarse, en algunos ejemplos, para realizar transformaciones en las que se cambia la presión de selección de antibióticos para retirar el plásmido anterior e impulsar el enriquecimiento de la siguiente ronda de genomas modificados por ingeniería. Pueden realizarse dos o más pases a través del bucle de transformación o, en otras palabras, pueden realizarse múltiples rondas de ingeniería. La introducción de los casetes de registro y los casetes de edición necesarios en vectores recursivos como se desvela en el presente documento puede usarse para la edición genómica y el curado plasmídico simultáneos en cada etapa de transformación con altas eficiencias.
En algunos ejemplos, el sistema de vector recursivo desvelado en el presente documento comprende 2, 3, 4, 5, 6, 7, 8, 9, 10 o más de 10 plásmidos únicos. En algunos ejemplos, el sistema de vector recursivo puede usar un plásmido particular más de una vez siempre que se use un plásmido distinto en la ronda anterior y en la ronda posterior.
Los métodos recursivos y las composiciones desveladas en el presente documento pueden usarse para restablecer la función de un elemento seleccionable o cribable en un genoma o plásmido diana. El elemento seleccionable o cribable puede incluir un gen de resistencia a antibióticos, un gen fluorescente, una secuencia única de ADN o marca de agua, u otro gen informador, cribable o seleccionable conocido. En algunos ejemplos, cada ronda sucesiva de ingeniería puede incorporar un fragmento del elemento seleccionable o cribable, de manera que al final de las rondas de ingeniería, todo el elemento seleccionable o cribable se ha incorporado en el genoma o plásmido diana. En dichos ejemplos, sólo aquellos genomas o plásmidos que han incorporado satisfactoriamente todos los fragmentos y, por lo tanto, todas las mutaciones correspondientes deseadas, pueden seleccionarse o cribarse. De este modo, las células seleccionadas o cribadas se enriquecerán para aquellas que hayan incorporado las ediciones de todas y cada una de las rondas iterativas de ingeniería.
Pueden usarse métodos recursivos para cambiar un marcador seleccionable o cribable entre una posición de activación e inactivación, o entre una posición de activación e inactivación, con cada ronda sucesiva de ingeniería. El uso de un método de este tipo permite la conservación de marcadores seleccionables o cribables disponibles al requerir, por ejemplo, el uso de un solo marcador cribable o seleccionable. Además, puede usarse una secuencia reguladora corta o un codón de inicio o codones que no son de inicio para activar e inactivar el marcador cribable o seleccionable. Estas secuencias cortas pueden caber fácilmente dentro de un casete o polinucleótido sintetizado.
Pueden realizarse una o más rondas de ingeniería usando los métodos y composiciones desvelados en el presente documento. En algunos ejemplos, cada ronda de ingeniería se usa para incorporar una edición única de la de rondas anteriores. Cada ronda de ingeniería puede incorporar una secuencia registradora única. Cada ronda de ingeniería puede dar como resultado la retirada o el curado del plásmido utilizado en la ronda de ingeniería anterior. En algunos ejemplos, la incorporación satisfactoria de la secuencia registradora de cada ronda de ingeniería da como resultado un marcador cribable o seleccionable completo y funcional o una combinación de secuencia única.
En cada ronda de ingeniería pueden insertarse casetes de registro únicos que comprenden secuencias de registro, tales como códigos de barras o marcadores cribables o seleccionables, generando de este modo una secuencia registradora que es indicativa de la combinación de ediciones o etapas de ingeniería realizados. Pueden insertarse secuencias de registro sucesivas adyacentes entre sí. Pueden insertarse secuencias de registro sucesivas próximas entre sí. Pueden insertarse secuencias sucesivas a distancia entre sí.
Pueden insertarse secuencias sucesivas a distancia entre sí. Por ejemplo, pueden insertarse secuencias registradoras sucesivas y separarlas por 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100 o más de 100 pb. En algunos ejemplos, las secuencias registradoras sucesivas están separadas por aproximadamente 10, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400, 1500 o más de 1500 pb.
Las secuencias registradoras sucesivas pueden separarse mediante cualquier número deseado de pares de bases y pueden depender y estar limitadas por el número de secuencias registradoras sucesivas que han de insertarse, el tamaño del ácido nucleico diana o los genomas diana, y/o el diseño de la secuencia registradora final deseada. Por ejemplo, si la secuencia registradora compilada es un marcador funcional cribable o seleccionable, entonces las secuencias registradoras sucesivas pueden insertarse próximas entre sí y dentro del mismo marco de lectura. Si la secuencia registradora compilada es un conjunto único de códigos de barras que han de identificarse mediante secuenciación y no tienen ningún elemento de secuencia codificante, entonces las secuencias registradoras sucesivas pueden insertarse con cualquier número deseado de pares de bases que las separe. En estos casos, la distancia de separación puede depender de la tecnología de secuenciación que ha de usarse y del límite de longitud de lectura.
Aunque las realizaciones preferidas de la presente invención se han mostrado y descrito en el presente documento, será obvio para los expertos en la materia que dichas realizaciones se proporcionan solamente a modo de ejemplo. A los expertos en la materia se les pueden ocurrir numerosas variaciones, cambios y sustituciones sin apartarse de la invención. Debe entenderse que pueden emplearse diversas alternativas a las realizaciones de la invención descritas en el presente documento en la práctica la invención. Se pretende que las siguientes reivindicaciones definan el alcance de la invención y que los métodos y estructuras dentro del alcance de estas reivindicaciones y sus equivalentes estén cubiertos de ese modo.
Algunas definiciones
Como se usa en el presente documento, el término "natural" es un término de la técnica comprendido por los expertos, y significa la forma normal de un organismo, cepa, gen o característica tal como aparece en la naturaleza, a diferencia de las formas mutantes o variantes.
Como se usa en el presente documento, el término "variante" debe entenderse como la exhibición de cualidades que tienen un patrón que se desvía de lo que ocurre en la naturaleza.
Los términos "ortólogo" (también denominado "Ortólogo" en el presente documento) y "homólogo" (también denominado "Homólogo" en el presente documento) son bien conocidos en la técnica. Por medio de una directriz adicional, un "homólogo" de una proteína como se usa en el presente documento es una proteína de la misma especie que realiza la misma función o una similar que la proteína de la que es un homólogo. Las proteínas homólogas pueden estar, pero no necesariamente, relacionadas estructuralmente o están sólo parcialmente relacionadas estructuralmente. Un "ortólogo" de una proteína como se usa en el presente documento es una proteína de una especie diferente que realiza la misma función o una similar que la proteína de la que es un ortólogo. Las proteínas ortólogas pueden estar, pero no necesariamente, relacionadas estructuralmente, o están sólo parcialmente relacionadas estructuralmente. Los homólogos y ortólogos pueden identificarse mediante modelos de homología (véase, por ejemplo, Greer, Science vol. 228 (1985) 1055, y Blundellet al. Eur J Biochemvol 172 (1988), 513) o "BLAST estructural" (Dey F, Cliff Zhang Q, Petrey D, Honig B. Toward a "structural BLAST": using structural relationships to infer function. Protein Sci. Abril de 2013; 22(4):359-66. doi: 10.1002/pro.2225.).
Las expresiones "polinucleótido", "nucleótido", "secuencia de nucleótidos", "ácido nucleico" y "oligonucleótido" se usan indistintamente. Se refieren a una forma polimérica de nucleótidos de cualquier longitud, ya sean desoxirribonucleótidos o ribonucleótidos, o análogos de los mismos. Los polinucleótidos pueden tener cualquier estructura tridimensional y pueden realizar cualquier función, conocida o desconocida. Los siguientes son ejemplos no limitantes de polinucleótidos: regiones codificantes o no codificantes de un gen o fragmento de gen, loci (locus) definidos a partir del análisis de uniones, exones, intrones, ARN mensajero (ARNm), ARN de transferencia, ARN ribosómico, ARN de interferencia pequeño (ARNip), ARN de horquilla corta (ARNhc), microARN (miARN), ribozimas, ADNc, polinucleótidos recombinantes, polinucleótidos ramificados, plásmidos, vectores, ADN aislado de cualquier secuencia, ARN aislado de cualquier secuencia, sondas de ácido nucleico y cebadores. El término también abarca estructuras similares a ácidos nucleicos con cadenas principales sintéticas, véase, por ejemplo, Eckstein, 1991; Basergaet al.,1992; Milligan, 1993; documento WO 97/03211; documento WO 96/39154; Mata, 1997; Strauss-Soukup, 1997; y Samstag, 1996. Un polinucleótido puede comprender uno o más nucleótidos modificados, tales como nucleótidos metilados y análogos de nucleótidos. Si las hay, pueden transmitirse modificaciones a la estructura de los nucleótidos antes o después del ensamblaje del polímero. La secuencia de nucleótidos puede estar interrumpida por componentes no nucleotídicos. Un polinucleótido puede modificarse adicionalmente después de la polimerización, tal como mediante conjugación con un componente de marcaje.
"Complementariedad" se refiere a la capacidad de un ácido nucleico para formar uno o más enlaces de hidrógeno con otra secuencia de ácido nucleico, ya sea por emparejamiento de bases de Watson-Crick tradicional o por otros tipos no tradicionales. Un porcentaje de complementariedad indica el porcentaje de restos de la molécula de ácido nucleico que pueden formar enlaces de hidrógeno (por ejemplo, emparejamiento de bases de Watson-Crick) con una segunda secuencia de ácido nucleico (por ejemplo, siendo 5, 6, 7, 8, 9, 10 de cada 10 un 50 %, 60 %, 70 %, 80 %, 90 % y 100 % complementarios). "Perfectamente complementario" significa que todos los restos contiguos de una secuencia de ácido nucleico se unirán por enlaces de hidrógeno con el mismo número de restos contiguos de una segunda secuencia de ácido nucleico. "Sustancialmente complementario", como se usa en el presente documento, se refiere a un grado de complementariedad que es de al menos el 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 %, 97 %, 98 %, 99 % o 100 % a lo largo de una región de 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50 o más nucleótidos, o se refiere a dos ácidos nucleicos que se hibridan en condiciones rigurosas.
Como se usa en el presente documento, las "condiciones rigurosas" para la hibridación se refieren a las condiciones en las que un ácido nucleico que tiene complementariedad con una secuencia diana se hibrida predominantemente con la secuencia diana, y no se hibrida sustancialmente con secuencias no diana. Las condiciones rigurosas dependen generalmente de la secuencia y varían dependiendo de varios factores. En general, cuanto más larga sea la secuencia, mayor será la temperatura a la que la secuencia se hibrida específicamente con su secuencia diana. Se describen con detalle ejemplos no limitantes de condiciones rigurosas en Tijssen (1993). Laboratory Techniques In Biochemistry And Molecular Biology-Hybridization With Nucleic Acid Probes Parte I, segundo capítulo, "Overview of principles of hybridization and the strategy of nucleic acid probe assay", Elsevier, N.Y. Cuando se hace referencia a una secuencia de polinucleótidos, entonces también se prevén secuencias complementarias o parcialmente complementarias. Preferentemente, estas son capaces de hibridarse con la secuencia de referencia en condiciones muy rigurosas. Generalmente, con el fin de maximizar la tasa de hibridación, se seleccionan condiciones de hibridación de rigurosidad relativamente baja: aproximadamente de 20 a 25 grados Celsius inferiores al punto de fusión térmica (Tf). La Tf es la temperatura a la que el 50 % de la secuencia diana específica se hibrida con una sonda perfectamente complementaria en solución a una fuerza iónica y un pH definidos. Generalmente, con el fin de requerir al menos aproximadamente un 85 % de complementariedad de nucleótidos de las secuencias hibridadas, se seleccionan condiciones de lavado muy rigurosas para que sean entre 5 y 15 grados Celsius inferiores a la Tf. Con el fin de requerir al menos aproximadamente un 70 % de complementariedad de nucleótidos de las secuencias hibridadas, se seleccionan condiciones de lavado moderadamente rigurosas para que sean entre 15 y 30 grados Celsius inferiores a la Tf. Las condiciones de lavado altamente permisivas (muy baja rigurosidad) pueden ser tan bajas como 50 grados Celsius por debajo de la Tf, permitiendo un alto nivel de emparejamiento erróneo entre secuencias hibridadas. Los expertos en la materia reconocerán que también pueden alterarse otros parámetros físicos y químicos en las fases de hibridación y lavado para afectar al resultado de una señal de hibridación detectable a partir de un nivel específico de homología entre las secuencias diana y sonda
"Hibridación" se refiere a una reacción en la que uno o más polinucleótidos reaccionan para formar un complejo que se estabiliza a través de enlaces de hidrógeno entre las bases de los restos de nucleótido. El enlace de hidrógeno puede producirse mediante emparejamiento de pares de bases de Watson Crick, la unión de Hoogstein, o de cualquier otra forma específica de secuencia. El complejo puede comprender dos cadenas que forman una estructura dúplex, tres o más cadenas que forman un complejo de múltiples cadenas, una única cadena de auto-hibridación, o cualquier combinación de éstas. Una reacción de hibridación puede constituir una etapa en un proceso más extenso, tal como el inicio de la PCR, o la escisión de un polinucleótido por una enzima. Una secuencia capaz de hibridarse con una secuencia dada se conoce como el "complemento" de la secuencia dada.
Como se usa en el presente documento, la expresión "locus genómico" o "locus" (loci en plural) es la ubicación específica de un gen o secuencia de ADN en un cromosoma. Un "gen" se refiere a tramos de ADN o ARN que codifican un polipéptido o una cadena de ARN que tiene un papel funcional que desempeñar en un organismo y, por lo tanto, es la unidad molecular de la herencia en los organismos vivos. A los efectos de la presente invención, puede considerarse que los genes incluyen regiones que regulan la producción del producto génico, independientemente de que dichas secuencias reguladoras sean o no adyacentes a las secuencias codificantes y/o transcritas. En consecuencia, un gen incluye, pero no se limita necesariamente a, secuencias promotoras, terminadores, secuencias reguladoras de la traducción tales como sitios de unión al ribosoma y sitios internos de entrada al ribosoma, potenciadores, silenciadores, aislantes, aisladores de la cromatina, orígenes de replicación, sitios de unión de matriz y regiones de control de locus.
Como se usa en el presente documento, "expresión de un locus genómico" o "expresión génica" es el proceso mediante el cual la información de un gen se usa en la síntesis de un producto génico funcional. Los productos de la expresión génica son con frecuencia proteínas, pero en los genes que no codifican proteínas, tales como los genes de ARNr o los genes de ARNt, el producto es ARN funcional. El proceso de expresión génica es utilizado por todas las formas de vida conocidas, eucariotas (incluyendo organismos multicelulares), procariotas (bacterias y arqueas) y virus para generar productos funcionales para sobrevivir. Como se usa en el presente documento, la "expresión" de un gen o ácido nucleico abarca no sólo la expresión génica celular, sino también la transcripción y traducción de uno o más ácidos nucleicos en sistemas de clonación y en cualquier otro contexto. Como se usa en el presente documento, "expresión" también se refiere al proceso por el cual un polinucleótido se transcribe a partir de un molde de ADN (tal como en un ARNm u otro transcrito de ARN) y/o el proceso por el cual un ARNm transcrito se traduce posteriormente en péptidos, polipéptidos o proteínas. Los transcritos y los polipéptidos codificados pueden denominarse en conjunto "producto génico". Si el polinucleótido deriva de ADN genómico, la expresión puede incluir el corte y empalme del ARNm en una célula eucariota.
Los términos "polipéptido", "péptido" y "proteína" se usan indistintamente en el presente documento para referirse a polímeros de aminoácidos de cualquier longitud. El polímero puede ser lineal o ramificado, puede comprender aminoácidos modificados y puede estar interrumpido por no aminoácidos. Los términos también abarcan un polímero de aminoácido que se ha modificado; por ejemplo, formación de enlaces disulfuro, glucosilación, lipidación, acetilación, fosforilación o cualquier otra manipulación, tal como conjugación con un componente de marcaje. Como se usa en el presente documento, el término "aminoácido" incluye aminoácidos naturales y/o no naturales o sintéticos, que incluyen glicina y los isómeros ópticos tanto D como L, y análogos de aminoácidos y peptidomiméticos.
Como se usa en el presente documento, la expresión "dominio" o "dominio de proteína" se refiere a una parte de una secuencia de proteína que puede existir y actuar independientemente del resto de la cadena de proteína.
Como se describe en aspectos de la invención, la identidad de secuencia está relacionada con la homología de secuencia. Las comparaciones de homología pueden realizarse a simple vista, o más generalmente, con la ayuda de programas de comparación de secuencias fácilmente disponibles. Estos programas informáticos disponibles en el mercado pueden calcular el porcentaje (%) de homología entre dos o más secuencias y también pueden calcular la identidad de secuencia compartida por dos o más secuencias de aminoácidos o de ácidos nucleicos. Las homologías de secuencia pueden generarse mediante cualquiera de una serie de programas informáticos conocidos en la técnica, por ejemplo, BLAST o FASTA, etc. Un programa informático adecuado para realizar dicha alineación es el paquete GCG Wisconsin Bestfit (Universidad de Wisconsin. EE.UU.; Devereuxet al.,1984, Nucleic Acids Research 12:387). Los ejemplos de otro software que puede realizar comparaciones de secuencias incluyen, pero sin limitación, el paquete BLAST (véase Ausubelet al.,1999, misma referencia, Capítulo 18), FASTA (Atschulet al.,1990, J. Mol. Biol., 403-410) y el conjunto de herramientas de comparación GENEWORKS. Tanto BLAST como FASTA están disponibles para búsquedas fuera de línea y en línea (véase Ausubelet al.,1999 misma referencia, páginas 7-58 a 7-60). Sin embargo, se prefiere usar el programa GCG Bestfit.
El porcentaje de homología puede calcularse sobre secuencias contiguas, es decir, una secuencia se alinea con la otra secuencia y cada aminoácido o nucleótido en una secuencia se compara directamente con el correspondiente aminoácido o nucleótido en la otra secuencia, un resto cada vez. Esto se denomina una alineación "sin hueco". Normalmente, dichas alineaciones sin huecos se realizan sólo en un número relativamente corto de restos.
Aunque este es un método muy simple y consistente, no tiene en cuenta que, por ejemplo, en un par de secuencias por lo demás idénticas, una inserción o supresión puede provocar que los siguientes restos de aminoácidos queden fuera de la alineación, dando como resultado potencialmente una gran reducción en el % de homología cuando se produce una alineación global. Por consiguiente, la mayoría de los métodos de comparación de secuencias se diseñan para producir alineaciones óptimas que tengan en cuenta posibles inserciones y supresiones sin penalizar indebidamente la homología general o la puntuación de identidad. Esto se consigue insertando "huecos" en la alineación de secuencia para tratar de maximizar la homología o identidad locales.
Sin embargo, estos métodos más complejos asignan "penalizaciones de hueco" a cada hueco que se produce en la alineación, de manera que, para el mismo número de aminoácidos idénticos, una alineación de secuencia con la menor cantidad de huecos posible, que refleja una mayor relación entre las dos secuencias comparadas, puede conseguir una puntuación más alta que una con muchos huecos. Normalmente se usan "costes de huecos de afinidad" que cargan un coste relativamente alto por la existencia de un hueco y una penalización menor por cada resto posterior en el hueco. Este es el sistema de puntuación de huecos más habitualmente utilizado. Las altas penalizaciones por huecos pueden producir, por supuesto, alineaciones optimizadas con menos huecos. La mayoría de los programas de alineación permiten modificar las penalizaciones por huecos. Sin embargo, se prefiere usar los valores predeterminados cuando se usa dicho software para comparaciones de secuencias. Por ejemplo, cuando se usa el paquete GCG Wisconsin Bestfit, la penalización por hueco predeterminada para las secuencias de aminoácidos es -12 para un hueco y -4 para cada extensión.
El cálculo del % máximo de homología, por lo tanto, requiere primero la producción de una alineación óptima, teniendo en cuenta las penalizaciones por huecos. Un programa informático adecuado para realizar dicha alineación es el paquete GCG Wisconsin Bestfit (Devereuxet al.,1984 Nuc. Acids Research 12 pág. 387). Los ejemplos de otro software que puede realizar comparaciones de secuencias incluyen, pero sin limitación, el paquete BLAST (véase Ausubelet al.,1999 Short Protocols in Molecular Biology, 4.a Ed., Capítulo 18), FASTA (Altschulet al.,1990 J. Mol. Biol. 403-410) y el conjunto de herramientas de comparación GENEWORKS. Tanto BlAST como FASTA están disponibles para búsquedas fuera de línea y en línea (véase Ausubelet al.,1999, Short Protocols in Molecular Biology, páginas 7-58 a 7-60). Sin embargo, para algunas aplicaciones, se prefiere usar el programa GCG Bestfit. También hay disponible una nueva herramienta, llamada Secuencias BLAST 2 para comparar secuencias de proteínas y nucleótidos (véase FEMS Microbiol Lett). 1999 174(2): 247-50; FEMS Microbiol Lett. 1999 177(1): 187-8 y el sitio web de el National Center for Biotechnology information en el sitio web de National Institutes for Health).
Aunque el % de homología final puede medirse en términos de identidad, el proceso de alineación en sí normalmente no se basa en una comparación de pares de todo o nada. En cambio, generalmente se usa una matriz de puntuación de similitud a escala que asigna puntuaciones a cada comparación por pares basada en la similitud química o en la distancia evolutiva. Un ejemplo de una matriz de este tipo utilizada comúnmente es la matriz BLOSUM62, la matriz predeterminada por defecto para el conjunto de programas BLAST. Los programas GCG Wisconsin generalmente usan los valores públicos predeterminados o una tabla de comparación de símbolos personalizada, si se suministran (véase el manual del usuario para obtener más detalles). Para algunas aplicaciones, se prefiere usar los valores públicos predeterminados para el paquete GCG, o en el caso de otro software, la matriz predeterminada, tal como BLOSUM62.
Como alternativa, el porcentaje de homologías puede calcularse usando la característica de alineación múltiple en DNASIS™ (Hitachi Software), basada en un algoritmo, análoga a CLUSTAL (Higgins D G y Sharp P M (1988), Gene 73(1), 237-244). Una vez que el software ha producido una alineación óptima, es posible calcular el % de homología, preferentemente el % de identidad de secuencia. El software normalmente hace esto como parte de la comparación de secuencias y genera un resultado numérico.
Las secuencias también pueden tener supresiones, inserciones o sustituciones de restos de aminoácidos que producen un cambio silencioso y dan como resultado una sustancia funcionalmente equivalente. Pueden hacerse sustituciones de aminoácidos deliberadas sobre la base de la similitud en las propiedades de los aminoácidos (tales como polaridad, carga, solubilidad, hidrofobia, hidrofilia y/o la naturaleza anfipática de los restos) y, por lo tanto, es útil agrupar los aminoácidos juntos en grupos funcionales. Los aminoácidos pueden agruparse basándose solamente en las propiedades de sus cadenas laterales. Sin embargo, es más útil incluir también datos de mutaciones. Es probable que los conjuntos de aminoácidos derivados de este modo, se conserven por razones estructurales. Estos conjuntos pueden describirse en forma de diagrama de Venn (Livingstone C. D. y Barton G. J. (1993) "Protein sequence alignments: a strategy for the hierarchical analysis of residue conservation" Comput. Appl. Biosci. 9: 745-756) (Taylor W. R. (1986) "The classification of amino acid conservation" J. Theor. Biol. 119; 205-218). Pueden realizarse sustituciones conservadoras, por ejemplo, de acuerdo con la tabla a continuación que describe un diagrama de Venn generalmente aceptado de agrupación de aminoácidos.
Las realizaciones de la invención incluyen secuencias (tanto polinucleótidos como polipéptidos) que pueden comprender una sustitución homóloga (en el presente documento se usan tanto sustitución como reemplazo para indicar el intercambio de un resto de aminoácido o nucleótido existente, con un resto o nucleótido alternativo) que puede producirse, es decir, sustitución similar-por-similar en el caso de aminoácidos tales como básico por básico, ácido por ácido, polar por polar, etc. También puede producirse una sustitución no homóloga, es decir, de una clase de resto a otra o, implicando como alternativa, la inclusión de aminoácidos de origen no natural tales como ornitina (denominada en lo sucesivo en el presente documento, Z), ornitina del ácido diaminobutírico (denominada en lo sucesivo en el presente documento, B), ornitina de norleucina (denominada en lo sucesivo en el presente documento, O), piridilalanina, tienilalanina, naftilalanina y fenilglicina.
Las secuencias de aminoácidos variantes pueden incluir grupos espaciadores adecuados que pueden insertarse entre dos restos de aminoácidos cualesquiera de la secuencia, incluyendo grupos alquilo tales como grupos metilo, etilo o propilo además de espaciadores de aminoácidos tales como restos de glicina o beta-alanina. Una forma adicional de variación, que implica la presencia de uno o más restos de aminoácidos en forma peptoide, puede ser bien entendida por los expertos en la materia. Para disipar cualquier duda, "la forma peptoide" se usa para referirse a los restos de aminoácidos variantes en los que el grupo sustituyente carbono a está en el átomo de nitrógeno del resto en lugar del carbono a. Se conocen en la técnica procesos para preparar péptidos en la forma peptoide, por ejemplo, Simon R Jet al.,PNAS (1992) 89(20), 9367-9371 y Horwell D C, Trends Biotechnol. (1995) 13(4), 132-134.
La práctica de la presente invención emplea, a menos que se indique lo contrario, técnicas convencionales de inmunología, bioquímica, química, biología molecular, microbiología, biología celular, genómica y ADN recombinante, que se encuentran dentro de la experiencia de la materia. Véase Green y Sambrook, (Molecular Cloning: A Laboratory Manual. 4th, ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., 2014); CURRENT PROTOCOLS IN MOLECULAR BIOLOg Y (F. M. Ausubel,et al.editores., (2017)); Short Protocols in Molecular Biology, (Ausubelet al.,1999)); la serie METHODS IN ENZYMOLOGY (Academic Press, Inc.): PCR 2: A PRACTICAL APPROACH (M. J. MacPherson, B. D. Hames y G. R. Taylor eds. (1995)), ANTIBODIES, A LABORATORY MANUAL, SECOND EDITION (Harlow y Lane, editores. (2014) y CULTURE or ANIMAL CELLS: A MANUAL OF BASIC TECHNIQUE, 7TH EDITION (R. I. Freshney, ed. (2016)).
Ejemplos
Ejemplo 1. Nucleasas guiadas por ácidos nucleicos
Se alinearon secuencias de veinte nucleasas guiadas por ácidos nucleicos, denominadas MAD1-MAD20 (SEQ ID NO: 1-20) y se compararon con otras nucleasas guiadas por ácidos nucleicos. En la Figura 1A y la Figura 1B, respectivamente, se muestra una alineación parcial de aminoácidos específicos de las nucleasas y un árbol filogenético. En la Figura 1A se muestran restos clave que pueden estar implicados en el reconocimiento de un sitio de PAM. Estos incluyen los aminoácidos en las posiciones 167, 539, 548, 599, 603, 604, 605, 606 y 607.
Se construyeron alineaciones de secuencias usando PSI-BLAST para buscar homólogos de nucleasa MAD en las bases de datos no redundantes del NCBI. Se refinaron adicionalmente las alineaciones de secuencias múltiples usando el algoritmo de alineación MUSCLE con la configuración predeterminada implementada en Geneious 10. El porcentaje de identidad de cada homólogo con las secuencias de referencia de SpCas9 y AsCpf1 se calculó basándose en la coincidencia de alineación por pares de estas alineaciones globales.
Las secuencias fuente genómicas se identificaron usando información de unión Uniprot o búsquedas TBLASTN del NCBI usando los parámetros predeterminados y buscando coincidencias de traducción en todos los marcos posibles. En la Tabla 1 se resumen los porcentajes de identidad de MAD1-8 y 10-12 con otras nucleasas diversas. Estos porcentajes de identidad representan la identidad de secuencia de aminoácidos compartida entre las proteínas indicadas.
Ejemplo 2: Expresión de nucleasas MAD
Las secuencias de ácido nucleico de tipo silvestre para MAD1-MAD20 incluyen las SEQ ID NO: 21-40, respectivamente. Estas nucleasas MAD tenían codones optimizados para su expresión enE. coliy las secuencias optimizadas con codones se enumeran como SEQ ID NO: 41-60 (resumidas en la Tabla 2).
Estas MAD1-MAD20 con codones optimizados se clonaron en una construcción de expresión que comprendía un promotor constitutivo o inducible (por ejemplo, promotor proB SEQ ID NO: 83, o promotor pBAD SEQ ID NO: 81 o SEQ ID NO: 82) y un marcador 6X-His opcional (SEQ ID NO: 376) (por ejemplo, Figura 2). Las construcciones de expresión de MAD1-MAD20 generadas se proporcionan como las SEQ ID NO: 61-80, respectivamente. Las construcciones de expresión como se representan en la Figura 2 se generaron mediante clonación basada en restricción/ligadura o clonación basada en homología.
Ejemplo 3. Guía de ensayo de secuencias de ácidos nucleicos compatibles con nucleasas MAD
Se necesita que una nucleasa guiada por ácido nucleico y un ácido nucleico guía compatible tenga un complejo de nucleasa direccionable funcional. Se adoptaron múltiples enfoques para determinar la secuencia de ácido nucleico guía compatible y específicamente la porción de secuencia del armazón del ácido nucleico guía. En primer lugar, se barrieron los loci endógenos de cada nucleasa MAD en busca de secuencias del armazón potenciales. En algunos casos, tal como con MAD2, no se encontró ninguna secuencia del armazón endógena. Por lo tanto, se sometió a ensayo la compatibilidad de MAD2 con secuencias del armazón encontradas cerca de los loci endógenos de las otras nucleasas MAD. Las nucleasas MAD y las secuencias del armazón endógenas correspondientes que se sometieron a ensayo se enumeran en la Tabla 2.
Tabla 2.
Se generaron casetes de edición como se representa en la Figura 3 para evaluar la funcionalidad de las nucleasas MAD y los ácidos nucleicos guía correspondientes. Cada casete de edición comprende una secuencia de edición y un promotor unido operativamente a un ácido nucleico guía codificado. Los casetes de edición comprenden además sitios de cebador (P1 y P2) en los extremos flanqueantes. Los ácidos nucleicos guía comprendían diversas secuencias del armazón se someterse a ensayo, así como una secuencia guía para guiar la nucleasa MAD a la secuencia diana para su edición. Las secuencias de edición comprendían una mutación de PAM y/o una mutación de codón con respecto a la secuencia diana. Las mutaciones estaban flanqueadas por regiones de homología (brazos de homología o HA) que permitirían la recombinación en la secuencia diana escindida.
La Figura 4 representa un experimento modificado para someter a ensayo diferentes combinaciones de nucleasa MAD y ácido nucleico guía. Se añadió un casete de expresión que codificaba la nucleasa MAD a las células hospedadoras junto con diversos casetes de edición como se ha descrito anteriormente. En este ejemplo, los ácidos nucleicos guía se modificaron por ingeniería para dirigirse al gen galK en la célula hospedadora, y la secuencia de edición se diseñó para mutar el gen galK diana con el fin de inactivar el gen, permitiendo de este modo el cribado de células editadas satisfactoriamente. Este diseño se usó para la identificación de combinaciones de nucleasa MAD funcional o compatible y ácido nucleico guía. La eficiencia de la edición se determinó mediante qPCR para medir el plásmido de edición en las células recuperadas de manera de alto rendimiento. La validación de la especificidad de los cebadores de MAD11 y Cas9 se muestra en las Figuras 14A y 14B. Estos resultados muestran que los pares de cebadores seleccionados son ortogonales y permiten la medición cuantitativa del ADN plasmídico de entrada.
Las Figuras 5A-5B son una representación de un experimento con un diseño experimental similar. En este caso, el casete de edición (Figura 5B) comprende además un marcador seleccionable, en este caso la resistencia a kanamicina (kan) y el vector de expresión de nucleasa MAD (Figura 5A) comprenden además un marcador direccionable, en este caso, resistencia al cloranfenicol (Cm) y el sistema de recombinación RED lambda para ayudar a la recombinación homóloga (HR) de la secuencia de edición en la secuencia diana. Una combinación de nucleasa MAD compatible y ácido nucleico guía provocará una rotura bicatenaria en la secuencia diana si hay una secuencia de PAM presente. Puesto que la secuencia de edición (por ejemplo, Figura 3) contiene una mutación de PAM que no es reconocida por la nucleasa MAD, las células editadas que contienen la mutación de PAM sobreviven a la escisión por la nucleasa MAD, mientras que las células sin editar de tipo silvestre mueren (Figura 5C). La secuencia de edición comprende además una mutación en el gen galK que permite el cribado de células editadas, mientras que el vector de expresión de la nucleasa MAD y el casete de edición contienen marcadores de selección de fármacos, permitiendo la selección de células editadas.
Usando estos métodos, se sometieron a ensayo ácidos nucleicos guía compatibles para MAD1-MAD20. Se sometieron a ensayo veinte secuencias del armazón. Los ácidos nucleicos guía utilizados en los experimentos contenían una de las veinte secuencias del armazón, denominadas armazón-1, armazón-2, etc., y una secuencia guía que se dirige al gen galK. Las secuencias para Armazón-1 a Armazón-20 se enumeran como SEQ ID NO: 84-103, respectivamente. Debe entenderse que la secuencia guía del ácido nucleico guía es variable y puede modificarse por ingeniería o diseñarse para dirigirse a cualquier secuencia diana deseada, como será evidente para un experto en la materia tras la lectura de la presente divulgación. Puesto que MAD2 no tiene una secuencia del armazón endógena para someter a ensayo, una secuencia de armazón de una nucleasa con homología estrecha (armazón-2, SEQ ID NO: 85) se sometió a ensayo y se descubrió que no era funcional, lo que significa que MAD2 y armazón-2 no eran compatibles. Por lo tanto, mAD2 se sometió a ensayo con otras diecinueve secuencias del armazón, a pesar de la baja homología de secuencia entre MAD2 y las otras nucleasas MAD.
Este flujo de trabajo también se usó para identificar o someter a ensayo secuencias de PAM compatibles con una nucleasa MAD dada. En el siguiente ejemplo se describe otro método para identificar un sitio de PAM.
En general, para los ensayos descritos, las transformaciones se realizaron de la siguiente manera. Se cultivaron durante la noche cepas de E.colique expresaban nucleasas MAD con codones optimizados. Los cultivos saturados se diluyeron 1/100 y se cultivaron a una DO600 de 0,6 y se indujeron añadiendo arabinosa a una concentración de llenado del 0,4 % y (si se usa un plásmido sensible a la temperatura) cambiando el cultivo a 42 grados Celsius en un baño de agua con agitación. Después de la inducción, las células se enfriaron en hielo durante 15 min antes de lavarlas tres veces con % del volumen de cultivo inicial con glicerol al 10 % (por ejemplo, 50 ml lavados para un cultivo de 200 ml). Las células se resuspendieron en 1/100 del volumen inicial (por ejemplo, 2 ml para un cultivo de 200 ml) y se almacenaron a -90 grados Celsius hasta que estuvieran listas para usar. Para realizar los cribados de compatibilidad y eficiencia de la edición descritos en el presente documento, se transformaron 50 ng de casete de edición en alícuotas celulares mediante electroporación. Después de la electroporación, las células se recuperaron en LB durante 3 horas y se sembraron en placa 100 pl de células en placas Macconkey que contenían galactosa al 1 %.
Las eficiencias de la edición se determinaron dividiendo el número de colonias de color blanco (células editadas) por el número total de colonias de color blanco y rojo (células editadas y sin editar).
Ejemplo 4. Ensayo de selección de PAM
Con el fin de generar una rotura bicatenaria en una secuencia diana, un ácido nucleico guía debe hibridarse con una secuencia diana y la nucleasa MAD debe reconocer una secuencia de PAM adyacente a la secuencia diana. Si el ácido nucleico guía se hibrida con la secuencia diana, pero la nucleasa MAD no reconoce un sitio de PAM, entonces no se produce la escisión.
Un PAM es específico de la nucleasa MAD y no todas las nucleasas MAD reconocen necesariamente el mismo PAM. Para evaluar los requisitos del sitio de PAM para las nucleasas MAD, se realizó un ensayo como se representa en las Figuras 6A-6C.
La Figura 6A representa un vector de expresión de nucleasa MAD como se describe en otra parte, que también contiene un gen de resistencia al cloranfenicol y el sistema de recombinación RED lambda.
La Figura 6B representa un casete de edición de autodireccionamiento. El ácido nucleico guía se diseña para dirigirse a la secuencia diana que está contenida en la misma molécula de ácido nucleico. La secuencia diana está flanqueada por nucleótidos aleatorios, representados por N4, es decir, cuatro nucleótidos aleatorios en cada extremo de la secuencia diana. Debe entenderse que también podría usarse cualquier número de nucleótidos aleatorios (por ejemplo, 3, 5, 6, 7, 8, etc.). Los nucleótidos aleatorios sirven como biblioteca de PAM potenciales.
La Figura 6C representa el diseño experimental. Básicamente, el vector de expresión de nucleasa MAD y el casete de edición que comprende los sitios de PAM aleatorios se transformaron en una célula hospedadora. Si se formaba un complejo de nucleasa direccionable funcional y la nucleasa MAD reconocía un sitio de PAM, entonces el vector de casete de edición se escindió, lo que conduce a la muerte celular. Si no se formó un complejo direccionable funcional o si la nucleasa MAD no reconoció el PAM, entonces la secuencia diana no se escindió y la célula sobrevivió. Se usaron mecanismos de detección (por ejemplo, secuencia de última generación (NGS, por sus siglas en inglés)) para secuenciar las poblaciones celulares de partida y finales para determinar qué sitios de PAM fueron reconocidos por una nucleasa MAD dada. Estos sitios de PAM reconocidos después se usaron para determinar un PAM de consenso o no consenso para una nucleasa MAD dada.
Se determinó que el PAM de consenso para MAD1-MAD8 y MAD10-MAD12 era TTTN. Se determinó que el PAM de consenso para MAD9 era NNG. Se determinó que el PAM de consenso para MAD13-MAD15 era TTN. Se determinó que el Pa M de consenso para MAD16-MAD18 era TA. Se determinó que el PAM de consenso para MAD19-MAD20 era TTCN.
Ejemplo 5: Ensayos de ácidos nucleicos guía heterólogos
Se sometieron a ensayo las eficiencias de la edición para MAD1, MAD2 y MAD7 y se representan en la Figura 7. Los detalles del experimento y las eficiencias de la edición se resumen en la Tabla 3. La eficiencia de la edición se determinó dividiendo el número de células editadas por el número total de células recuperadas. Se usaron diversos casetes de edición que se dirigen al gen galK para permitir el cribado de células de edición. Los ácidos nucleicos guía codificados en el casete de edición contenían una secuencia guía dirigida al gen galK y una de diversas secuencias del armazón con el fin de someter a ensayo la compatibilidad de la nucleasa MAD indicada con la secuencia del armazón indicada, como se resume en la Tabla 3.
Se observó que las eficiencias de la edición para la nucleasa MAD compatible y los ácidos nucleicos guía (que comprenden las secuencias del armazón indicadas) tenían una eficiencia de la edición del 75-100 %. MAD2 tuvo una eficiencia de la edición del 75-100 % y MAD7 tuvo una eficiencia de la edición del 97-100 %.
MAD2 combinado con armazón-1, armazón-2, armazón-4 o armazón-13 en estos experimentos dan como resultado una eficiencia de la edición del 0 %. Estos datos implican que MAD2 no formó un complejo funcional con estos ácidos nucleicos guía sometidos a ensayo y que MAD2 no es compatible con estas secuencias del armazón. MAD7 combinado con armazón-1, armazón-2, armazón-4 o armazón-13 en estos experimentos dan como resultado una eficiencia de la edición del 0 %. Estos datos implican que MAD7 no formó un complejo funcional con estos ácidos nucleicos guía sometidos a ensayo y que MAD7 no es compatible con estas secuencias del armazón. Por lo tanto, los ácidos nucleicos guía útiles en los sistemas y métodos de la divulgación pueden identificarse usando datos empíricos, y requerirán experimentación razonable por parte de un experto en la materia cuando se usan los métodos enseñados en la presente divulgación
Para MAD1, todas las combinaciones de ácidos nucleicos guía sometidas a ensayo dieron como resultado una eficiencia de la edición del 0 %, lo que implica que MAD1 no formó un complejo funcional con ninguno de los ácidos nucleicos guía sometidos a ensayo. Estos datos también implican que MAD1 no es compatible con las secuencias del armazón sometidas a ensayo.
Combinados, estos datos resaltan la imprevisibilidad de encontrar una nucleasa MAD compatible y un par de secuencias del armazón con el fin de formar un complejo de nucleasa direccionable funcional. Algunas nucleasas MAD sometidas a ensayo no funcionaron con ninguna secuencia del armazón sometida a ensayo. Algunas nucleasas MAD sometidas a ensayo sólo funcionaron con algunas secuencias del armazón sometidas a ensayo y no con otras.
Tabla 3
Ejemplo 6. Evaluación de MAD2 y MAD7
La capacidad de MAD2 y MAD7 para funcionar con ácidos nucleicos guía heterólogos se sometió a ensayo usando un diseño experimental similar al descrito anteriormente. Se sometió a ensayo la compatibilidad de MAD2 con otras secuencias del armazón y los resultados de un experimento se representan en la Figura 8. Las nucleasas MAD, las secuencias del armazón del ácido nucleico guía y las secuencias de edición utilizadas en este experimento se resumen en la Tabla 4.
Se sometió a ensayo la compatibilidad de MAD7 con otras secuencias del armazón y los resultados de un experimento se representan en la Figura 9. Las nucleasas MAD, las secuencias del armazón del ácido nucleico guía y las secuencias de edición utilizadas en este experimento se resumen en la Tabla 5.
Tabla 4
Tabla 5
En otro experimento, las eficiencias de la edición (Figura 10A) se determinaron calculando la relación de colonias de edición (colonias de color blanco, gen galK editado) frente a colonias totales. Las eficiencias de transformación (Figura 10B) se determinaron calculando el número total de células recuperadas en comparación con el número de partida de células.
En este ejemplo (Figura 10A-10B), las células que expresaban galK se transformaron con construcciones de expresión que expresaban MAD2 o MAD7 y un casete de edición correspondiente que comprendía un ácido nucleico guía dirigido al gen galK. El ácido nucleico guía estaba compuesto por una secuencia guía dirigida al gen galK y la secuencia del armazón-12 (SEQ ID NO: 95).
En el ejemplo representado, MAD2 y MAD7 tienen una eficiencia de la transformación menor en comparación con Cas9 de S.pyogenes,aunque la eficiencia de la edición de MAD2 y MAD7 fue ligeramente mayor que la de Cas9 de S.pyogenes.
Se recuperaron colonias de los experimentos de edición y un número representativo se sometió a NGS para determinar la presencia de las ediciones. La Figura 11 representa los resultados de la secuenciación de estas colonias seleccionadas recuperadas del ensayo descrito anteriormente. La secuencia diana estaba en la secuencia codificante de galK (CDS). El PAM de TTTN se muestra como complemento inverso (NAAA de tipo silvestre, NGAA mutada). Las mutaciones a las que se dirige la secuencia de edición están marcadas como codones diana. Se resaltan los cambios en comparación con la secuencia de tipo sivestre. En estos experimentos, se usó la secuencia del armazón-12 (SEQ ID NO: 95). La secuencia guía del ácido nucleico guía se dirigió al gen galK.
Seis de las siete secuencias representadas del experimento de MAD2 contenían la mutación de PAM diseñada y mutaciones diseñadas en los codones diana de galK, colonia de secuencia qué mantuvo la PAM de tipo silvestre y los codones diana de tipo silvestre y al mismo tiempo contenía una mutación no deseada en dirección 5' del sitio diana. Dos de las cuatro secuencias representadas del experimento de MAD7 contenían la mutación de PAM diseñada y los codones diana mutados. Una colonia comprende una secuencia de tipo silvestre, mientras que otra contenía una supresión de ocho nucleótidos en dirección 5' de la secuencia diana.
La Figura 12 muestra los resultados de dos experimentos que someten a ensayo la capacidad de selección para ayudar en la recuperación de células editadas. En este experimento, la nucleasa MAD2 se usó con un ácido nucleico guía que comprendía la secuencia del armazón-11 y una secuencia guía dirigida a galK. El casete de edición comprendía una secuencia de edición modificada para incorporar una mutación L80** en galK, permitiendo de este modo el cribado de las células editadas. En el experimento 1, la nucleasa MAD2 se usó con un ácido nucleico guía que comprendía la secuencia del armazón-12 y una secuencia guía dirigida a galK. El casete de edición comprendía una secuencia de edición modificada para incorporar una mutación L10KpnI en galK. En ambos experimentos, en las transformaciones se incluyó un plásmido de control negativo que usa un ácido nucleico guía que no es compatible con MAD2. Después de la transformación, se midió la relación entre el casete de edición compatible (aquellos que contienen ácidos nucleicos guía del armazón-11 o armazón-12) y el casete de edición no compatible (control negativo). Los experimentos se realizaron en presencia o ausencia de selección. Los resultados muestran que se recuperaron más casetes de edición compatibles que contenían células en comparación con el casete de edición no compatible, y este resultado se magnifica cuando se usa selección.
Ejemplo 7. Caracterización de ácidos nucleicos guía
Las secuencias de los armazones 1-8 y 10-12 (SEQ ID NO: 84-91 y 93-95) se alinearon y se representan en la Figura 13. Los nucleótidos que coinciden con la secuencia consenso están atenuados, mientras que aquellos que divergen de la secuencia consenso son visibles. Se indica la región de pseudonudo prevista. Sin pretender quedar ligados a teoría alguna, la región 5' del pseudonudo puede influir en la unión y/o la cinética de la nucleasa guiada por ácido nucleico. Como se muestra en la Figura 13, en general, parece haber menos variabilidad entre las secuencias del armazón en la región de pseudonudo (por ejemplo, SEQ ID NO: 172-181) en comparación con la secuencia fuera de la región de pseudonudo.
Ejemplo 8. Eficiencia de la edición de las nucleasas MAD
Se usaron un ensayo de eficiencia de la edición basado en placas y un ensayo de eficiencia de la edición molecular para someter a ensayo la eficiencia de la edición de diversas combinaciones de nucleasa MAD y ácido nucleico guía.
La Figura 15 representa la cuantificación de los datos obtenidos usando el ensayo de eficiencia de la edición molecular usando nucleasa MAD2 con un ácido nucleico guía que comprende el armazón-12 y una secuenciación guía dirigida a galK. Las mutaciones indicadas se incorporaron a galK usando los correspondientes casetes de edición que contenían la mutación. La Figura 16 muestra la comparación de las eficiencias de la edición determinadas mediante el ensayo basado en placa usando colonias de color blanco y de color rojo como se ha descrito anteriormente, y el ensayo de eficiencia de la edición molecular. Como se muestra en la Figura 16, las eficiencias de la edición determinadas mediante los dos ensayos separados son coherentes.
Ejemplo 9. Edición rastreable
Las ediciones genéticas pueden rastrearse mediante el uso de un código de barras. Puede incorporarse un código de barras en o cerca del sitio de edición que se describe en la presente memoria descriptiva. Cuando se realizan múltiples rondas de ingeniería, haciéndose una edición diferente en cada ronda, puede ser beneficioso insertar un código de barras en una región común durante cada ronda de ingeniería, de esta manera se podría secuenciar un único sitio y obtener las secuencias de todos los códigos de barras de cada ronda sin la necesidad de secuenciar cada sitio editado individualmente. Las Figuras 17A y 17C, 18 y 19 representan ejemplos de dichos flujos de trabajo de ingeniería rastreables.
Como se representa en la Figura 17A, una célula que expresa una nucleasa MAD se transforma con un plásmido que contiene un casete de edición y un casete de registro. El casete de edición contiene una mutación de PAM y una edición génica. El casete registrador comprende un código de barras, en este caso, un código de barras de 15 nt único para las secuencias sometidas a ensayo. Tanto el casete de edición como el casete de registro comprenden cada uno un ácido nucleico guía para una secuencia diana distinta. Dentro de una biblioteca de dichos plásmidos, el casete registrador para cada ronda puede contener el mismo ácido nucleico guía, de manera que el código de barras de la primera ronda se inserte en la misma ubicación en todas las variantes, independientemente del casete de edición y de la edición génica correspondiente que se use. Sin embargo, la correlación entre el código de barras y el casete de edición se determina de antemano de manera que la edición pueda identificarse secuenciando el código de barras. La Figura 17B muestra un ejemplo de un casete de registro diseñado para suprimir un sitio de PAM incorporando al mismo tiempo un código de barras de 15 nt. El PAM suprimido se usar para enriquecer las células editadas, puesto que las células de PAM mutado escapan de la muerte celular, mientras que las células que contienen una secuencia de PAM de tipo silvestre mueren.
Un enfoque similar se representa en la Figura 18. En este caso, el casete registrador de cada ronda se diseña para dirigirse a una secuencia adyacente a la ronda anterior, y cada vez, el casete registrador suprime un nuevo sitio de PAM. El resultado es una matriz de códigos de barras con los códigos de barras de cada ronda que pueden secuenciarse para confirmar que cada ronda de ingeniería tuvo lugar y determinar qué combinación de mutaciones está contenidas en la célula y en qué orden se realizaron las mutaciones. Cada casete registrador sucesivo puede diseñarse para que sea homólogo en un extremo de la región que comprende el PAM mutado de la ronda anterior, lo que podría aumentar la eficiencia de obtener células totalmente editadas al final del experimento. En otros ejemplos, el casete registrador se diseña para apuntar a un sitio de aterrizaje único que fue incorporado por el casete registrador anterior. Esto aumenta la eficiencia de la recuperación de células que contienen todas las mutaciones deseadas, puesto que el casete registrador y el código de barras posteriores sólo pueden apuntar a una célula que haya completado satisfactoriamente la ronda anterior de ingeniería.
La Figura 19 representa otro enfoque que permite el reciclaje de marcadores direccionables o el curado de otro modo de la célula del plásmido de la ronda anterior de ingeniería. En este caso, el plásmido transformado que contiene un ácido nucleico guía modificado para apuntar a un marcador direccionable u otra secuencia única en el plásmido forma la ronda anterior de ingeniería.
Ejemplo 10. Diseño de biblioteca de PAM a base de plásmidos (pPAM)
Las bibliotecas diana de pPAM se diseñaron tomando una secuencia espaciadora individual flanqueada por nucleótidos degenerados en los extremos 5' y los extremos 3' de la secuencia diana. Se usaron formatos de disposición de N4-ESPACIADORN=20-N4 y N5-ES<p>A<c>IADORN=20-N3. Estas secuencias se ordenaron como un único oligonucleótido con degeneración en las posiciones designadas (por ejemplo, N3, N4 y N5). Los oligonucleótidos se amplificaron y clonaron en un vector de ARNg que contenía un espaciador emparejado con la biblioteca diana para crear un vector de ARNg autodirigido que se agotará en situaciones de crecimiento competitivo (Figura 20). En un experimento, se clonaron un total de ocho secuencias espaciadoras diferentes en vectores que contenían un ARNg diseñado para emparejarse con la diana respectiva.
Ejemplo 11. Métodos
Clonación de bibliotecas diana
Todas las bibliotecas diana utilizadas para analizar la especificidad de los motivos de PAM y espaciadores se clonaron en el sitio de clonación deseado mediante la amplificación de un grupo de oligos superpuestos monocatenarios. Se generaron cadenas principales linealizadas para la clonación mediante amplificación por PCR con superposiciones compatibles con los amplicones del inserto y se digirieron con dpnl para eliminar la contaminación del vector parental. Los grupos de inserto y cadena principal linealizada se clonaron a través de un ensamblaje Gibson (usando Gibson Assembly Master Mix o el kit de ensamblaje NEBuilder HiFi DNA de acuerdo con el protocolo del fabricante). La mitad de cada conjunto Gibson se desalinizó durante 30 min usando una membrana de diálisis de 0,025 pm flotada sobre agua desionizada en una placa de Petri. Esto se usó para transformar células competentes supremas deE. cloni10G y se recuperaron durante 1 hora en LB. Se utilizó el 1 % de la transformación recuperada (10 pl) para el cultivo en placas basado en dilución para estimar las UFC por reacción de clonación y la cobertura de la biblioteca. La clonación se repitió, si los recuentos de UFC eran <10X el tamaño de la biblioteca para garantizar una cobertura completa del espacio de secuencia deseado. El volumen de recuperación restante se transfirió a 25 ml de cultivos durante la noche que contenían carbenecilina 100 pg/ml para mantener la presión selectiva para la replicación de la biblioteca clonada.
Después la recuperación durante la noche, se tomaron alícuotas de 2 * 1 ml de cada reacción de clonación de biblioteca y se almacenaron como soluciones madre en glicerol. Los 23 ml restantes de cultivo se sedimentaron y se usaron para extraer ADN plasmídico usando el kit Qiagen Plasmid Plus Midi. Este ADN se utilizó en transformaciones posteriores para generar los datos presentados.
Preparación de células competentes para estudios de agotamiento de ARNg
Para preparar células competentes para el agotamiento del ARNg, se usó un plásmido de edición enE. coliMG1655. El plásmido de edición contenía una nucleasa de interés guiada por ARN inducible por temperatura (RGEN), operón RED A inducible por arabinosa y un marcador de resistencia al cloranfenicol. Después del crecimiento durante la noche, se introdujeron estirpes celulares que contenían RGEN saturadas a una dilución 1/100 en 250 ml de LB cloranfenicol 25 pg/ml en matraces agitados con deflectores de 500 ml. Los cultivos inoculados se cultivaron hasta una DO de 0,5 0,8 y se transfirieron a un baño de agua con agitación a 42 °C para inducir la expresión de RGEN. Después de la inducción a 42 °C las células, se colocaron en hielo durante 10 min. Después, las células se lavaron 3X con 100 ml de ddH2O o glicerol al 10 %. Después de la etapa de lavado final, las células se resuspendieron en 2,5 ml (o 1/100 del volumen total de cultivo) de glicerol al 10 % y se dividieron en alícuotas en porciones de 200 pl para almacenarlas a -80 °C.
Método de agotamiento de ARNg
Cada experimento de agotamiento de ARNg se realizó usando una única alícuota de 200 pl de células que contenían RGEN competentes. Esta alícuota de células se dispensó en una cubeta enfriada con un espacio de 2 cm y se sometió a electroporación usando el sistema Nepagene. La electroporación se realizó usando un pulso de transferencia de 2400 V y 20 pulsos de 150 V para mezclar. Cada transformación se realizó con 50-500 ng de la biblioteca deseada como se describe en las carpetas experimentales. Después de 2 horas de recuperación, el 1 % de la transformación se sembró en placas para determinar las eficiencias de la transformación (es decir, UFC totales) y el volumen de transformación restante se usó para inocular 100 ml de cultivos sobrecrecidos. Se tomaron muestras de los cultivos en diversos puntos temporales retirando una alícuota de 1 ml y realizando una extracción de ADN usando el kit QiaPrep Miniprep de Qiagen para la secuenciación en dirección 3'.
Preparación de NGS y análisis generales
Se amplificaron minipreparaciones de plásmidos con cebadores indexados experimentalmente. Los amplicones se agruparon para normalizar los recuentos de lectura esperados y se purificaron en gel antes de cargarlos en los instrumentos MiSeq/NextSeq. Después, los archivos indexados de lectura rápida se compararon con las variantes esperadas con un 100 % de identidad de los diseños experimentales y se contaron los recuentos para realizar los análisis comparativos observados en los datos. Todos los recuentos se normalizaron a la frecuencia mediante la ecuación. Vf = (V recuentos)/(recuentos totales) donde Vf es la frecuencia de la variante en un índice dado, V recuentos son los recuentos observados para esa variante y recuentos totales son los recuentos totales observados en todo el índice experimental.
Análisis de datos y cálculos de agotamiento.
Las puntuaciones de agotamiento (o puntuaciones de aptitud absoluta) se calcularon como la log2 de puntuación de agotamiento usando la siguiente ecuación: W = log2(Fx,f/Fx,i); donde Fx,f es la frecuencia del casete X en el punto temporal final y Fx,i es la frecuencia inicial del casete X, y W es la aptitud absoluta de cada variante. Las frecuencias se determinaron dividiendo los recuentos de lectura para cada variante por los recuentos experimentales totales, incluyendo aquellos que se perdieron durante la filtración. Cada selección se realizó por duplicado y el promedio ponderado de recuentos de las dos mediciones se usó para inferir la puntuación promedio de aptitud de cada mutación de la siguiente manera: Wprom = ( I N¡=1 recuente^ * Wi) / ( I N¡=1 recuentos^. Tenga en cuenta que las puntuaciones calculadas se denominan puntuación de agotamiento cuando el valor calculado es negativo, aunque también puede denominarse puntuación de enriquecimiento si el valor calculado es positivo.
Estas puntuaciones se usaron para clasificar y evaluar las contribuciones a la aptitud de cada mutación bajo las diversas presiones de selección investigadas. Para todas las selecciones, las puntuaciones promedio de aptitud absoluta para los mutantes sinónimos se proporcionaron en forma de una medida compuesta de la tasa de crecimiento promedio. Las puntuaciones de enriquecimiento absoluto se consideraron significativas si el enriquecimiento mutante era al menos p ± 2*a (es decir, P = 0,05, asumiendo una distribución normal) del valor de tipo silvestre. Se publicaron los umbrales de media y significancia para cada selección. Se realizaron al menos dos réplicas de cada selección y se aplicó un umbral de corte de 10 en todos los experimentos repetidos para su inclusión en cada análisis.
En algunos casos, los datos se normalizaron con respecto a los datos de la biblioteca de control de PAM NRRN u otros datos de la biblioteca de control no diana.
La Figura 21A mostró que la impedancia reflejaba el número de transformantes por pocillo con células competentes para SOP y una cantidad fija de ADN. La Figura 21B representa una comparación de la puntuación de agotamiento promedio ponderada de recuentos con Ec110 (4 réplicas), Ec83* (5 réplicas) y Ec78* (duplicados). Estos amplicones eran secuencias y el 3'-PAM se usó como código de barras de muestra. La Figura 22A muestra que los recuentos para el plásmido de control EC110 de entrada y el plásmido de control EC110 después de 15 horas de sobrecrecimiento son casi idénticos. La Figura 22B muestra que los recuentos para el plásmido de control EC110 después de 15 horas y 20 horas de sobrecrecimiento de líquido son casi idénticos, lo que demuestra un mantenimiento estable del plásmido de entrada.
Ejemplo 12. Ensayo de pPAM para la identificación de PAM de MAD7 y PAM de MAD2
La preferencia de PAM por MAD2 y MAD7 se determinó usando el ensayo de agotamiento del plásmido pPAM y los métodos de análisis de datos descritos anteriormente. Las puntuaciones de agotamiento para los diversos PAM se calcularon como se ha descrito anteriormente a las 20 horas tanto para MAD7 (Figura 23A) como para MAD2 (Figura 23B). Los PAM que se agotaron o disminuyeron son aquellos que pudieron ser reconocidos y, por lo tanto, escindidos por el complejo de nucleasa y ARNg. Los sitios de PAM preferenciales para ambas enzimas se muestran de izquierda a derecha, respectivamente. MAD2 y MAD7 tienen preferencia por pA m de NYYN, aunque algunos PAM de NYYN funcionaron mejor que otros (Figuras 23A y 23B). Las eficiencias de edición frente a corte se caracterizaron adicionalmente para plásmidos de PAM de MAD7 seleccionados (Figuras 23C).
Ejemplo 13. Diseño de ensayo fuera de la diana basado en plásmidos sintéticos (SPOT)
Las bibliotecas diana fuera de la diana basadas en plásmidos sintéticos (SPOT) se diseñaron tomando secuencias espaciadoras individuales de 20 nucleótidos de longitud y adjuntando un subconjunto de secuencias de PAM a cada lado. En algunos experimentos, se añadió un PAM de YTTN en el lado 5' de cada diana y un PAM de NGG en el lado 3', generando de este modo el formato YTTN-ESPACIADORN=20-NGG (SEQ ID No : 377). Basándose en la nomenclatura oficial de la IUPAC, Y = C o T; y N = A, C, T o G. Se sometieron a ensayo ocho combinaciones de pares PAM 5'-PAM 3' en un experimento inicial para cada diana, uno para cada PAM 5' con cada PAM 3' muestreado dos veces. Específicamente, se generaron y se sometieron a ensayo las siguientes combinaciones PAM 5' - PAM 3': TTTA-AGG (SEQ ID NO: 378); TTTC-CGG (SEQ ID NO: 379); TTTG-GGG (SEQ ID NO: 380); TTTT-TGG (SEQ ID NO: 381); CTTA-AGG (SEQ ID NO: 382); CTTC-CGG (SEQ ID NO: 383); CTTG-GGG (SEQ ID NO: 384); y CTTT-TGG (SEQ ID NO: 385), donde había un espaciador de 20 nucleótidos entre cada combinación de PAM. Aunque en este experimento sólo se sometió a ensayo un número representativo de combinaciones, debe apreciarse que también pueden someterse a ensayo todas las combinaciones posibles de PAM de 5'-YTTN-N=20-N<g>G-3' (SEQ ID NO: 377). Después se usó el conjunto de espaciadores diana con diferentes combinaciones de PAM como molde para diseñar mutaciones puntuales en toda la secuencia espaciadora. El diseño de las bibliotecas de mutaciones en el espaciador diana consistió en cuatro conjuntos de mutaciones diferentes para cada secuencia PAM-espaciador y controles internos.
La primera biblioteca de mutaciones era una biblioteca de emparejamientos erróneos de barrido que consistía en emparejamientos erróneos contiguos de 1, 2, 3 o 4 pb, en donde cada emparejamiento erróneo era el nucleótido del complemento de la secuencia de tipo silvestre. Se generó cada posible mutación de 1, 2, 3 y 4 pb contiguos a lo largo de toda la longitud de la secuencia espaciadora.
La segunda biblioteca de mutaciones era una biblioteca de supresiones de barrido que consistía en supresiones contiguas de 1,2, 3 o 4 pb. Se generó cada posible supresión de 1, 2, 3 y 4 pb contiguos a lo largo de toda la longitud de la secuencia espaciadora.
La tercera biblioteca de mutaciones era una biblioteca de inserción única en donde se realizó una inserción de una única base en cada posición del espaciador. En algunos experimentos, cada inserción de 1 pb se realizó duplicando el nucleótido directamente en 5' del sitio de inserción. Otros diseños de bibliotecas de inserción incluyen duplicar el nucleótido directamente en 3' del sitio de inserción, o generar cada posible variante de inserción de nucleótidos, por ejemplo, una variante individual con la inserción de uno de A, T, C y G en cada posición en la región espaciadora.
La cuarta biblioteca de mutaciones era una biblioteca de mutagénesis aleatoria en donde se mutaron aleatoriamente posiciones de 2-5 pb para crear un conjunto diverso de secuencias mutantes que se aproximaban al tipo de diversidad biológicamente más relevante. No era necesario que estas mutaciones de 2-5 pb fueran contiguas y, por lo tanto, con frecuencia tenían intercalaciones de nucleótidos no mutados o de tipo silvestre entre los nucleótidos mutados. Se ha descubierto que estas mutaciones aleatorias no contiguas son comunes en los sistemas biológicos.
Al igual que con las bibliotecas de pPAM, las secuencias de SPOT se clonaron en vectores de ARNg que contenían un espaciador emparejado con la biblioteca diana para crear un vector de ARNg autodirigido. Los grupos de oligos se amplificaron y clonaron en el vector de ARNg que contenía un espaciador emparejado con la biblioteca diana para crear un vector de ARNg autodirigido que se agotaría en condiciones de crecimiento competitivas debido al corte y la pérdida del plásmido a presión selectiva. Las ocho combinaciones de PAM 5'-3' seleccionadas que flanquean cada una de las 8 secuencias espaciadoras diferentes se clonaron en vectores que contenían un ARNg modificado para emparejar con la diana.
Usando el ensayo SPOT, los ensayos de agotamientoin vivoson posibles, independientemente de la producción de complejos ribonucleoproteicos. Este ensayo también permite un análisis único fuera de la diana con diseños sistemáticos fuera de la diana a través de las diversas opciones de diseño de bibliotecas de mutaciones. Las ventajas adicionales del ensayo SPOT incluyen una variación más controlada de candidatos fuera de la diana, el ensayo puede usarse para comparar diferentes arquitecturas de PAM y el ensayo puede combinarse o mezclarse con el ensayo de biblioteca de pPAM descrito anteriormente.
Otros ensayos fuera de la diana, tales como Site-Seq, BLISS, Digenome-Seq o Circle-Seq, extraen los sitios de corte de los experimentos de mamíferos y publican las secuencias fuera de la diana con las eficiencias de reparación de NHEJ a partir de secuenciación profunda. Usando estos otros ensayos, la mayoría de los estudios muestran efectos fuera de la diana de emparejamientos erróneos aleatorios de más de 3 pb.
Ejemplo 14. Caracterización fuera de la diana
Los efectos fuera de la diana de MAD7 y MAD2 se analizaron usando el ensayo fuera de la diana basado en plásmidos sintéticos (SPOT) descrito anteriormente. En primer lugar, se analizó la actividad de escisión de ocho dianas con diversos sitios de PAM flanqueantes usando una nucleasa de referencia, MAD7 o MAD2. Después se usaron dianas seleccionadas anteriormente como puntos de partida para generar bibliotecas de diversas mutaciones aleatorias dentro de la diana. En este ensayo de ejemplo, se generó un amplicón de 171 pb cuando se amplificaron las regiones objetivo y PAM flanqueantes, permitiendo lecturas de 87 pb con índice en línea o lecturas de 46 pb con lecturas de índice de 12 pb.
Se muestran datos de experimentos de ejemplo en las Figuras 24A-C. Las dianas contenían el número indicado de mutaciones aleatorias (r3 = 3 pb; r4 = 4 pb; r5 = 5 pb). Se usó Cas9 para generar el gráfico de agotamiento en la Figura 24A, se usó MAD7 para generar el gráfico de agotamiento en la Figura 24B y se usó MAD2 para generar el gráfico de agotamiento en la Figura 24C.
Como se observa cuando se comparan los gráficos de agotamiento de proteínas de referencia con los gráficos de agotamiento de MAD7 y MAD2, la proteína de referencia tiene muchos más eventos de corte fuera de la diana en cada una de las bibliotecas r3, r4 y r5. Tanto MAD7 como MAD2 mostraron menos eventos de corte fuera de la diana para las mutaciones aleatorias, y prácticamente no hubo eventos de corte fuera de la diana con emparejamientos erróneos aleatorios de 5 pb. Estos eventos de corte fuera de la diana, o la falta de los mismos, son independientes de PAM o secuencia diana.
Ejemplo 15. Determinación combinada de PAM y análisis fuera de la diana
La capacidad para caracterizar la especificidad de PAM y los efectos fuera de la diana en un experimento combinado se sometió a ensayo combinando el ensayo de pPAM y el ensayo SPOT que se describieron anteriormente, que combinados en el presente ensayo se denominan ensayo Inscripta (por ejemplo, Figura 25). En un ensayo Inscripta de ejemplo, se genera un amplicón de 171 pb cuando se amplifican las regiones diana y PAM flanqueantes, permitiendo lecturas de 46 pb con lecturas de índice de 12 pb. Se eligieron secuencias de direccionamiento para muestrear uniformemente una amplia gama de valores de temperatura de fusión para la secuencia espaciadora.
El ensayo Inscripta se utilizó para caracterizar rápidamente la especificidad de PAM y las tasas fuera de la diana de 10 enzimas. El agotamiento de MAD7 fue esencialmente idéntico entre 20 horas (MAD7) y 24 horas (MAD7.24) de agotamiento. La entrada de plásmido fue similar a Ec110, que es una cepa de E.colicepa que contiene un plásmido de control similar a la cadena principal del vector motor descrito anteriormente, pero que carece de un gen que codifica nucleasa. El agotamiento de MAD2 permaneció igual con el promotor constitutivo Ec78* (MAD2) frente a Ec113, que es una cepa deE. colique contiene una cadena principal de vector motor como se ha descrito anteriormente que contiene un gen que codifica la nucleasa MAD7 controlada por un promotor proA constitutivo en lugar del sistema promotor inducible pL. Se observó un fuerte agotamiento con el uso de MAD7 o MAD2 y una biblioteca de múltiples dianas, y también se observó un fuerte agotamiento dentro de la biblioteca de múltiples dianas con MAD4. Se observó menos agotamiento con MAD5 en comparación con MAD2, MAD7 y MAD4.
Basándose en estos datos, se seleccionaron MAD7, MAD2, MAD4 y MAD5 para una caracterización adicional. Se analizaron las especificidades de PAM para cada uno usando los datos del ensayo de pPAM. Los gráficos de agotamiento para los PAM de TTN y CTTN sometidos a ensayo se representan en la Figura 26a y la Figura 26B, y los PAM RTTN y YCCN se representan en la Figura 26C.
Las puntuaciones de agotamientos de MAD7 para diversos PAM también se representan en la Figura 27A-27B y estos datos indican que el contenido de GC de la secuencia diana puede afectar a la escala de la actividad de agotamiento, lo que sugiere que la escisión y el direccionamiento pueden ajustarse basándose en la elección del PAM yla secuencia diana.
Las puntuaciones de agotamientos de MAD2 para diversos PAM también se representan en la Figura 28A-29B y estos datos indican que el contenido de GC de la secuencia diana puede afectar a la escala de la actividad de agotamiento, lo que sugiere que la escisión y el direccionamiento pueden ajustarse basándose en la elección del PAM yla secuencia diana. Por ejemplo, un PAM de TTTA con un contenido de G<c>equivalente al de la Diana 8 muestra un agotamiento muy fuerte.
Las puntuaciones de agotamientos de MAD4 para diversos PAM también se representan en la Figura 29A-29B y estos datos indican que el contenido de GC de la secuencia diana puede afectar a la escala de la actividad de agotamiento, lo que sugiere que la escisión y el direccionamiento pueden ajustarse basándose en la elección del PAM yla secuencia diana. MAD4 también mostró altas puntuaciones de agotamiento con Diana 8, que tiene el contenido de GC más alto de todas las dianas sometidas a ensayo.
También se representan puntuaciones de agotamiento de MAD5 para diversos PAM en las Figuras 30A-30B. Estos datos indican que MAD5 no produce un agotamiento fuerte de las combinaciones de secuencias diana y secuencias de PAM sometidas a ensayo.
Se caracterizaron adicionalmente los efectos de corte fuera de la diana de MAD7, MAD2 y MAD4. En las Figuras 31A-31C se representan datos de un ensayo SPOT de ejemplo que usa bibliotecas de mutantes de diversas dianas sometidas a ensayo. MAD4 mostró incluso menos actividad fuera de la diana que MAD2 y MAD7 en muchas de las clases de dianas sometidas a ensayo, como se indica en los datos de ejemplo representados en las Figuras 32A-32H. Se indican las bibliotecas de mutantes representadas en cada gráfico e incluyen mutaciones aleatorias (Figuras 32A y 32E), mutaciones de supresión (Figuras 32B y 32F), mutaciones de emparejamiento erróneo (Figuras 32C y 32G) o mutaciones de inserción (Figuras 32D y 32H). Las Figuras 32I-32P representan las puntuaciones de agotamiento de experimentos que usan MAD7 y las bibliotecas de mutaciones indicadas que comprenden mutaciones en la posición indicada dentro de cada secuencia diana que se sometió a ensayo. Estos datos son una combinación de todos los PAM de YTTN utilizados en el experimento usando MAD7. Para las Figuras 32I-32P, se calculó sinT a partir de un PAM 5'-NGGN y ts (tipo silvestre) es un control sin mutaciones en la diana, y "posición" es la posición de la mutación dentro de la secuencia diana. Las Figuras 32I-32J representan datos de una biblioteca de mutaciones de exploración de 1 pb (m1). Las Figuras 32K-32L representan datos de una biblioteca de mutaciones de exploración de 2 pb (m2), que tienen 2 mutaciones consecutivas comenzando en la posición indicada. Las Figuras 32M-32N representan datos de una biblioteca de mutaciones de exploración de 3 pb (m3), que tienen tres mutaciones consecutivas comenzando en la posición indicada. Combinados, estos datos indican que la secuencia semilla de las posiciones 1-7 es importante ya que las mutaciones dentro de esta región tienden a alterar la actividad de escisión de MAD7, como indican las puntuaciones reducidas de agotamiento para las mutaciones dentro de estas posiciones. Las Figuras 32O-32P representan datos de la biblioteca de mutaciones de barrido de 2 pb (m2) y representan datos de una diana organizada por la secuencia de PAM. Combinados, estos datos indican que algunas secuencias de PAM son menos específicas que otras, lo que sugiere una relación entre la fuerza de PAM y la especificidad de diana. Por ejemplo, el PAM de TTTA parece apoyar el corte de moldes con emparejamientos erróneos en tándem de 2 pb a una tasa mayor a la del resto de las combinaciones sometidas a ensayo, por ejemplo, en comparación con el PAM de c Tt T. Estas observaciones sugieren que la fuerza de PAM debe tenerse en cuenta en la elección de la diana.
Ejemplo 16. Caracterización de secuencias de ARN guía compatibles
Se sometieron a ensayo diversos ARN guía que comprendían secuencias del armazón diferentes con el fin de caracterizar qué secuencias del armazón son compatibles con las nucleasas MAD sometidas a ensayo. Se sometieron a ensayo armazones de la matriz de CRISPR endógena de la nucleasa MAD sujeto, al igual que secuencias del armazón heterólogas derivadas de sistemas de nucleasa MAD heterólogos u ortogonales. La Figura 33 representa un esquema de ejemplo de las diversas combinaciones de nucleasa MAD y armazón de ARN guía que se sometieron a ensayo y la construcción que se usó para someter a ensayo la compatibilidad de la nucleasa MAD (por ejemplo, N.° de MAD) y la secuencia del armazón de ARN guía (por ejemplo, n.° de MADcr) que se somete a ensayo. La construcción contenía un promotor que impulsaba la expresión del ARN guía, que comprende la secuencia del armazón (Repeticióncr) y la secuencia de direccionamiento (por ejemplo, espaciador galT45). La construcción también contenía una secuencia diana (por ejemplo, galT45, 24 pb) a la que se dirigió la secuencia de direccionamiento del ARN guía. Flanqueando la secuencia diana había regiones PAM de 3-4 pb. Cada construcción también contenía una ID de secuencia única o un código de barras que se usó para identificar la secuencia del armazón. La identificación podría producirse, por ejemplo, después de la amplificación del código de barras/ID única y la región de secuencia diana usando cebadores que flanquean esa región, como se indica en la Figura 33. En algunos ejemplos, la amplificación da como resultado un amplicón de 176 pb, lo que permite lecturas de 50 pb con lecturas de índice de 12 pb usando un kit V3 de alto rendimiento de 1x75 pb.
En un experimento de ejemplo, se sometieron a ensayo 12 enzimas MAD diferentes con 10 secuencias del armazón diferentes, cuyos amplicones resultantes se secuenciaron posteriormente en un único Ciclo de NextSeq.
Este ensayo se usó para someter a ensayo la compatibilidad de enzimas MAD específicas con diversas secuencias del armazón. Las estructuras primarias y secundarias de algunas de las secuencias del armazón sometidas a ensayo (n.° de MADcr) se representan en las Figuras 34A y 34B. La Figura 34A representa una alineación de las secuencias del armazón de ARNcr del sistema MAD indicado. La Figura 34B representa una porción de la región de pseudonudo de los ARNcr de MAD indicados. Estas alineaciones en las Figuras 34A-34B indican una secuencia fuerte y una conservación estructural de la región de pseudonudo de estos ARNcr de MAD alineados. Las alineaciones indican además que la presencia, aunque no necesariamente la secuencia, del extremo 5' de la región de repetición (como se marca en la Figura 34A) puede ser menos relevante para la actividad de escisión. Se indican las variaciones de secuencia de la secuencia consenso de ARNcr de MAD seleccionados; por ejemplo, el nucleótido 5' más representado es una C en el ARNcr de MAD3 a diferencia de la U en la secuencia consenso. Como ejemplo adicional, el segundo nucleótido en la estructura del bucle es una A en la secuencia consenso y en cambio es 1) U en el ARNcr de MAD10, 2) G en los ARNcr de MAD4, MAD7 y MAD11, 3) C en el ARNcr de MAd 25 y 4) una CU en el ARNcr de MAD3. Como ejemplo adicional, el tercer nucleótido en la estructura del bucle de la secuencia consenso es una U y, en cambio, es una G en el ARNcr de MAD5. Como se muestra, para algunos ARNcr de MAD, la secuencia del bucle tiene 4 nucleótidos de longitud, mientras que en otros (por ejemplo, ARNcr de MAD3) la secuencia del bucle tiene una longitud de 4 nucleótidos.
Los resultados de ejemplo de este ensayo se representan en las Figuras 35A-35C para MAD7, MAD2 y MAD4, respectivamente. A continuación se enumeran algunas observaciones de cada conjunto de datos.
Como se representa en la Figura 35A, MAD7 parece ser compatible con la mayoría de las secuencias del armazón sometidas a ensayo con un bucle de 4 pb. También parecía haber una actividad de escisión ligeramente menor con una secuencia del bucle UAGU cuando se acoplaba con secuencias de PAM más débiles. La actividad de MAD7 está ampliamente distribuida en una gama de secuencias de PAM, como lo indican las respectivas puntuaciones de agotamiento. Combinados, estos resultados sugieren que la actividad de MAD7 podría ajustarse mediante ingeniería de la secuencia del armazón. Se representan datos adicionales de estos experimentos de MAD7 en las Figuras 36A-36B, que muestran una comparación de la compatibilidad de MAD7 con su secuencia del armazón nativa y secuencias del armazón heterólogas que comprenden diferentes secuencias del bucle del tallo. En la Figura 37 se representan datos adicionales que muestran la compatibilidad de MAD7 con diversas secuencias del armazón con diferentes secuencias del bucle del tallo. Como muestran estos datos, la secuencia de la posición -1 en dirección 5' del PAM parece ser importante y el primer nucleótido "C" en la posición -1 afecta negativamente al agotamiento. Parece haber la siguiente preferencia en la posición -1: G>T>A>C, excepto en el caso de un PAM de CTTT, en cuyo caso la preferencia parece ser: A>G>T>C. Las secuencias espadadoras ricas en pirimidina (T/C), especialmente en la región semilla, parecían estar ligeramente desfavorecidas tanto por MAD7 como por MAD2, mientras que las ricas en purinas (A/G) ligeramente enriquecidas que tenían una C en dirección 5' de PAM también parecían perjudiciales.
Como se muestra en la Figura 35B, MAD2 parece ser compatible con la mayoría de los armazones sometidos a ensayo con un bucle de 4 pb. También se observó reconocimiento de PAM bimodal. Se muestran datos adicionales de estos experimentos en las Figuras 36C-37D, que muestran una comparación de la compatibilidad de MAD2 con su secuencia del armazón nativa y secuencias del armazón heterólogas que comprenden diferentes secuencias del bucle del tallo.
Como se representa en la Figura 35C, MAD4 parece ser compatible con la mayoría de los armazones sometidos a ensayo con un bucle de 4 pb. También parecía haber una actividad de escisión ligeramente menor con una secuencia del bucle UAGU cuando se acoplaba con secuencias de PAM más débiles. El reconocimiento de PAM parecía ser ligeramente bimodal. Se muestran datos adicionales de estos experimentos en las Figuras 36E-36F, que muestran una comparación de la compatibilidad de MAD4 con su secuencia del armazón nativa y secuencias del armazón heterólogas que comprenden diferentes secuencias del bucle del tallo.
Ejemplo 17. Caracterización de la actividad MAD7 en levadura
Se usó un ensayo de selección de CAN1 para someter a ensayo varias arquitecturas de casetes de MAD7 de levadura. En algunos experimentos de ejemplo, se sometieron a ensayo once casetes diferentes con diversas orientaciones de brazos de homología para determinar la eficiencia de la edición de la secuencia diana. En general, se transformaron células de levadura con uno de los casetes sujeto y un vector que expresaba la enzima MAD7 que tenía codones optimizados para la expresión en S.cerevisiae.Las células transformadas se sembraron en canavanina para su selección. Sólo las células que se editaron satisfactoriamente sobrevivirían a la selección por canavanina, lo que indica que la combinación de MAD7 y casete logró realizar la edición deseada. Después, se extrajo el ADN de las células seleccionadas y se confirmó la edición deseada mediante digestión o secuenciación. Se proporcionan detalles sobre los casetes sometidos a ensayo en la Tabla 6. En la Tabla 6, los nucleótidos subrayados indican secuencias potencialmente problemáticas debido a la posibilidad de que los motivos penta-T sirvan como señal de terminación de la transcripción en eucariotas y, por lo tanto, puedan causar problemas de expresión. Entonces, estas secuencias potencialmente problemáticas se alteraron en las diversas secuencias enlazadoras sometidas a ensayo retirando o reemplazando uno o más de los nucleótidos con los nucleótidos indicados en cursiva y negrita. En la Tabla 7 se resumen datos de un experimento de ejemplo. Estos datos indican que el casete estilo T a C - F de 36 pb es una orientación y organización preferida.
Tabla 6.
Tabla 7.
continuación
También se sometieron a ensayo disposiciones de casetes adicionales, tales como aquellas mostradas en la Tabla 8. En esta ronda de experimentos, los parámetros de los casetes se filtraron de manera que no hubiera TTTTT en el espaciador (secuencia de direccionamiento) y de manera que no hubiera regiones homopoliméricas de más de 6 pb en los brazos de homología o el espaciador (secuencia de direccionamiento).
La Tabla 9 resume las eficiencias de la edición de casetes seleccionados en experimentos adicionales, que muestran un intervalo de eficiencia de la edición del 25-100 % basándose en las mutaciones esperadas, y la Tabla 10 resumió las secuencias comprendidas en los casetes indicados y otros detalles experimentales, incluyendo las secuencias del gen TS diana y las secuencias mutadas que se insertaron después de la escisión del DNS con la enzima MAD sujeto y el complejo de ARNcr.
Tabla 8.
Tabla 9.
Tabla 10.
Ejemplo 18. Escisión de secuencias diana de mamíferosin vitro e in vivo.
Se usó MAD7 para direccionar y escindir dianas de células de mamíferos. Se generaron construcciones de expresión de MAD7 con codones optimizados deE. colio humanas (por ejemplo, Figura 38A). Brevemente, la construcción 169 contenía un promotor de hCMV unido operativamente a una secuencia de MAD7 con codones optimizados deE. colique también contenía una marcador de epítopo V5 5' (N-terminal) y una señal de ubicación nuclear (NLS), y la construcción también contiene un promotor de EF1alfa que impulsa la expresión de un gen indicador de GFP y de resistencia a Blasticidina. La construcción 119 es similar a la 169 con la excepción de que las secuencias NLS y V5 están en el extremo 3' (C-terminal) de la secuencia de MAD7. La construcción 19 es similar a la secuencia 169 con la excepción de que la secuencia MAD7 tiene codones optimizados para la expresión en células humanas en lugar deE. coli.La construcción 118 es similar a la construcción 119 con la excepción de que la secuencia MAD7 tiene codones optimizados para la expresión en células humanas en lugar deE. coli.Se usaron dos secuencias de ARN guía como se muestra en la Figura 38B.
Las Figuras 39A-39B representan los sitios diana dentro de los dos genes diana, PPIB (Figura 39A) y DNMT3B (Figura 39B). Las Figuras 39C-39D resumen la secuencia de PAM y la secuencia diana a las que se dirigen las secuencias de ARN guía indicadas, así como el porcentaje de contenido de CG de la secuencia diana y a qué cadena de ADN se dirige.
Cada uno de los vectores de expresión de MAD7 se transfectó por separado en células de mamífero y después se recogieron lisados celulares. Los lisados celulares se evaluaron mediante análisis de transferencia Western para confirmar la expresión de MAD7. Los lisados celulares también se usaron en un ensayo de cortein vitropara evaluar la función de la proteína MAD7, lo que indicaría la expresión y el plegamiento adecuados de la proteína expresada dentro de las células de mamífero. Este ensayo permite evaluar la expresión y la capacidad de escisión de MAD7 sin la posibilidad de que la maquinaria celular corrija el evento de escisión o lo bloquee debido a la compactación de la cromatina de la secuencia diana. Después de realizar el ensayo de escisión, el lisado se separó mediante electroforesis en gel y se analizó usando el software ImageJ y densitometría para determinar el % de escisión (% de corte), que se calculó dividiendo la intensidad del producto de escisión por la intensidad total de la banda.
La Figura 40 muestra la cuantificación del porcentaje de escisión (eficiencia de corte) de un experimento de ejemplo para las secuencias diana PPIB y DNMT3B indicadas usando la construcción 118. Se observó poca diferencia en la escisiónin vitroentre las secuencias de ARN guía de 42 monómeros y 56 monómeros, por lo que en la Figura 40 se representa el promedio de las dos. Para PPIB, ocho de los diez ARN guía sometidos a ensayo dieron como resultado una escisión dirigida, mientras que ARNg-14 y ARNg-25 dieron como resultado una escisión indetectable usando este ensayo. El ARNg-15 dirigido a PPIB dio como resultado una escisión eficiente, pero fue difícil de medir debido al pequeño tamaño del producto de escisión generado (aproximadamente 70 pb de diferencia entre los no cortados), por lo que se estimó que el porcentaje de escisión era > 90 %. Para DNMT3B, nueve de los diez ARN guía sometidos a ensayo dieron como resultado una escisión dirigida, mientras que ARNg-4 dieron como resultado una escisión indetectable usando este ensayo. El ARNg-1 dirigido a DNMT3B dio como resultado una escisión eficiente, pero fue difícil de medir debido al pequeño tamaño del producto de escisión generado (aproximadamente 70 pb de diferencia entre los no cortados), por lo que se estimó que el porcentaje de escisión era > 90 %.
La Figura 41 muestra la cuantificación de la formación de indels (inserción o supresión) en células de mamífero. Brevemente, un vector de expresión de nucleasa MAD7 (19 o 118; véase la Figura 38A) y un ARN guía sintético se cotransfectaron en células HEK293T. Después de un período de incubación de aproximadamente 72 horas, la escisiónin vivose evaluó detectando la formación de indels. Sin desear quedar ligados a teoría alguna, después de que se produjese la escisión, en algunos casos, el ADN escindido se repara a través de mecanismos de unión de extremos no homólogos (NHEJ), lo que con frecuencia da como resultado la inserción o supresión de uno o más nucleótidos del sitio de escisión. Estos eventos de inserción y/o supresión se denominan indels. Los indels se detectaron usando un ensayo de detección de emparejamientos erróneos de ADN usando el ensayo T7EI. Este ensayo de emparejamientos erróneos detecta emparejamientos erróneos entre las secuencias no alteradas esperadas y la secuencia alterada que comprende indels después de la escisión y reparación por NHEJ. En algunos casos, el ARN guía de 56 monómeros dio como resultado una mayor formación de indels en comparación con el ARN guía de 42 monómeros. Para PPIB, dos de tres ARN guía dieron como resultado una escisión detectable mediante este método, y tres de tres para el gen diana DNMT3B. Las otras dos construcciones, que usaron la nucleasa MAD7 con codones optimizados deE. colitambién demostró la formación de indels con relativamente la misma eficiencia que las construcciones con codones optimizados humanas (datos no mostrados). Globalmente, estos datos muestran una actividad de escisiónin vivosatisfactoria de MAD7 en células de mamífero.
Combinados, estos datos indican que MAD7 se expresa y pliega eficientemente en células de mamíferos y actúa eficientementein vitroyin vivoen secuencias diana de mamífero. Los datosin vitrotambién indican que el ARNg de 42 monómeros más corto corta tan eficientemente como el ARNg de 56 monómeros más largo, aunque esto no necesariamente se observó al medir la formación de indels endógenos en células de mamífero.
Ejemplo 19. Caracterización adicional de nucleasas MAD
Se realizó un cribado de edición para caracterizar adicionalmente las preferencias de PAM para nucleasas MAD seleccionadas. El gen galK se usó como diana para este cribado. Algunas observaciones notables de estos datos incluyen que se observó edición con MAD7 usando PAM de GTTG y TTTC y edición con MAD2 cuando se usó PAM de TTTC. En estos experimentos se observó cierta toxicidad celular. La Tabla 11 resume los resultados de estos experimentos.
Tabla 11.
El ensayo de cribado PAM se repitió usando MAD2, MAD4 y MAD7. De acuerdo con el diseño experimental de este ensayo, las colonias de color blanco reflejan inserciones de codones de parada debido a la recombinación homóloga de un casete de edición que contiene la mutación, mientras que una colonia de color rojo indicaría que no se insertó el codón de parada. MAD2 mostró una edición coherente con los datos de especificidad de PAM descritos previamente. MAD4 mostró una alta toxicidad celular y tenía menos colonias observables en comparación con las células transformadas con MAD2 y MAD7. MAD7 mostró resultados de edición coherentes con los datos de especificidad de PAM anteriores y mostró una eficiencia de la edición más amplia que MAD2.
Estos datos muestran una eficiencia de la edición superior al 90 % a pesar de las bajas tasas de supervivencia celular. La Tabla 12 resume los resultados de los experimentos. Estos datos indican que existe una menor variabilidad entre los sitios de PAM para MAD4 (~2,3 veces) en comparación con MAD2 (25 veces) o MAD7 (101 veces). Este factor de multiplicidad se calculó de la siguiente manera: Diferencia de multiplicidad = máx(UFC editadas)/mín(UFC editadas).
Tabla 12.

Claims (18)

REIVINDICACIONES
1. Un método de modificación de una región diana en el genoma de una célula, comprendiendo el método:
(a) poner en contacto una célula con:
una nucleasa guiada por ácido nucleico que comprende una secuencia de aminoácidos al menos un 90 % idéntica a la SEQ ID NO: 7;
un ácido nucleico guía modificado por ingeniería capaz de formar complejo con la nucleasa guiada por ácido nucleico; y
una secuencia de edición que codifica un ácido nucleico complementario a dicha región diana que tiene un cambio en la secuencia con respecto a la región diana; y
(b) permitir que la nucleasa, el ácido nucleico guía y la secuencia de edición creen una edición genómica en la región diana del genoma de la célula;
en donde el método no es un método para modificar la identidad genética de la estirpe germinal de seres humanos.
2. Un sistema de nucleasa guiada por ácido nucleico que comprende:
(a)
(i) una nucleasa guiada por ácido nucleico que comprende una secuencia de aminoácidos al menos un 90 % idéntica a la SEQ ID NO: 7, o
(ii) una molécula de ácido nucleico que codifica la nucleasa guiada por ácido nucleico;
(b)
(i) un ácido nucleico guía modificado por ingeniería capaz de formar complejo con la nucleasa guiada por ácido nucleico, o
(ii) una molécula de ácido nucleico que codifica el ácido nucleico guía modificado por ingeniería; y
(c) una secuencia de edición que codifica un ácido nucleico complementario a una región diana en un genoma de una célula que tiene un cambio en la secuencia con respecto a la secuencia de la región diana.
3. El método de la reivindicación 1 o el sistema de la reivindicación 2, en donde el ácido nucleico guía modificado por ingeniería y la secuencia de edición se proporcionan en forma de un único ácido nucleico, opcionalmente en donde el ácido nucleico único comprende además una mutación en un sitio de motivo adyacente al protoespaciador (PAM).
4. El método de la reivindicación 1 o el sistema de la reivindicación 2, en donde:
(a) la nucleasa guiada por ácido nucleico está codificada por un ácido nucleico con al menos un 85 % de identidad con la SEQ ID NO: 47 o 203-222;
(b) la nucleasa guiada por ácido nucleico está codificada por un ácido nucleico con al menos un 85 % de identidad con la SEQ ID NO: 133 o 183-202;
(c) la nucleasa guiada por ácido nucleico está codificada por un ácido nucleico con al menos un 85 % de identidad con la SEQ ID NO: 153 o 243-262; o
(d) la nucleasa guiada por ácido nucleico está codificada por un ácido nucleico con al menos un 85 % de identidad con la SEQ ID NO: 223-242.
5. El método de la reivindicación 1 o el sistema de la reivindicación 2, en donde el ácido nucleico guía modificado por ingeniería comprende la secuencia de una cualquiera de las SEQ ID NO: 172-182.
6. El método de la reivindicación 1 o el sistema de la reivindicación 2, en donde el ácido nucleico guía modificado por ingeniería comprende una secuencia del bucle que comprende la secuencia de UAUU, UUUU, UGUU, UCUU, UCUUU o UAGU.
7. El sistema de la reivindicación 2, en donde la molécula de ácido nucleico que codifica la nucleasa guiada por ácido nucleico tiene codones optimizados para la célula que ha de editarse.
8. Una composición que comprende
(a)
(i) una nucleasa guiada por ácido nucleico que comprende una secuencia de aminoácidos al menos un 90 % idéntica a la SEQ ID NO: 7, o
(ii) una molécula de ácido nucleico que codifica la nucleasa guiada por ácido nucleico; y
(b)
(i) un ácido nucleico guía modificado por ingeniería capaz de formar complejo con la nucleasa guiada por ácido nucleico, o
(ii) una molécula de ácido nucleico que codifica el ácido nucleico guía modificado por ingeniería, en donde el ácido nucleico guía modificado por ingeniería comprende una secuencia del bucle que comprende la secuencia de UAUU, UUUU, UGUU, UCUU, UCUUU o UAGU.
9. Un sistema de nucleasa guiada por ácido nucleico que comprende:
(a)
(i) una nucleasa guiada por ácido nucleico que comprende una secuencia de aminoácidos al menos un 90 % idéntica a la SEQ ID NO: 7, o
(ii) una molécula de ácido nucleico que codifica la nucleasa guiada por ácido nucleico; y
(b)
(i) un ácido nucleico guía modificado por ingeniería heterólogo capaz de formar complejo con la nucleasa guiada por ácido nucleico, o
(ii) una molécula de ácido nucleico que codifica el ácido nucleico guía modificado por ingeniería heterólogo.
10. La composición de la reivindicación 8, en donde el ácido nucleico guía modificado es un ácido nucleico guía modificado por ingeniería heterólogo.
11. La composición de la reivindicación 8 o el sistema de la reivindicación 9, en donde el ácido nucleico guía modificado por ingeniería comprende la secuencia de una cualquiera de las SEQ ID NO: 172-182.
12. La composición de la reivindicación 8 o el sistema de la reivindicación 9, en donde la nucleasa está codificada por una secuencia de ácido nucleico con codones optimizados para:
(a) el uso en células de un organismo particular;
(b)E. coli;o
(c) S.cerevisiae;o
(d) células de mamífero; o
(e) células humanas; o
(f) células vegetales.
13. El sistema de la reivindicación 9, que comprende además (c) una secuencia de edición que codifica un ácido nucleico complementario a una región diana en un genoma de una célula que tiene un cambio en la secuencia con respecto a la secuencia de la región diana.
14. El sistema de la reivindicación 9, en donde el ácido nucleico guía modificado por ingeniería comprende una secuencia del bucle que comprende la secuencia de UAUU, UUUU, UGUU, UCUU, u Cu UU o UAGU.
15. El método de la reivindicación 1, 3, 4, 5 o 6, o el sistema de la reivindicación 2, 3, 4, 5, 6 o 7, en donde la nucleasa guiada por ácido nucleico comprende una secuencia de aminoácidos al menos un 95 % idéntica a la SEQ ID NO: 7.
16. El método de la reivindicación 1, 3, 4, 5 o 6, o el sistema de la reivindicación 2, 3, 4, 5, 6 o 7, en donde la nucleasa guiada por ácido nucleico comprende la secuencia de aminoácidos de la SEQ ID NO: 7.
17. La composición de la reivindicación 8, 10, 11 o 12, o el sistema de la reivindicación 9, 11, 12, 13 o 14, en donde la nucleasa guiada por ácido nucleico comprende una secuencia de aminoácidos al menos un 95 % idéntica a la SEQ ID NO: 7.
18. La composición de la reivindicación 8, 10, 11 o 12, o el sistema de la reivindicación 9, 11, 12, 13 o 14, en donde la nucleasa guiada por ácido nucleico comprende la secuencia de aminoácidos de la SEQ ID NO: 7.
ES18821213T 2017-06-23 2018-05-25 Nucleasas guiadas por ácidos nucleicos Active ES2971549T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/631,989 US10011849B1 (en) 2017-06-23 2017-06-23 Nucleic acid-guided nucleases
US15/632,001 US9982279B1 (en) 2017-06-23 2017-06-23 Nucleic acid-guided nucleases
PCT/US2018/034779 WO2018236548A1 (en) 2017-06-23 2018-05-25 NUCLEIC ACID GUIDED NUCLEASES

Publications (1)

Publication Number Publication Date
ES2971549T3 true ES2971549T3 (es) 2024-06-05

Family

ID=64737785

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18821213T Active ES2971549T3 (es) 2017-06-23 2018-05-25 Nucleasas guiadas por ácidos nucleicos

Country Status (12)

Country Link
EP (2) EP3916086A1 (es)
JP (2) JP7136816B2 (es)
KR (2) KR102558931B1 (es)
CN (1) CN111511906A (es)
AU (2) AU2018289077B2 (es)
CA (1) CA3067951A1 (es)
ES (1) ES2971549T3 (es)
IL (1) IL271342A (es)
MX (1) MX2019015047A (es)
NZ (1) NZ760730A (es)
RU (2) RU2769475C2 (es)
WO (1) WO2018236548A1 (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
US9982279B1 (en) 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases
KR20220031070A (ko) * 2019-07-08 2022-03-11 인스크립타 인코포레이티드 Lexa-rad51 융합 단백질을 통한 증가된 핵산-가이드된 세포 편집
EP4026910A1 (en) * 2019-09-04 2022-07-13 Edigene Inc. Method for evaluating gene editing therapy based on off-target assessment
WO2021118626A1 (en) 2019-12-10 2021-06-17 Inscripta, Inc. Novel mad nucleases
US11746352B2 (en) 2019-12-30 2023-09-05 Eligo Bioscience Microbiome modulation of a host by delivery of DNA payloads with minimized spread
US11584781B2 (en) 2019-12-30 2023-02-21 Eligo Bioscience Chimeric receptor binding proteins resistant to proteolytic degradation
EP4110929A1 (en) 2020-02-28 2023-01-04 KWS SAAT SE & Co. KGaA Immature inflorescence meristem editing
WO2021170787A1 (en) 2020-02-28 2021-09-02 KWS SAAT SE & Co. KGaA Method for rapid genome modification in recalcitrant plants
EP3922719A1 (en) 2020-06-12 2021-12-15 Eligo Bioscience Specific decolonization of antibiotic resistant bacteria for prophylactic purposes
EP4172340A1 (en) 2020-06-29 2023-05-03 KWS SAAT SE & Co. KGaA Boosting homology directed repair in plants
WO2022003209A1 (en) 2020-07-03 2022-01-06 Eligo Bioscience Method of containment of nucleic acid vectors introduced in a microbiome population
WO2022090224A1 (en) 2020-10-27 2022-05-05 KWS SAAT SE & Co. KGaA Use of enhanced pol theta activity for eukaryotic genome engineering
KR20230118887A (ko) 2020-12-03 2023-08-14 센츄리 쎄라퓨틱스 인코포레이티드 유전자 조작 세포 및 이의 용도
US11661459B2 (en) 2020-12-03 2023-05-30 Century Therapeutics, Inc. Artificial cell death polypeptide for chimeric antigen receptor and uses thereof
WO2022144381A1 (en) 2020-12-30 2022-07-07 Eligo Bioscience Microbiome modulation of a host by delivery of dna payloads with minimized spread
WO2022147157A1 (en) * 2020-12-31 2022-07-07 Gigamune, Inc. Novel nucleic acid-guided nucleases
CN114277015B (zh) * 2021-03-16 2023-12-15 山东舜丰生物科技有限公司 Crispr酶以及应用
US11739304B2 (en) 2021-05-12 2023-08-29 Eligo Bioscience Production of lytic phages
WO2022243437A1 (en) 2021-05-19 2022-11-24 KWS SAAT SE & Co. KGaA Sample preparation with oppositely oriented guide polynucleotides
BR112023024985A2 (pt) 2021-06-01 2024-02-20 Arbor Biotechnologies Inc Sistemas de edição de genes compreendendo uma crispr nuclease e usos dos mesmos
EP4166670A1 (en) 2021-10-18 2023-04-19 KWS SAAT SE & Co. KGaA Plant-tag-based weeding control
CN113846075A (zh) * 2021-11-29 2021-12-28 科稷达隆(北京)生物技术有限公司 Mad7-nls融合蛋白、用于植物基因组定点编辑的核酸构建物及其应用
WO2023240147A1 (en) 2022-06-08 2023-12-14 Century Therapeutics, Inc. Genetically engineered cells expressing cd16 variants and nkg2d and uses thereof
WO2023240169A1 (en) 2022-06-08 2023-12-14 Century Therapeutics, Inc. Immunoeffector cells derived from induced pluripotent stem cells genetically engineered with membrane bound il12 and uses thereof
WO2024047561A1 (en) 2022-09-02 2024-03-07 Janssen Biotech, Inc. Biomaterials and processes for immune synapse modulation of hypoimmunogenicity
WO2024062138A1 (en) 2022-09-23 2024-03-28 Mnemo Therapeutics Immune cells comprising a modified suv39h1 gene
WO2024102838A1 (en) 2022-11-09 2024-05-16 Century Therapeutics, Inc. Engineered interleukin-7 receptors and uses thereof
WO2024103017A2 (en) 2022-11-10 2024-05-16 Century Therapeutics, Inc. Genetically engineered cells having anti-nectin4 chimeric antigen receptors, and uses thereof

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4217344A (en) 1976-06-23 1980-08-12 L'oreal Compositions containing aqueous dispersions of lipid spheres
US4235871A (en) 1978-02-24 1980-11-25 Papahadjopoulos Demetrios P Method of encapsulating biologically active materials in lipid vesicles
US4186183A (en) 1978-03-29 1980-01-29 The United States Of America As Represented By The Secretary Of The Army Liposome carriers in chemotherapy of leishmaniasis
US4261975A (en) 1979-09-19 1981-04-14 Merck & Co., Inc. Viral liposome particle
US4485054A (en) 1982-10-04 1984-11-27 Lipoderm Pharmaceuticals Limited Method of encapsulating biologically active materials in multilamellar lipid vesicles (MLV)
US4501728A (en) 1983-01-06 1985-02-26 Technology Unlimited, Inc. Masking of liposomes from RES recognition
US4946787A (en) 1985-01-07 1990-08-07 Syntex (U.S.A.) Inc. N-(ω,(ω-1)-dialkyloxy)- and N-(ω,(ω-1)-dialkenyloxy)-alk-1-yl-N,N,N-tetrasubstituted ammonium lipids and uses therefor
US4897355A (en) 1985-01-07 1990-01-30 Syntex (U.S.A.) Inc. N[ω,(ω-1)-dialkyloxy]- and N-[ω,(ω-1)-dialkenyloxy]-alk-1-yl-N,N,N-tetrasubstituted ammonium lipids and uses therefor
US5049386A (en) 1985-01-07 1991-09-17 Syntex (U.S.A.) Inc. N-ω,(ω-1)-dialkyloxy)- and N-(ω,(ω-1)-dialkenyloxy)Alk-1-YL-N,N,N-tetrasubstituted ammonium lipids and uses therefor
US4797368A (en) 1985-03-15 1989-01-10 The United States Of America As Represented By The Department Of Health And Human Services Adeno-associated virus as eukaryotic expression vector
US4774085A (en) 1985-07-09 1988-09-27 501 Board of Regents, Univ. of Texas Pharmaceutical administration systems containing a mixture of immunomodulators
US4837028A (en) 1986-12-24 1989-06-06 Liposome Technology, Inc. Liposomes with enhanced circulation time
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5264618A (en) 1990-04-19 1993-11-23 Vical, Inc. Cationic lipids for intracellular delivery of biologically active molecules
WO1991017424A1 (en) 1990-05-03 1991-11-14 Vical, Inc. Intracellular delivery of biologically active substances by means of self-assembling lipid complexes
US5210015A (en) 1990-08-06 1993-05-11 Hoffman-La Roche Inc. Homogeneous assay system using the nuclease activity of a nucleic acid polymerase
US5173414A (en) 1990-10-30 1992-12-22 Applied Immune Sciences, Inc. Production of recombinant adeno-associated virus vectors
US5587308A (en) 1992-06-02 1996-12-24 The United States Of America As Represented By The Department Of Health & Human Services Modified adeno-associated virus vector capable of expression from a novel promoter
WO1996039154A1 (en) 1995-06-06 1996-12-12 Isis Pharmaceuticals, Inc. Oligonucleotides having phosphorothioate linkages of high chiral purity
US5985662A (en) 1995-07-13 1999-11-16 Isis Pharmaceuticals Inc. Antisense inhibition of hepatitis B virus replication
JP4303418B2 (ja) 1997-10-24 2009-07-29 ライフ テクノロジーズ コーポレーション 組換え部位を有する核酸を使用する組換えクローニング
US9405700B2 (en) 2010-11-04 2016-08-02 Sonics, Inc. Methods and apparatus for virtualization in an integrated circuit
PT2800811T (pt) 2012-05-25 2017-08-17 Univ California Métodos e composições para modificação de adn alvo dirigida por arn e para modulação dirigida por arn de transcrição
EP2931899A1 (en) * 2012-12-12 2015-10-21 The Broad Institute, Inc. Functional genomics using crispr-cas systems, compositions, methods, knock out libraries and applications thereof
US8697359B1 (en) 2012-12-12 2014-04-15 The Broad Institute, Inc. CRISPR-Cas systems and methods for altering expression of gene products
US9790490B2 (en) * 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems
CA2998287A1 (en) * 2015-09-24 2017-04-20 Crispr Therapeutics Ag Novel family of rna-programmable endonucleases and their uses in genome editing and other applications
WO2017096041A1 (en) * 2015-12-02 2017-06-08 The Regents Of The University Of California Compositions and methods for modifying a target nucleic acid
US20190233814A1 (en) 2015-12-18 2019-08-01 The Broad Institute, Inc. Novel crispr enzymes and systems
US9896696B2 (en) * 2016-02-15 2018-02-20 Benson Hill Biosystems, Inc. Compositions and methods for modifying genomes
CN106244591A (zh) * 2016-08-23 2016-12-21 苏州吉玛基因股份有限公司 修饰crRNA在CRISPR/Cpf1基因编辑系统中的应用
AU2017280353B2 (en) * 2016-06-24 2021-11-11 Inscripta, Inc. Methods for generating barcoded combinatorial libraries
US9982279B1 (en) * 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases

Also Published As

Publication number Publication date
EP3642334A4 (en) 2021-03-24
KR102321388B1 (ko) 2021-11-03
JP7136816B2 (ja) 2022-09-13
KR20200020903A (ko) 2020-02-26
RU2020102451A (ru) 2021-07-26
RU2769475C2 (ru) 2022-04-01
EP3642334B1 (en) 2023-12-27
RU2022103603A (ru) 2022-03-11
KR20210132244A (ko) 2021-11-03
EP3916086A1 (en) 2021-12-01
JP2022169775A (ja) 2022-11-09
KR102558931B1 (ko) 2023-07-21
CA3067951A1 (en) 2018-12-27
IL271342A (en) 2020-01-30
WO2018236548A1 (en) 2018-12-27
NZ760730A (en) 2023-04-28
AU2018289077B2 (en) 2022-03-10
JP2020530264A (ja) 2020-10-22
EP3642334C0 (en) 2023-12-27
RU2020102451A3 (es) 2021-11-25
CN111511906A (zh) 2020-08-07
MX2019015047A (es) 2020-08-03
AU2022202248A1 (en) 2022-04-21
AU2018289077A1 (en) 2020-01-30
EP3642334A1 (en) 2020-04-29

Similar Documents

Publication Publication Date Title
ES2971549T3 (es) Nucleasas guiadas por ácidos nucleicos
US11130970B2 (en) Nucleic acid-guided nucleases
US11697826B2 (en) Nucleic acid-guided nucleases
JP7083364B2 (ja) 配列操作のための最適化されたCRISPR-Cas二重ニッカーゼ系、方法および組成物
US20190359976A1 (en) Novel engineered and chimeric nucleases
WO2021168799A1 (en) Type vi-e and type vi-f crispr-cas system and uses thereof
US20230086489A1 (en) Novel design of guide rna and uses thereof
WO2023274226A1 (en) Crispr/cas system and uses thereof
US20190292568A1 (en) Genomic editing in automated systems