ES2953541T3 - Sistemas y enzimas novedosos de direccionamiento a ADN y ARN de CRISPR - Google Patents

Sistemas y enzimas novedosos de direccionamiento a ADN y ARN de CRISPR Download PDF

Info

Publication number
ES2953541T3
ES2953541T3 ES19717640T ES19717640T ES2953541T3 ES 2953541 T3 ES2953541 T3 ES 2953541T3 ES 19717640 T ES19717640 T ES 19717640T ES 19717640 T ES19717640 T ES 19717640T ES 2953541 T3 ES2953541 T3 ES 2953541T3
Authority
ES
Spain
Prior art keywords
rna
crispr
nucleic acid
sequence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19717640T
Other languages
English (en)
Inventor
Elise Keston Smith
David A Scott
David R Cheng
Winston X Yan
Pratyusha Hunnewell
Jason Carte
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arbor Biotechnologies Inc
Original Assignee
Arbor Biotechnologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arbor Biotechnologies Inc filed Critical Arbor Biotechnologies Inc
Application granted granted Critical
Publication of ES2953541T3 publication Critical patent/ES2953541T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/85Fusion polypeptide containing an RNA binding domain
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Mycology (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Saccharide Compounds (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

La divulgación describe nuevos sistemas, métodos y composiciones para la manipulación de ácidos nucleicos de forma dirigida. La divulgación describe sistemas, componentes y métodos CRISPR diseñados de origen no natural para la modificación dirigida de ácidos nucleicos como el ADN. Cada sistema incluye uno o más componentes proteicos y uno o más componentes de ácido nucleico que juntos se dirigen a ácidos nucleicos. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Sistemas y enzimas novedosos de direccionamiento a ADN y ARN de CRISPR
Campo de la invención
La presente divulgación se refiere a sistemas, a métodos y a composiciones usados para el control de la expresión génica que implica la selección como diana de secuencias y la edición de ácidos nucleicos, que usa sistemas de vector relacionados con repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas (CRISPR) y componentes de las mismas.
Antecedentes
La aplicación reciente de los avances en las tecnologías y el análisis de la secuenciación del genoma ha producido conocimientos significativos sobre la base genética de las actividades biológicas en muchas áreas diversas de la naturaleza, que van desde las rutas de biosíntesis procariotas hasta las patologías humanas. Para comprender y evaluar completamente la gran cantidad de información producida por las tecnologías de secuenciación genética, se necesitan aumentos equivalentes en la escala, la eficacia y la facilidad de las tecnologías para la manipulación del genoma y el epigenoma. Estas tecnologías novedosas de ingeniería del genoma y el epigenoma acelerarán el desarrollo de aplicaciones novedosas en numerosas áreas, incluyendo la biotecnología, la agricultura y la terapéutica humana.
Actualmente se sabe que las repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas (CRISPR) y los genes asociados a CRISPR (Cas), conocidos conjuntamente como sistemas de CRISPR-Cas o CRISPR/Cas, proporcionan inmunidad a bacterias y arqueas frente a la infección por fagos. Los sistemas de CRISPR-Cas de la inmunidad adaptativa procariota son un grupo extremadamente diverso de proteínas efectoras, elementos no codificantes, así como arquitecturas de loci, algunos ejemplos de los cuales se han diseñado por ingeniería genética y adaptado para producir biotecnologías importantes.
Los componentes del sistema implicados en la defensa del huésped incluyen una o más proteínas efectoras capaces de modificar el ADN o el ARN y un elemento guía de ARN que es responsable de dirigir estas actividades proteicas a una secuencia específica en el ADN o ARN del fago. La guía de ARN está compuesta por un ARN de CRISPR (ARNcr) y puede requerir un ARN transactivador adicional (ARNtracr) para permitir la manipulación del ácido nucleico seleccionado como diana por la(s) proteína(s) efectora(s). El ARNcr consiste en una repetición directa responsable de la unión de la proteína al ARNcr y una secuencia espaciadora que es complementaria a la secuencia diana de ácido nucleico deseada. Los sistemas de CRISPR pueden reprogramarse para seleccionar como diana dianas de ADN o ARN alternativas modificando la secuencia espaciadora del ARNcr.
Los sistemas de CRISPR-Cas pueden clasificarse en términos amplios en dos clases: sistemas de clase 1, que se componen de múltiples proteínas efectoras que juntas forman un complejo alrededor de un ARNcr, y sistemas de clase 2, que consisten en una única proteína efectora que forma complejos con la guía de ARN para seleccionar como diana sustratos de ADN o ARN. La composición de efectores de una sola subunidad de los sistemas de clase 2 proporciona un conjunto de componentes más simple para la ingeniería genética y su traducción en aplicaciones, y hasta ahora ha sido una fuente importante de efectores programables. Por tanto, el descubrimiento, la ingeniería y la optimización de sistemas de clase 2 novedosos pueden conducir a tecnologías programables potentes y generalizadas para la ingeniería del genoma y más allá.
La caracterización y la ingeniería de los sistemas de CRISPR-Cas de clase 2, ejemplificados por CRISPR-Cas9, han allanado el camino para una amplia gama de aplicaciones biotecnológicas en la edición del genoma y más allá. Por ejemplo, las proteínas efectoras Cas12a (Cpf1) y Cas13a (C2c2) poseen actividades de escisión de nucleasas monocatenarias “colaterales” no específicas, que pueden aprovecharse para crear novedosos diagnósticos, métodos y otras aplicaciones. Sin embargo, sigue existiendo la necesidad de sistemas y efectores programables adicionales para modificar ácidos nucleicos y polinucleótidos (es decir, ADN, ARN o cualquier híbrido, derivado o modificación) más allá de los sistemas de CRISPR-Cas actuales que permitan novedosas aplicaciones a través de sus propiedades únicas.
El documento WO 2017/091630 se refiere a sistemas de CRISPR-Cas que seleccionan como diana ARN. El documento WO 2016/106236 se refiere a métodos para identificar sistemas de CRISPR-Cas que seleccionan como diana ARN. Strutt et al., RNA-dependent RNA targeting by CRISPR-Cas9, ELIFE, vol. 7, 5 enero de 2018, se refiere a enzimas Cas9 de los subtipos II-A y II-C que pueden reconocer y escindir ARN monocatenario (ARNmc) mediante un mecanismo guiado por ARN que es independiente de una secuencia de motivo adyacente al protoespaciador (PAM) en el ARN diana. Smargon et al., Cas13b is a type IV-B CRISPR-associated RNA guided RNase differentially regulated by accessory proteins C8x27 and C8x28, Molecular Cell, vol. 65, n.° 4, 5 enero de 2017, se refiere a dos sistemas de CRISPR-Cas de clase 2 (subtipo VI-B) que carecen de Cas1 y Cas2 y abarcan Cas13b, que escinde el ARN diana.
La cita o identificación de cualquier documento en esta solicitud no es una admisión de que tal documento esté disponible como técnica anterior a la presente invención.
Sumario
Esta divulgación proporciona sistemas y composiciones diseñados por ingeniería genética que no se producen de manera natural para nuevos sistemas de CRISPR-Cas de clase 2 de un solo efector, junto con métodos para la identificación computacional a partir de bases de datos genómicas, el desarrollo de los loci naturales en un sistema diseñado por ingeniería genética y la validación experimental y su traducción en aplicaciones. Estos nuevos efectores tienen una secuencia divergente a los ortólogos y homólogos de efectores de CRISPR de clase 2 existentes, y tienen también organizaciones de dominios únicas. Proporcionan características adicionales que incluyen, pero no se limitan a, 1) novedosas propiedades de edición de ADN/ARN y mecanismos de control, 2) tamaño más pequeño para una mayor versatilidad en estrategias de administración, 3) procesos celulares desencadenados por el genotipo tales como muerte celular y 4) inserción, escisión y movilización de ADN programables guiadas por ARN. La adición de los nuevos sistemas de selección como diana de ADN descritos en el presente documento al conjunto de herramientas de técnicas para la manipulación del genoma y el epigenoma permite amplias aplicaciones para alteraciones programadas específicas.
En general, esta divulgación se refiere a nuevos sistemas de CRISPR-Cas que incluyen enzimas recién descubiertas y otros componentes usados para crear sistemas mínimos que pueden usarse en entornos no naturales, por ejemplo, en bacterias distintas de aquellas en las que se descubrió inicialmente el sistema o células de mamífero.
En un primer aspecto, la invención proporciona un sistema asociado a repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas (CRISPR) (Cas) que no se produce de manera natural que comprende:
una guía de ARN o un ácido nucleico que codifica para una guía de ARN, en el que la guía de ARN comprende una secuencia de repetición directa, una secuencia espaciadora capaz de hibridarse con un ácido nucleico diana, y un ARNtracr; y
una proteína efectora de CRISPR-Cas que contiene dominio de nucleasa RuvC o un ácido nucleico que codifica para la proteína efectora de CRISPR-Cas que contiene dominio de nucleasa RuvC, en el que la proteína efectora de CRISPR-Cas que contiene dominio de nucleasa RuvC es capaz de unirse a la guía de a Rn y de dirigir la secuencia de ácido nucleico diana complementaria a la secuencia espaciadora; y
en el que la proteína efectora de CRISPR-Cas comprende una secuencia de aminoácidos que es al menos el 95 % idéntica a la secuencia de aminoácidos de SEQ ID NO: 6, y en el que el ácido nucleico diana es ARN. En un aspecto, la divulgación proporciona sistemas de CRISPR-Cas diseñados por ingeniería genética que no se producen de manera natural que incluyen: i) una guía de ARN que incluye o que consiste en una secuencia de repetición directa y una secuencia espaciadora capaz de hibridarse con un ácido nucleico diana; y ii) una proteína efectora de CRISPR-Cas CLUST.019143 (tipo V-G), en los que la proteína efectora incluye o consiste en una secuencia de aminoácidos que es al menos el 80 % (por ejemplo, el 81 %, el 82 %, el 83 %, el 84 %, el 85 %, el 86 %, el 87 %, el 88 %, el 89 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 %, el 99 % o el 100 %) idéntica a una secuencia de aminoácidos proporcionada en la tabla 4 (por ejemplo, SEQ ID NO: 1-8 y 15-24); en los que la proteína efectora es capaz de unirse a la guía de ARN y de dirigir la secuencia de ácido nucleico diana complementaria a la secuencia espaciadora. En algunas realizaciones, la proteína asociada a CRISPR tiene un dominio RuvC.
Tal como se usa en el presente documento, las proteínas efectoras de CRISPR-Cas de tipo V-G (CLUST.019143) también se denominan proteínas efectoras Cas12g, y estos dos términos se usan indistintamente en esta divulgación.
En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la proteína efectora de CRISPR-Cas de tipo V-G incluye el dominio RuvC I XaXbDXbXa (SEQ ID NO: 210), en el que Xa es un residuo pequeño (A o G o S o T) y Xb es un residuo hidrófobo (C o F o I o L o M o P o V o W o Y). En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G incluye el dominio RuvC II XbXbXbXbE (SEQ ID NO: 211), en el que Xb es un residuo hidrófobo (C o F o I o L o M o P o V o W o Y). En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G incluye el dominio RuvC III DXNAA (SEQ ID NO: 212), en el que X es cualquier residuo de aminoácido. En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G incluye más de uno de los motivos en el conjunto SEQ ID NO: 210, SEQ ID NO: 211, SEQ ID NO: 212.
En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la proteína efectora de CRISPR-Cas de tipo V-G es el efector CLUST.019143 FLYL01000025 (Cas12g1) (SEQ ID NO: 6).
En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la proteína efectora de CRISPR-Cas de tipo V-G incluye o consiste en al menos un dominio RuvC, por ejemplo, un dominio RuvC I, RuvC II o RuvC III. En algunas realizaciones, ninguno, uno o más de los dominios RuvC están inactivados catalíticamente.
En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la proteína efectora de CRISPR-Cas de tipo V-G incluye o consiste en una o más sustituciones de aminoácidos dentro de al menos uno de los dominios RuvC. En algunas realizaciones, la una o más sustituciones de aminoácidos incluyen, por ejemplo, una sustitución de alanina en un residuo amino correspondiente a D513 de SEQ ID NO: 6.
En algunas realizaciones, la una o más sustituciones de aminoácidos dan como resultado una reducción de la actividad nucleasa de la proteína efectora de CRISPR-Cas de tipo V-G en comparación con la actividad nucleasa de la proteína efectora de CRISPR-Cas de tipo V-G sin la una o más sustituciones de aminoácidos.
En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la guía de ARN incluye una secuencia de repetición directa que incluye o que consiste en una secuencia de nucleótidos o subsecuencia de la misma proporcionada en la tabla 5a (por ejemplo, SEQ ID NO: 9-13, 25-34). En algunas realizaciones, la secuencia de repetición directa incluye 5 ’-X1X2X3GNX6TX8XgGACACC-3 ’ (SEQ ID NO: 200) proximal a su extremo 3’ y adyacente a la secuencia espaciadora, en la que Xi es A o G, X2 es A o C o G, X3 es C o G, X6 es A o C o T o U, N es cualquier ácido nucleico, X8 es C o G o T o U, y X9 es C o G o T o U. En algunas realizaciones, la secuencia de repetición directa incluye 5 ’-XiGX3GGTX7X8TTACAXi4C-3 ’ (SEQ ID NO: 201) proximal a su extremo 3’ y adyacente a la secuencia espaciadora, en la que Xi es C o G, X3 es G o T o U, X7 es A o T o U, X8 es C o G, y X14 es A o C.
En algunas realizaciones, la guía de ARN de tipo V-G incluye o consiste en una secuencia de nucleótidos o subsecuencia de la misma proporcionada en la tabla 5B (por ejemplo, SEQ ID NO: 150-167), en la que la secuencia espaciadora se denota por N contiguos. En algunas realizaciones, la guía de ARN de tipo V-G incluye o consiste en una secuencia de nucleótidos construida por la concatenación de una secuencia de repetición directa, espaciador, repetición directa en la que la secuencia de repetición directa se proporciona en la tabla 5A y la longitud del espaciador se proporciona en la columna de longitud del espaciador en la tabla 5B.
En algunas realizaciones, la repetición directa de la guía de ARN está truncada en el extremo 5’ entre 1 y aproximadamente 25 nucleótidos (por ejemplo, 16, 17, 18, 19, 20, 21, 22, 23 ó 24 nucleótidos). En algunas realizaciones, la repetición directa de la guía de ARN esta truncada en el extremo 5’ en 18 nucleótidos. En algunas realizaciones, la repetición directa de longitud completa o truncada de la guía de ARN está unida en el extremo 5’ a un ARNtracr de longitud completa o truncado.
En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la secuencia espaciadora de la guía de ARN incluye o consiste en entre aproximadamente 20 y aproximadamente 38 nucleótidos (por ejemplo, 16, 17, 18, 19, 20, 21,22, 23 ó 24 nucleótidos).
En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la guía de ARN incluye una secuencia de ARNtracr que incluye una secuencia de nucleótidos proporcionada en la tabla 6 (por ejemplo, SEQ ID NO: 100-116). En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la guía de ARN incluye un ARNtracr codificado por una secuencia (o fragmento de la misma) enumerada en la tabla 7 (por ejemplo, SEQ ID NO: 117-134). En algunas realizaciones, la guía de ARN incluye una secuencia de ARNtracr que incluye la secuencia
GAUGCUUACUUAGUCAUCUGGUUGGCAAACCUCCGCGGACCUUCGGGACCAAUGG
AGAGGAACCCAGCCGAGAAGCAUCGAGCCGGUAAAUGCCGGAAA (SEQ ID NO:
250).
En algunas realizaciones de cualquiera de los sistemas proporcionados en el presente documento, el ácido nucleico diana es un ADN. En algunas realizaciones de cualquiera de los sistemas proporcionados en el presente documento, el ácido nucleico diana es un ADN monocatenario. En algunas realizaciones de cualquiera de los sistemas proporcionados en el presente documento, el ácido nucleico diana es un ARN. En algunas realizaciones de cualquiera de los sistemas proporcionados en el presente documento, el ácido nucleico diana es un ARN monocatenario.
En determinadas realizaciones de cualquiera de los sistemas proporcionados en el presente documento, la selección como diana del ácido nucleico diana por la proteína asociada a CRISPR y la guía de ARN da como resultado una modificación (por ejemplo, un evento de escisión monocatenaria o bicatenaria) en el ácido nucleico diana. En algunas realizaciones, la modificación es un evento de deleción. En algunas realizaciones, la modificación es un evento de inserción. En algunas realizaciones, la modificación da como resultado toxicidad celular y/o muerte celular.
En algunas realizaciones, la proteína asociada a CRISPR tiene actividad nucleasa no específica (es decir, “colateral”) (por ejemplo, ADNasa o ARNasa). En determinadas realizaciones de cualquiera de los sistemas proporcionados en el presente documento, el sistema incluye además un ácido nucleico molde donador (por ejemplo, un ADN o un ARN).
En algunas realizaciones de cualquiera de los sistemas proporcionados en el presente documento, el sistema está dentro de una célula (por ejemplo, una célula eucariota (por ejemplo, una célula de mamífero) o una célula procariota (por ejemplo, una célula bacteriana)).
En algunas realizaciones de cualquiera de los sistemas proporcionados en el presente documento, la guía de ARN incluye un ARNtracr.
En otro aspecto, la invención proporciona un método in vitro o ex vivo de selección como diana de un ácido nucleico diana que comprende poner en contacto el sistema de la invención con el ácido nucleico diana en una célula, en el que el ácido nucleico diana es ARN. En otro aspecto, la divulgación proporciona métodos in vitro o ex vivo de selección como diana y edición de un ácido nucleico diana, en los que los métodos incluyen poner en contacto el ácido nucleico diana con cualquiera de los sistemas descritos en el presente documento.
En otro aspecto, la divulgación proporciona métodos de direccionamiento de la inserción de un ácido nucleico de carga útil en un sitio de un ácido nucleico diana, en los que los métodos incluyen poner en contacto el ácido nucleico diana con cualquiera de los sistemas descritos en el presente documento.
En otro aspecto, la invención proporciona una célula que comprende el sistema o un complejo de la invención, en la que opcionalmente la célula es una célula eucariota o una célula procariota. En aún otro aspecto, la divulgación proporciona métodos de direccionamiento de la escisión de un ácido nucleico de carga útil desde un sitio en un ácido nucleico diana, en los que los métodos incluyen poner en contacto el ácido nucleico diana con cualquiera de los sistemas descritos en el presente documento.
En algunas realizaciones de cualquiera de los métodos descritos en el presente documento, el ácido nucleico diana está presente en un sitio transcripcionalmente activo.
En otro aspecto, la divulgación proporciona métodos de escisión o degradación no específica de ADN monocatenario tras el reconocimiento de un ácido nucleico diana de ADN o ARN, en los que los métodos incluyen poner en contacto el ácido nucleico diana con cualquiera de los sistemas descritos en el presente documento.
En otro aspecto, la divulgación proporciona métodos de escisión o degradación no específica de ARN monocatenario tras el reconocimiento de un ácido nucleico diana de ADN o ARN, en los que los métodos incluyen poner en contacto el ácido nucleico diana con cualquiera de los sistemas descritos en el presente documento.
En algunas realizaciones de los métodos, el ácido nucleico no tiene ningún motivo adyacente al protoespaciador (PAM) ni ninguna secuencia flanqueante del protoespaciador (PFS).
En algunas realizaciones del sistema, la secuencia espaciadora comprende 18-23 nucleótidos.
En algunas realizaciones, los métodos se producen a una temperatura de entre aproximadamente 42 °C y 60 °C. En algunas realizaciones, los métodos se producen a una temperatura de 42 °C, 50 °C o 60 °C.
En otro aspecto, la divulgación proporciona métodos de escisión y/o degradación de ADN monocatenario, ARN monocatenario o ARN bicatenario tras el reconocimiento de un ácido nucleico diana de ARN, comprendiendo el método poner en contacto el ácido nucleico diana con cualquiera de los sistemas dados a conocer en el presente documento.
En otro aspecto, la divulgación proporciona métodos de inducción de latencia o muerte de una célula que incluyen poner en contacto la célula con un sistema descrito en el presente documento (y composiciones para su uso en tales métodos), en los que la secuencia espaciadora es complementaria a al menos 15 nucleótidos del ácido nucleico diana, en los que la proteína efectora de CRISPR de tipo V-G se asocia con la guía de ARN para formar un complejo, en los que el complejo se une a una secuencia de ácido nucleico diana que es complementaria a los al menos 15 nucleótidos de la secuencia espaciadora, y en los que, tras la unión del complejo a la secuencia de ácido nucleico diana, la proteína efectora de CRISpR-Cas de tipo V-G escinde un ácido nucleico no diana dentro de la célula, induciendo de ese modo latencia o muerte de la célula. En algunas realizaciones, la muerte es por medio de apoptosis, necrosis, necroptosis o una combinación de las mismas. En algunas realizaciones de cualquiera de los métodos descritos en el presente documento (y composiciones para su uso en tales métodos), el ácido nucleico diana es un ARN seleccionado del grupo que consiste en un ARNm, un ARNt, un ARN ribosómico, un ARN no codificante, un ARNInc o un ARN nuclear. Se dan a conocer además métodos, en los que el ácido nucleico diana es un ADN seleccionado del grupo que consiste en ADN cromosómico, ADN mitocondrial, ADN monocatenario o ADN de plásmido.
En algunas realizaciones de cualquiera de los métodos descritos en el presente documento (y composiciones para su uso en tales métodos), tras la unión del complejo al ácido nucleico diana, la proteína efectora de CRISPR-Cas de tipo V-G presenta actividad ARNasa colateral.
En algunas realizaciones de cualquiera de los métodos descritos en el presente documento (y composiciones para su uso en tales métodos), la célula es una célula eucariota. En algunas realizaciones, la célula es una célula animal. En algunas realizaciones, la célula es una célula cancerosa (por ejemplo, una célula tumoral). En algunas realizaciones, la célula es una célula de agente infeccioso o una célula infectada con un agente infeccioso. En algunas realizaciones, la célula es una célula bacteriana, una célula infectada con un virus, una célula infectada con un prión, una célula fúngica, un protozoo o una célula parasitaria.
En otro aspecto, la divulgación proporciona métodos de tratamiento de una afección o enfermedad en un sujeto que lo necesita y composiciones para su uso en tales métodos. Los métodos incluyen administrar al sujeto un sistema descrito en el presente documento, en los que la secuencia espaciadora es complementaria a al menos 15 nucleótidos de un ácido nucleico diana asociado con la afección o enfermedad, en los que la proteína efectora de CRISPR-Cas de tipo V-G se asocia con la guía de ARN para formar un complejo, en los que el complejo se une a una secuencia de ácido nucleico diana que es complementaria a los al menos 15 nucleótidos de la secuencia espaciadora, y en los que, tras la unión del complejo a la secuencia de ácido nucleico diana, la proteína efectora de CRISPR-Cas de tipo V-G escinde o silencia el ácido nucleico diana, tratando de ese modo la afección o enfermedad en el sujeto.
En algunas realizaciones, los métodos descritos en el presente documento se usan para tratar a un sujeto, por ejemplo, un mamífero, tal como un paciente humano. El sujeto mamífero puede ser también un mamífero domesticado, tal como un perro, un gato, un caballo, un mono, un conejo, una rata, un ratón, una vaca, una cabra o una oveja.
En algunas realizaciones de los métodos descritos en el presente documento (y composiciones para su uso en tales métodos), la afección o enfermedad es un cáncer o una enfermedad infecciosa. En algunas realizaciones, la afección o enfermedad es cáncer, y en la que el cáncer se selecciona del grupo que consiste en tumor de Wilms, sarcoma de Ewing, un tumor neuroendocrino, un glioblastoma, un neuroblastoma, un melanoma, cáncer de piel, cáncer de mama, cáncer de colon, cáncer rectal, cáncer de próstata, cáncer de hígado, cáncer renal, cáncer pancreático, cáncer de pulmón, cáncer biliar, cáncer de cuello uterino, cáncer de endometrio, cáncer de esófago, cáncer gástrico, cáncer de cabeza y cuello, carcinoma medular de tiroides, cáncer de ovario, glioma, linfoma, leucemia, mieloma, leucemia linfoblástica aguda, leucemia mielógena aguda, leucemia linfocítica crónica, leucemia mielógena crónica, linfoma de Hodgkin, linfoma no Hodgkin y cáncer de vejiga urinaria.
En otro aspecto, la divulgación proporciona el uso de un sistema descrito en el presente documento en un método seleccionado del grupo que consiste en interferencia específica de secuencia de ARN; regulación génica específica de secuencia de ARN; cribado de ARN, productos de ARN, ARNInc, ARN no codificante, ARN nuclear o ARNm; mutagénesis; inhibición del corte y empalme de ARN; hibridación in situ de fluorescencia; reproducción; inducción de latencia celular; inducción de detención del ciclo celular; reducción del crecimiento celular y/o de la proliferación celular; inducción de anergia celular; inducción de apoptosis celular; inducción de necrosis celular; inducción de muerte celular; o inducción de muerte celular programada.
En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la proteína efectora de CRISPR-Cas de tipo V-G se fusiona con un dominio de edición de bases, una ARN metiltransferasa, una ARN desmetilasa, un modificador del corte y empalme, un factor de localización o un factor de modificación de la traducción. En algunas realizaciones de cualquiera de los sistemas descritos en el presente documento, la proteína efectora de CRISPR-Cas de tipo V-G se fusiona con un dominio de edición de bases (por ejemplo, adenosina desaminasa que actúa sobre ARN (ADAR) 1 (ADAR1), ADAR2, enzima de edición de ARNm de apolipoproteína B, de tipo polipéptido catalítico (APOBEC)) y citidina desaminasa inducida por activación (AID)), una ARN metiltransferasa, una ARN desmetilasa, un modificador del corte y empalme, un factor de localización o un factor de modificación de la traducción.
En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G incluye además una secuencia de ligador. En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G incluye una o más mutaciones o sustituciones de aminoácidos que hacen que la proteína efectora de CRISPR-Cas de tipo V-G no pueda escindir el ARN.
En algunas realizaciones, los sistemas descritos en el presente documento incluyen también un polipéptido de fusión de unión a ARN que incluye un dominio de unión a ARN (por ejemplo, MS2) y un dominio de edición de bases (por ejemplo, ADAR1, ADAR2, APOBEC y AID). En algunas realizaciones, el dominio de unión a ARN es MS2, PP7 o Qbeta.
En otro aspecto, la divulgación proporciona un método ex vivo o in vitro de modificación de una molécula de ARN, que comprende poner en contacto la molécula de ARN con un sistema descrito en el presente documento. En algunas realizaciones, los métodos descritos en el presente documento no modifican la identidad genética de la línea germinal de un ser humano.
En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G incluye o consiste en al menos una señal de localización nuclear (NLS) (por ejemplo, dos, tres, cuatro, cinco, seis o más). En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G incluye o consiste en al menos una señal de exportación nuclear (NES) (por ejemplo, dos, tres, cuatro, cinco, seis o más). En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G incluye al menos una NLS (por ejemplo, dos, tres, cuatro, cinco, seis o más) y al menos una NES (por ejemplo, dos, tres, cuatro, cinco, seis o más).
En algunas realizaciones, los sistemas descritos en el presente documento incluyen un ácido nucleico que codifica para una o más guías de ARN. En algunas realizaciones, el ácido nucleico que codifica para la una o más guías de ARN está operativamente unido a un promotor (por ejemplo, un promotor constitutivo o un promotor inducible).
En algunas realizaciones, los sistemas descritos en el presente documento incluyen un ácido nucleico que codifica para un ácido nucleico diana (por ejemplo, un ARN diana). En algunas realizaciones, el ácido nucleico que codifica para el ácido nucleico diana está operativamente unido a un promotor (por ejemplo, un promotor constitutivo o un promotor inducible).
En algunas realizaciones, los sistemas descritos en el presente documento incluyen un ácido nucleico que codifica para una proteína efectora de CRISPR-Cas de tipo V-G en un vector. En algunas realizaciones, el sistema incluye además uno o más ácidos nucleicos que codifican para una guía de ARN presente en el vector. En algunas realizaciones, los vectores incluidos en los sistemas son vectores virales (por ejemplo, vectores retrovirales, vectores lentivirales, vectores adenovirales, vectores adenoasociados y vectores de herpes simple. En algunas realizaciones, los vectores incluidos en el sistema son vectores de fago.
En algunas realizaciones, los sistemas proporcionados en el presente documento están en un sistema de administración. En algunas realizaciones, el sistema de administración es una nanopartícula, un liposoma, un exosoma, una microvesícula y un cañón de genes.
La divulgación también proporciona una célula (por ejemplo, una célula eucariota o una célula procariota (por ejemplo, una célula bacteriana)) que comprende un sistema descrito en el presente documento. En algunas realizaciones, la célula eucariota es una célula de mamífero (por ejemplo, una célula humana) o una célula vegetal. La divulgación también proporciona modelos animales (por ejemplo, modelos de roedor, conejo, perro, mono o simio) y modelos vegetales que incluyen las células.
En aún otro aspecto, la divulgación proporciona métodos de detección de un ácido nucleico diana (por ejemplo, ADN o ARN) en una muestra, incluyendo el método:
(a) poner en contacto la muestra con cualquiera de los sistemas descritos en el presente documento y un ácido nucleico indicador marcado, en el que la hibridación del efector:guía de ARN con el ácido nucleico diana provoca la escisión del ácido nucleico indicador marcado; y
(b) medir una señal detectable producida por la escisión del ácido nucleico indicador marcado, detectando de ese modo la presencia del ácido nucleico diana en la muestra.
En algunas realizaciones, los métodos de detección de un ácido nucleico diana pueden incluir también comparar un nivel de la señal detectable con un nivel de señal de referencia, y determinar una cantidad de ácido nucleico diana en la muestra basándose en el nivel de la señal detectable.
En algunas realizaciones, los métodos de detección de un ácido nucleico diana pueden incluir también el uso de un ácido nucleico indicador de ARN y un ácido nucleico indicador de ADN en un canal diferente (por ejemplo, color fluorescente), y determinar el nivel de una señal detectable midiendo el nivel de señal de ambos indicadores de ARN y ADN, y determinar una cantidad de ácido nucleico diana en la muestra basándose en la combinación (por ejemplo, usando el producto mínimo o multiplicativo) de los niveles de las señales detectables.
En algunas realizaciones, la medición se realiza usando detección de nanopartículas de oro, polarización de fluorescencia, dispersión/transición de fase coloidal, detección electroquímica o detección basada en semiconductores.
En algunas realizaciones, el ácido nucleico indicador marcado puede incluir un par de colorantes emisores de fluorescencia, un par de transferencia de energía por resonancia de fluorescencia (FRET) o un par de extintor/fluoróforo, en el que la escisión del ácido nucleico indicador marcado por la proteína efectora da como resultado un aumento o una disminución de la cantidad de señal producida por el ácido nucleico indicador marcado.
Volviendo a otro aspecto de esta divulgación, se proporcionan métodos de modificación de un ARN diana que incluyen generalmente poner en contacto el ARN diana con un complejo que comprende una proteína efectora de CRISPR-Cas de tipo V-G (es decir, Cas12g) y una guía de ARN de tipo V-G diseñada por ingeniería genética (por ejemplo, un ARNcr, un ARN guía, una guía de ARN o una estructura similar, que comprende opcionalmente una o más modificaciones de nucleótidos, bases nitrogenadas o estructura principal). La guía de ARN de tipo V-G está diseñada para hibridarse con (por ejemplo, es al menos el 70 %, el 75 %, el 80 %, el 85 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 %, el 99 % o el 100 % complementaria a) una secuencia diana del ARN diana, y el sistema se distingue porque la proteína efectora Cas12g, la guía de ARN de tipo V-G y el ARNtracr de tipo V-G (o bien fusionado con o bien expresado por separado de la guía de ARN) forman un complejo que se asocia con el ARN diana, modificando de ese modo el ARN diana.
En determinadas realizaciones, la modificación del ARN diana incluye escindir al menos una cadena del ARN diana (por ejemplo, crear una rotura monocatenaria o, si el ARN diana es un dúplex de ARN, crear una “mella”, o crear una rotura bicatenaria). En determinadas realizaciones, el contacto con el ARN diana activa el complejo de tipo V-G para que escinda al menos una cadena de un ARN no diana (por ejemplo, creando una rotura monocatenaria o, si el ARN diana es un dúplex de ARN, creando una “mella”, o creando una rotura bicatenaria). En determinadas realizaciones, el contacto con el ARN diana activa el complejo de tipo V-G para que escinda al menos una cadena de un ADN no diana (por ejemplo, creando una rotura monocatenaria, o creando una “mella”, o creando una rotura bicatenaria). Alternativa o adicionalmente, la modificación del ARN diana comprende o bien (i) la unión al ARN diana, impidiendo de ese modo que el ARN diana se asocie con otra biomolécula o complejo. La proteína efectora Cas12g es, en determinadas realizaciones, una proteína efectora Cas12g1.
Continuando con este aspecto de la divulgación, en determinadas realizaciones, el contacto del ARN diana con el complejo se produce en un ensayo de diagnóstico, por ejemplo poniendo en contacto un ARN diana con el complejo, complejo que se forma in vitro.
En otro aspecto, esta divulgación se refiere a métodos de alteración de un ARN no diana o ADN no diana, que incluyen poner en contacto el ARN diana con un complejo que incluye una proteína efectora de CRISPR-Cas de tipo V-G (es decir, Cas12g) y una guía de ARN de tipo V-G (por ejemplo, un ARNcr, un ARN guía o una estructura similar, que comprende opcionalmente una o más modificaciones de nucleótidos, bases nitrogenadas o estructura principal) que comprende una secuencia espaciadora de 27-39 nucleótidos que tiene al menos el 70 %, el 75 %, el 80 %, el 85 %, el 90 % o el 95 %, por ejemplo, el 96 %, el 97 %, el 98 %, el 99 % o el 100 %, de complementariedad con una secuencia en el ARN diana, y un ARNtracr de tipo V-G (o bien fusionado con o bien expresado por separado de la guía de ARN) dando como resultado la activación del complejo y la alteración del a Rn no diana o ADN no diana.
En diversas realizaciones, el ARN no diana o ADN no diana contiene pares de fluoróforo-extintor en los extremos terminales de la secuencia, y la alteración por el complejo de tipo V-G activado da como resultado una señal fluorescente. En diversas realizaciones, la alteración del ARN no diana o ADN no diana por el complejo de tipo V-G activado proporciona un indicador de diagnóstico que indica la presencia del ARN diana. En diversas realizaciones, la proteína Cas12g comprende una secuencia de aminoácidos que tiene al menos el 95 %, por ejemplo, al menos el 96 %, el 97 %, el 98 %, el 99 % o el 100 %, de identidad de secuencia con SEQ ID NO: 6, la guía de ARN de tipo V-G comprende una secuencia de repetición directa con al menos el 95 %, por ejemplo, al menos el 96 %, el 97 %, el 98 %, el 99 % o el 100 %, de identidad de secuencia con una de SEQ ID nO: 13, y el ARNtracr de tipo V-G comprende una secuencia de repetición directa con al menos el 95 %, por ejemplo, al menos el 96 %, el 97 %, el 98 %, el 99 % o el 100 %, de identidad de secuencia con una de SEQ ID NO: 250. El ARN diana es opcionalmente un ARN celular, un ARN viral o un ARN sintético.
Continuando con este aspecto de la divulgación, en determinadas realizaciones, el contacto del ARN diana con el complejo puede producirse en una célula, por ejemplo (a) poniendo en contacto la célula con el complejo, complejo que se forma in vitro, o (b) poniendo en contacto la célula con uno o más ácidos nucleicos que codifican para la proteína efectora Cas12g, la guía de ARN de tipo V-G y el ARNtracr de tipo V-G (o bien fusionado con o bien expresado por separado de la guía de ARN de tipo V-G) que luego los expresa la célula y que forman el complejo dentro de la célula. En algunos casos, la célula es una célula procariota; en otros casos, es una célula eucariota.
En otro aspecto, esta divulgación se refiere a un método de alteración de un ARN diana, que comprende la etapa de poner en contacto el ARN diana dentro de la célula con un sistema de edición del genoma que comprende una proteína Cas12g y una guía de ARN de tipo V-G (por ejemplo, un ARNcr, un ARN guía o una estructura similar, que incluye opcionalmente una o más modificaciones de nucleótidos, bases nitrogenadas o estructura principal) que comprende una secuencia espaciadora de 27-39 nucleótidos que tiene al menos el 70 %, el 75 %, el 80 %, el 85 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 %, el 99 % o el 100 % de complementariedad con una secuencia en el ARN diana, y un ARNtracr de tipo V-G (o bien fusionado con o bien expresado por separado de la guía de ARN). En diversas realizaciones, la proteína Cas12g comprende una secuencia de aminoácidos que tiene al menos el 95 %, por ejemplo, el 96 %, el 87 %, el 98 %, el 99 % o el 100 % de identidad de secuencia con SEQ ID NO: 6, la guía de a Rn de tipo V-G comprende una secuencia de repetición directa con al menos el 95 %, por ejemplo, el 96 %, el 87 %, el 98 %, el 99 % o el 100 % de identidad de secuencia con una de SEQ ID NO: 13, y el ARNtracr de tipo V-G comprende una secuencia de repetición directa con al menos el 95 %, por ejemplo, el 96 %, el 87 %, el 98 %, el 99 % o el 100 % de identidad de secuencia con una de SEQ ID NO: 250. El ARN diana es opcionalmente un ARN celular, y el contacto se produce opcionalmente dentro de una célula tal como una célula procariota o una célula eucariota (por ejemplo, una célula de mamífero, una célula vegetal, una célula humana, etc.).
En aún otro aspecto, esta divulgación se refiere a un sistema asociado a repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas (Cas) diseñado por ingeniería genética que no se produce de manera natural que comprende una o más guías de ARN de tipo V-G o uno o más ácidos nucleicos que codifican para las guías de ARN de tipo V-G, en el que la guía de ARN de tipo V-G incluye una secuencia de repetición directa y una secuencia espaciadora capaz de hibridarse con un ácido nucleico diana; y una proteína efectora de CRISPR-Cas de tipo V-G o un ácido nucleico que codifica para la proteína efectora de CRISPR-Cas de tipo V-G, en el que la proteína efectora de CRISPR-Cas de tipo V-G es capaz de unirse a la guía de ARN y de dirigir la secuencia de ácido nucleico diana complementaria a la secuencia espaciadora, y en el que el ácido nucleico diana es un ARN.
En algunas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G comprende una secuencia de aminoácidos que tiene al menos el 90 %, o al menos el 95 %, de identidad de secuencia con una de SEQ ID NO: 1-24. Según determinadas realizaciones, la proteína efectora de CRISPR-Cas de tipo V-G comprende una secuencia de aminoácidos dada por SEQ ID NO: 6. La longitud total de la proteína efectora de CRISPR-Cas según determinadas realizaciones es menor de 850 aminoácidos, excluyendo cualquier secuencia señal de aminoácidos o etiqueta peptídica fusionada a la misma. En algunos casos, la proteína efectora de CRISPR-Cas comprende una sustitución de aminoácido, por ejemplo una sustitución en un residuo de aminoácido correspondiente a D513, E655 o D745 de SEQ ID NO: 6. La sustitución es opcionalmente una alanina.
En aún otro aspecto, esta divulgación se refiere a un sistema de CRISPR-Cas diseñado por ingeniería genética que no se produce de manera natural, que incluye una proteína efectora Cas12g y una guía de ARN de tipo V-G diseñada por ingeniería genética (por ejemplo, un ARNcr, un ARN guía, una guía de ARN o una estructura similar, que comprende opcionalmente una o más modificaciones de nucleótidos, bases nitrogenadas o estructura principal) que tiene una secuencia espaciadora de 27-39 nucleótidos que es al menos el 80 %, por ejemplo, el 85 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 %, el 99 % o el 100 %, complementaria a una secuencia diana. El sistema también contiene un ARNtracr de tipo V-G (o bien fusionado con o bien expresado por separado de la guía de ARN). La proteína efectora Cas12g, la guía de ARN de tipo V-G y el ARNtracr de tipo V-G (o bien fusionado con o bien expresado por separado de la guía de ARN) forman un complejo que se asocia con la secuencia diana.
En algunos casos, el complejo de la proteína efectora Cas12g, la guía de ARN de tipo V-G y el ARNtracr de tipo V-G provoca la escisión de al menos una cadena de un ARN que comprende la secuencia diana. En determinadas realizaciones, la proteína efectora Cas12g comprende una secuencia de aminoácidos que tiene al menos el 95 % de identidad de secuencia con SEQ ID NO: 6 y la secuencia de repetición directa tiene al menos el 95 % de identidad de secuencia con SEQ ID NO: 13 y la secuencia de ARNtracr tiene al menos el 95 % identidad de secuencia con SEQ ID NO: 250. Alternativa o adicionalmente, la proteína efectora Cas12g comprende una sustitución de aminoácido (opcionalmente, una sustitución de alanina) seleccionada del grupo que consiste en (a) una sustitución en un residuo de aminoácido correspondiente a D513, E655 o D745 de s Eq ID N0: 6.
En todavía otro aspecto, esta divulgación se refiere a una composición que incluye uno o más ácidos nucleicos que codifican para un sistema de CRISPR-Cas (o un sistema de edición del genoma) según uno de los aspectos de la divulgación. En otro aspecto, la divulgación se refiere a un vector viral que codifica para un sistema de CRISPR-Cas (o un sistema de edición del genoma) según uno de los aspectos de la divulgación.
En todavía otro aspecto, esta divulgación se refiere a una composición que incluye uno o más ácidos nucleicos que codifican para un sistema de CRISPR-Cas (o un sistema de edición del genoma) según uno de los aspectos de la divulgación. En otro aspecto, la divulgación se refiere a un vector viral que codifica para un sistema de CRISPR-Cas (o un sistema de edición del genoma) según uno de los aspectos de la divulgación.
La divulgación también incluye métodos de escisión de un sustrato de ARN monocatenario o un sustrato de ARN bicatenario con los sistemas de CRISPR-Cas descritos en el presente documento. Los métodos incluyen poner en contacto un sustrato de ARN monocatenario o un sustrato de ARN bicatenario con el sistema de CRISPR-Cas, opcionalmente en los que el sustrato de ARN monocatenario o el sustrato de ARN bicatenario carece de una secuencia de motivo adyacente al protoespaciador (PAM), secuencia flanqueante del protoespaciador (PFS) con un ácido nucleico diana. En estos métodos, (a) cuando el método se produce a una temperatura de aproximadamente 37 °C, el sustrato de ácido nucleico diana que se escinde es un sustrato de ARN monocatenario; o (b) cuando el método se produce a una temperatura de aproximadamente 50 °C, se escinde un ácido nucleico colateral de manera no específica, y el ácido nucleico colateral es un ARN monocatenario, o tanto un ARN monocatenario como un ADN monocatenario.
En otro aspecto, esta divulgación se refiere a métodos de escisión no específica de un ácido nucleico colateral, incluyendo el método poner en contacto el ácido nucleico colateral con un complejo de CRISPR activado dado a conocer en el presente documento, en el que el ácido nucleico colateral es un ADN monocatenario, un ARN monocatenario o un ARN bicatenario, y en el que el ácido nucleico colateral comprende una secuencia de ácido nucleico que no tiene similitud de secuencia con el ácido nucleico diana.
En algunas realizaciones, cuando el método se produce a una temperatura de aproximadamente 37 °C, el ácido nucleico colateral que se escinde de manera no específica puede ser un ARN monocatenario. En otras realizaciones, cuando el método se produce a una temperatura de aproximadamente 50 °C, el ácido nucleico colateral que se escinde de manera no específica puede ser un ARN monocatenario o un ADN monocatenario, o tanto un ARN monocatenario como un ADN monocatenario.
En otro aspecto, esta divulgación se refiere a métodos de detección de un ARN diana en una muestra, incluyendo el método poner en contacto la muestra con un sistema de CRISPR-Cas dado a conocer en el presente documento y un ARN detector marcado, en el que la hibridación de la guía de ARN con el ARN diana provoca la escisión del ARN detector marcado; y medir una señal detectable producida por la escisión del ARN detector marcado, detectando de ese modo el a Rn diana en la muestra.
En algunas realizaciones, los métodos descritos en el presente documento pueden incluir comparar un nivel de la señal detectable con un nivel de señal de referencia, y determinar una cantidad de ARN diana en la muestra basándose en el nivel de la señal detectable.
En algunas realizaciones, la medición se realiza usando detección de nanopartículas de oro, polarización de fluorescencia, dispersión/transición de fase coloidal, detección electroquímica o detección basada en semiconductores.
En algunas realizaciones, el ARN detector marcado puede incluir un par de colorantes emisores de fluorescencia, un par de transferencia de energía por resonancia de fluorescencia (FRET) o un par de extintor/fluoróforo, en el que la escisión del ARN detector marcado por la proteína efectora de CRISpR-Cas de tipo V-G da como resultado un aumento o una disminución de una cantidad de señal producida por el ARN detector marcado. En otro aspecto, esta divulgación se refiere a métodos de inducción de latencia o muerte celular específica de genotipo o específica de estado transcripcional en una célula, incluyendo el método poner en contacto una célula con un sistema de CRISPR-Cas, por ejemplo, el sistema de CRISPR-Cas de tipo V-G, o un complejo dado a conocer en el presente documento, en el que la hibridación de la guía de ARN con el ARN diana provoca una latencia o muerte celular mediada por actividad ARNasa colateral.
En algunas realizaciones, la célula es una célula procariota o una célula eucariota. Además, en algunas realizaciones, la célula es una célula de mamífero. En algunas realizaciones, la célula es una célula cancerosa. En algunas realizaciones, la célula es una célula infecciosa o una célula infectada con un agente infeccioso. En algunas realizaciones, la célula es una célula infectada con un virus, una célula infectada con un prión, una célula fúngica, un protozoo o una célula parasitaria.
En algunas realizaciones, el ácido nucleico diana no tiene ningún motivo adyacente al protoespaciador (PAM) ni ninguna secuencia flanqueante del protoespaciador (PFS).
En otro aspecto, esta divulgación se refiere a métodos de detección de un ácido nucleico diana en una muestra, incluyendo el método poner en contacto la muestra con el sistema de CRISPR-Cas, por ejemplo, el sistema de CRISPR-Cas de tipo V-G dado a conocer en el presente documento, y un ácido nucleico indicador marcado, en el que la hibridación del ARNcr con el ácido nucleico diana provoca la escisión del ácido nucleico indicador marcado; y medir una señal detectable producida por la escisión del ácido nucleico indicador marcado, detectando de ese modo la presencia del ácido nucleico diana en la muestra.
En algunas realizaciones, los métodos descritos en el presente documento pueden incluir comparar un nivel de la señal detectable con un nivel de señal de referencia, y determinar una cantidad de ácido nucleico diana en la muestra basándose en el nivel de la señal detectable.
En algunas realizaciones, la medición se realiza usando detección de nanopartículas de oro, polarización de fluorescencia, dispersión/transición de fase coloidal, detección electroquímica o detección basada en semiconductores.
En algunas realizaciones, el ácido nucleico indicador marcado puede incluir un par de colorantes emisores de fluorescencia, un par de transferencia de energía por resonancia de fluorescencia (FRET) o un par de extintor/fluoróforo, en el que la escisión del ácido nucleico indicador marcado por la proteína efectora da como resultado un aumento o una disminución de la cantidad de señal producida por el ácido nucleico indicador marcado.
Se dan a conocer además métodos de edición de un ADN bicatenario, incluyendo el método poner en contacto, en condiciones suficientes y durante un periodo de tiempo suficiente, una enzima Cas12g y una guía de ARN que dirige la enzima Cas12g al ARN transcrito naciente en una horquilla de transcripción; escindir una o ambas cadenas de ADNmc del ADN bicatenario en la horquilla de transcripción; en el que el método da como resultado una edición específica de un ácido nucleico bicatenario con reducción de la modificación inespecífica debido al requisito previo de escisión de la transcripción activa y el reconocimiento de la diana.
En otro aspecto, esta divulgación se refiere a métodos de edición de un ácido nucleico monocatenario, incluyendo el método poner en contacto, en condiciones suficientes y durante un periodo de tiempo suficiente, una proteína de fusión que incluye una enzima Cas12g, un dominio proteico con actividad modificadora de ARN y una guía de ARN que selecciona como diana el ácido nucleico bicatenario; y el ácido nucleico monocatenario, en el que el contacto produce una modificación en la identidad de bases del ácido nucleico monocatenario.
En otro aspecto, esta divulgación se refiere a métodos de tratamiento de una afección o enfermedad en un sujeto que lo necesita, comprendiendo el método administrar al sujeto un sistema de CRISPR-Cas, por ejemplo, un sistema de CRISPR-Cas de tipo V-G o un complejo descrito en el presente documento, en el que la secuencia espaciadora es complementaria a al menos 15 nucleótidos de un ácido nucleico diana asociado con la afección o enfermedad; en el que la proteína efectora, por ejemplo, proteína efectora de CRISPR-Cas de tipo V-G, se asocia con la guía de ARN para formar un complejo; en el que el complejo se une a una secuencia de ácido nucleico diana que es complementaria a los al menos 15 nucleótidos de la secuencia espaciadora; y en el que, tras la unión del complejo a la secuencia de ácido nucleico diana, la proteína efectora, por ejemplo, proteína efectora de CRISPR-Cas de tipo V-G descrita en el presente documento, escinde el ácido nucleico diana, tratando de ese modo la afección o enfermedad en el sujeto.
En algunas realizaciones, la afección o enfermedad se selecciona del grupo que consiste en distrofia miotónica, enfermedad de Huntington, hipobetalipoproteinemia familiar, amiloidosis hereditaria mediada por transtiretina, hipercolesterolemia familiar, síndrome de Prader-Willi, atrofia muscular espinal, disqueratosis congénita, tauopatía primaria relacionada con la edad, demencia senil con predominio de ovillos neurofibrilares, demencia pugilística, distrofia muscular de Duchenne, distrofia muscular de Becker, demencia frontotemporal, parkinsonismo hereditario, fibrosis quística, ataxia de Friedreich y leucemia mielógena crónica.
En algunas realizaciones, la afección o enfermedad es un cáncer o una enfermedad infecciosa.
En algunas realizaciones, el cáncer puede ser tumor de Wilms, sarcoma de Ewing, un tumor neuroendocrino, un glioblastoma, un neuroblastoma, un melanoma, cáncer de piel, cáncer de mama, cáncer de colon, cáncer rectal, cáncer de próstata, cáncer de hígado, cáncer renal, cáncer pancreático, cáncer de pulmón, cáncer biliar, cáncer de cuello uterino, cáncer de endometrio, cáncer de esófago, cáncer gástrico, cáncer de cabeza y cuello, carcinoma medular de tiroides, cáncer de ovario, glioma, linfoma, leucemia, mieloma, leucemia linfoblástica aguda, leucemia mielógena aguda, leucemia linfocítica crónica, leucemia mielógena crónica, linfoma de Hodgkin, linfoma no Hodgkin o cáncer de vejiga urinaria.
En algunas realizaciones, la afección o enfermedad es de naturaleza infecciosa, y en la que el agente infeccioso se selecciona del grupo que consiste en virus de la inmunodeficiencia humana (VIH), virus respiratorio sincitial (VRS), virus de la hepatitis C (VHC), virus de la hepatitis B (VHB), virus del herpes simple-1 (VHS1) y virus del herpes simple-2 (VHS2).
En algunas realizaciones, el sistema, el complejo de CRISPR activado o las células descritos en el presente documento se usa como medicamento o para el tratamiento o la prevención de un cáncer o una enfermedad infecciosa, o como antimicrobiano o antiviral.
En algunas realizaciones, el sistema, el complejo de CRISPR activado o las células descritos en el presente documento se usa en un método in vitro o ex vivo de: selección como diana y edición de un ácido nucleico diana; un sustrato de ARN monocatenario o un sustrato de ARN bicatenario; escisión y/o degradación no específica de un ácido nucleico colateral; detección de un ARN diana en una muestra; edición específica de un ácido nucleico bicatenario; edición de bases de un ácido nucleico bicatenario; edición específica de un ácido nucleico monocatenario; edición de bases de un ácido nucleico monocatenario; inducción de latencia o muerte celular específica de genotipo o específica de estado transcripcional en una célula.
En algunas realizaciones, el sistema, el complejo de CRISPR activado o las células descritos en el presente documento se usa en la selección como diana y edición de un ácido nucleico diana; la escisión de un sustrato de ARN monocatenario o un sustrato de ARN bicatenario; la escisión y/o degradación no específica de un ácido nucleico colateral; la detección de un ARN diana en una muestra; la edición específica de un ácido nucleico bicatenario; la edición de bases de un ácido nucleico bicatenario; la edición específica de un ácido nucleico monocatenario; la edición de bases de un ácido nucleico monocatenario; la inducción de latencia o muerte celular específica de genotipo o específica de estado transcripcional en una célula, en el que el uso no comprende ningún procedimiento para modificar la identidad genética de la línea germinal de un ser humano y no comprende ningún método de tratamiento del cuerpo humano o animal.
Aún otro aspecto, método de escisión de un primer y un segundo sustrato de ácido nucleico, que comprende poner en contacto los sustratos de ácido nucleico primero y segundo con el sistema dado a conocer en el presente documento, en el que el primer sustrato de ácido nucleico es un ADN monocatenario (mc) o un ARNmc que comprende una secuencia diana que es al menos parcialmente complementaria a la secuencia espaciadora, el segundo sustrato de ácido nucleico es un ADNmc o un ARNmc que no comprende la secuencia diana.
En algunas realizaciones, el primer sustrato de ácido nucleico es una primera cadena de un ADN y el segundo sustrato de ácido nucleico es un transcrito de ARN de la primera cadena o una segunda cadena del ADN que es al menos parcialmente complementaria a la primera cadena.
En algunas realizaciones, la proteína efectora de CRISPR-Cas carece tanto de un dominio HNH como de un dominio HEPN.
El término “evento de escisión”, tal como se usa en el presente documento, se refiere a: (1) una rotura de ADN o ARN en un ácido nucleico diana creada por una nucleasa de un sistema de CRISPR descrito en el presente documento; o (2) una rotura de ADN o ARN en un sustrato de ácido nucleico colateral (es decir, no específico o no diana). En algunas realizaciones, el evento de escisión es una rotura de ADN bicatenario. En algunas realizaciones, el evento de escisión es una rotura de ADN monocatenario. En algunas realizaciones, el evento de escisión es una rotura de ARN monocatenario. En algunas realizaciones, el evento de escisión es una rotura de ARN bicatenario.
Los términos “sistema de CRISPR-Cas”, “sistema de CRISPR-Cas de tipo V-G”, “sistema de tipo V-G” o “proteína efectora Cas12g”, tal como se usan en el presente documento, se refieren a una proteína efectora de CRISPR-Cas de tipo V-G y a una guía de ARN de tipo V-G, y/o a ácidos nucleicos que codifican para la proteína efectora de CRISPR-Cas de tipo V-G o la guía de ARN de tipo V-G, en los que la guía de ARN de tipo V-G incluye un ARNtracr y un ARNcr, y opcionalmente promotores operativamente unidos a la expresión del efector de CRISPR o la guía de ARN o a ambos.
El término “matriz de CRISPR”, tal como se usa en el presente documento, se refiere al segmento de ácido nucleico (por ejemplo, ADN) que incluye espaciadores y repeticiones de CRISPR, comenzando con el primer nucleótido de la primera repetición de CRISPR y terminando con el último nucleótido de la última repetición de CRISPR (terminal). Normalmente, cada espaciador en una matriz de CRISPR se ubica entre dos repeticiones. Los términos “repetición de CRISPR” o “repetición directa de CRISPR” o “repetición directa”, tal como se usan en el presente documento, se refieren a múltiples secuencias de repetición directa cortas, que muestran muy poca o ninguna variación de secuencia dentro de una matriz de CRISPR. Adecuadamente, una repetición directa de tipo V-G puede formar una estructura de tallo-bucle y/o puede formar una estructura de tallo-bucle en combinación con un ARN de CRISPR transactivador.
Una “estructura de tallo-bucle” se refiere a un ácido nucleico que tiene una estructura secundaria que incluye una región de nucleótidos que se sabe o se predice que forman una doble cadena (porción de tallo) que está unida en un lado por una región de nucleótidos predominantemente monocatenarios (porción de bucle). Los términos estructuras de “horquilla” y “plegable hacia atrás” también se usan en el presente documento para referirse a estructuras de tallo-bucle. Tales estructuras se conocen bien en la técnica y estos términos se usan consecuentemente con sus significados conocidos en la técnica. Tal como se conoce en la técnica, una estructura de tallo-bucle no requiere un apareamiento de bases exacto. Por tanto, el tallo puede incluir uno o más apareamientos erróneos de bases. Alternativamente, el apareamiento de bases puede ser exacto, es decir no incluye ningún apareamiento erróneo. Las estructuras de tallo-bucle predichas de algunas repeticiones directas de tipo V-G se ilustran en la figura 3, y la estructura de tallo-bucle predicha de una repetición de tipo V-G cuando se hibrida con un ARNtracr se muestra en la figura 13.
Los términos “ARN de CRISPR” o “ARNcr”, tal como se usan en el presente documento, se refieren a una molécula de ARN que comprende una secuencia guía usada por un efector de CRISPR para seleccionar como diana específicamente una secuencia de ácido nucleico. Normalmente, los ARNcr contienen una secuencia espadadora que media en el reconocimiento de la diana, y una secuencia de repetición directa (denominada en el presente documento secuencia de repetición directa o “DR”) que forma un dúplex con un ARNtracr. El dúplex de ARNcr:ARNtracr se une a una proteína efectora de CRISPR-Cas.
El término “ácido nucleico molde donador”, tal como se usa en el presente documento, se refiere a una molécula de ácido nucleico que pueden usar una o más proteínas celulares para alterar la estructura de un ácido nucleico diana después de que una enzima CRISPR descrita en el presente documento haya alterado un ácido nucleico diana. En algunas realizaciones, el ácido nucleico molde donador es un ácido nucleico bicatenario. En algunas realizaciones, el ácido nucleico molde donador es un ácido nucleico monocatenario. En algunas realizaciones, el ácido nucleico molde donador es lineal. En algunas realizaciones, el ácido nucleico molde donador es circular (por ejemplo, un plásmido). En algunas realizaciones, el ácido nucleico molde donador es una molécula de ácido nucleico exógeno. En algunas realizaciones, el ácido nucleico molde donador es una molécula de ácido nucleico endógeno (por ejemplo, un cromosoma).
Los términos “efector de CRISPR-Cas”, “efector de CRISPR”, “efector”, “proteína asociada a CRISPR” o “enzima CRISPR”, “proteína efectora de CRISPR-Cas de tipo V-G”, “efector de CRISPR-Cas de tipo V-G”, “efector de tipo V-G” o “proteína efectora Cas12g”, tal como se usan en el presente documento, se refieren a una proteína que lleva a cabo una actividad enzimática o que se une a un sitio diana en un ácido nucleico especificado por una guía de ARN. Además, una proteína efectora de CRISPR-Cas asociada con sistemas de CRISPR-Cas de tipo V-G puede denominarse en el presente documento Cas12g o enzima Cas12g. En algunas realizaciones, una proteína efectora de CRISPR-Cas de tipo V-G tiene actividad ARN nucleasa y/o actividad ADN nucleasa.
Los términos “complejo efector de CRISPR”, “complejo efector” o “complejo de vigilancia”, tal como se usan en el presente documento, se refieren a un complejo que contiene un efector de CRISPR y una guía de ARN.
El término “guía de ARN”, tal como se usa en el presente documento, se refiere a cualquier molécula de ARN que facilita el direccionamiento de una proteína descrita en el presente documento a un ácido nucleico diana. Las “guías de ARN” a modo de ejemplo incluyen, pero no se limitan a, un ARNcr, así como un ARNcr hibridado con o fusionado con un ARNtracr. En algunas realizaciones, una guía de ARN incluye un ARNcr en forma de un pre-ARNcr (por ejemplo, DR-espaciador-DR). En algunas realizaciones, una guía de ARN incluye un ARNcr en forma de un ARNcr maduro (por ejemplo, maduro_DR-espaciador o maduro_DR-espaciador-maduro_DR). En algunas realizaciones, una guía de ARN incluye tanto un ARNcr como un ARNtracr, o bien fusionados en una sola molécula de ARN o bien como moléculas de ARN separadas.
Tal como se usa en el presente documento, el término “selección como diana” se refiere a la capacidad de un complejo que incluye una proteína asociada a CRISPR y una guía de ARN, tal como un ARNcr, para unirse preferente o específicamente a, por ejemplo, hibridarse con, un ácido nucleico diana específico y en comparación con otros ácidos nucleicos que no tienen la misma secuencia que el ácido nucleico diana.
Tal como se usa en el presente documento, el término “ácido nucleico diana” se refiere a un sustrato de ácido nucleico específico que contiene una secuencia de nucleótidos complementaria a la totalidad o una parte del espaciador en la guía de ARN. En algunas realizaciones, el ácido nucleico diana comprende un gen o una secuencia dentro de un gen. En algunas realizaciones, el ácido nucleico diana comprende una región no codificante (por ejemplo, un promotor). En algunas realizaciones, el ácido nucleico diana es monocatenario. En algunas realizaciones, el ácido nucleico diana es bicatenario.
Los términos “ARNcr transactivador” o “ARNtracr”, tal como se usan en el presente documento, se refieren a un ARN que incluye una región anti-repetición complementaria a la totalidad o una parte de la secuencia de repetición directa de un ARN de CRISPR (ARNcr). El efector de CRISPR unido al ARNcr y ARNtracr (guía de ARN) forman un complejo funcional capaz de unirse a un ácido nucleico diana.
Un “sitio transcripcionalmente activo”, tal como se usa en el presente documento, se refiere a un sitio en una secuencia de ácido nucleico que incluye una o más regiones promotoras en las que se inicia y se produce activamente la transcripción.
Los términos “complejo de CRISPR activado” o “complejo activado”, tal como se usan en el presente documento, se refieren a un complejo de efector de CRISPR después de que se haya unido a o haya modificado un ácido nucleico diana.
Los términos “ARN colateral” o “ADN colateral”, tal como se usan en el presente documento, se refieren a un sustrato de ácido nucleico que se escinde de manera no específica por un complejo de CRISPR activado. Adecuadamente, un “ARN colateral” o “ADN colateral” puede no tener similitud de secuencia con un ácido nucleico diana o una secuencia espaciadora.
El término “actividad ARNasa colateral”, tal como se usa en el presente documento en referencia a una enzima CRISPR, se refiere a la actividad ARNasa no específica de un complejo de CRISPR activado.
El término “actividad ADNasa colateral”, tal como se usa en el presente documento en referencia a una enzima CRISPR, se refiere a la actividad ADNasa no específica de un complejo de CRISPR activado.
A menos que se defina de otro modo, todos los términos técnicos y científicos usados en el presente documento tienen el mismo significado que entiende habitualmente un experto en la técnica a la que pertenece esta invención. Aunque pueden usarse métodos y materiales similares o equivalentes a los descritos en el presente documento en la práctica o las pruebas de la presente invención, a continuación se describen métodos y materiales adecuados. En caso de conflicto, prevalecerá la presente memoria descriptiva, incluidas las definiciones. Además, los materiales, métodos y ejemplos son sólo ilustrativos y no se pretende que sean limitativos.
0tras características y ventajas de la invención resultarán evidentes a partir de la siguiente descripción detallada y a partir de las reivindicaciones.
Breve descripción de las figuras
Las figuras son una serie de esquemas y secuencias de ácidos nucleicos y aminoácidos que representan los resultados del análisis de locus de diversas agrupaciones de proteínas.
Las figuras 1A y 1B juntas representan un árbol de clasificación de efectores de tipo V (proteínas Cas12). La organización de loci de CRISPR-Cas correspondiente se muestra para cada rama, con la necesidad de un ARNtracr representado por un rectángulo blanco adyacente a una matriz de CRISPR. Los sistemas CLUST.019143 (tipo V-G) se representan como Cas12g.
La figura 2A es una representación esquemática de los dominios funcionales del efector CLUST.019143 (tipo V-G), denominado Cas12g. El sombreado gris sólido indica la ubicación del dominio RuvC C-terminal, con los residuos catalíticos en los tres motivos de secuencia conservados (RuvC-I, RuvC-II y RuvC-III) indicados y mostrados a escala. La hélice puente (h) y el dominio de dedos de Zn (z, CxxC..CxxC) se muestran solo aproximadamente a escala.
La figura 2B es una representación esquemática de una alineación de secuencias múltiples de proteínas efectoras Cas12g, con las ubicaciones relativas de los residuos catalíticos conservados del dominio RuvC indicadas por RuvC I/II/III.
La figura 3 es un grupo de diagramas esquemáticos que muestran la estructura secundaria predicha del transcrito de ARN de ejemplos de secuencias de repetición directa de CLUST.019143 (tipo V-G). De L a R, las secuencias son (SEQ ID NO: 9), (SEQ ID NO: 10), (SEQ ID NO: 4), (SEQ ID NO: 30), (SEQ ID NO: 13), (SEC ID NO: 28).
La figura 4A es una representación esquemática del diseño de cribado in vivo de plásmidos efectores y no codificantes. Se diseñaron bibliotecas de matrices de CRISPR que incluyen espaciadores no repetitivos muestreados uniformemente de ambas cadenas de pACYC184 o genes esenciales de E. coli flanqueados por dos DR y expresados por J23119.
La figura 4B es una representación esquemática del flujo de trabajo de cribado de selección negativa; 1) se clonaron bibliotecas de matrices de CRISPR en el plásmido efector, 2) el plásmido efector y, cuando estaba presente, el plásmido no codificante, se transformaron en E. coli seguido de un crecimiento para la selección negativa de matrices de CRISPR que confieren interferencia contra transcritos de ADN o ARN de pACYC184 o genes esenciales de E. coli, 3) se usó secuenciación dirigida del plásmido efector para identificar matrices de CRISPR agotadas y se usó secuenciación de ARO pequeño para identificar ARNcr maduro y ARNtracr.
La figura 5A es una representación gráfica de la distribución de dianas para matrices de CRISPR fuertemente agotadas en Cas12g1 sobre el plásmido pACYC184. Las dianas en la cadena superior e inferior se muestran por separado y en relación con la orientación de los genes anotados.
La figura 5B es una representación gráfica de la distribución de dianas para matrices de CRISPR fuertemente agotadas en Cas12g1 sobre genes esenciales de E. coli. Las dianas en la cadena superior e inferior se muestran por separado y en relación con la orientación de los genes anotados.
La figura 6A muestra logotipos de secuencia en el flanco izquierdo y el flanco derecho de dianas correspondientes a matrices de CRISPR fuertemente agotadas en Cas12g1 a partir del cribado in vivo.
La figura 6B muestra las puntuaciones de bits para todas las permutaciones de nucleótidos diana y nucleótidos flanqueantes hasta una longitud de 3 para matrices de CRISPR fuertemente agotadas en Cas12g1 a partir del cribado in vivo.
La figura 7 es un mapa de calor que resume la cantidad de matrices de CRISPR fuertemente agotadas detectadas para diferentes composiciones del sistema Cas12g1 enumeradas a lo largo del eje x tal como sigue; 1) biblioteca de plásmidos efectores Cas12g1 con plásmido no codificante (sistema activo mínimo), 2) biblioteca de plásmidos efectores dCas12g1-D513A con plásmido no codificante, y 3) biblioteca de plásmidos efectores Cas12g1-A513D con plásmido no codificante (clon mutante restaurado al WT). Los sistemas de cribado están separados adicionalmente por la dirección de expresión de la matriz de CRISPR. A lo largo del eje y, los espaciadores fuertemente agotados para cada sistema están separados por sustrato diana (pACYC184 o genes esenciales de E. coli, EG) y cadena de ADN (S, sentido; AS, antisentido). Las matrices de CRISPR fuertemente agotadas en controles negativos sin Cas12g1 se restan del análisis.
La figura 8 es un gráfico de dispersión que muestra la comparación de cribado in vivo de Cas12g1 WT frente al mutante dCas12g1 D513A (donde el residuo catalítico de RuvC-I aspartato está mutado a alanina). Cada punto representa un espaciador, y el valor indica el agotamiento de x veces en la condición especificada para el eje (tipo natural frente a mutante). Valores más altos indican un agotamiento más fuerte (es decir, menos colonias supervivientes). Las líneas rojas indican el umbral para “fuertemente agotado” (agotamiento >3 veces).
La figura 9 es un gráfico de dispersión que muestra la comparación de cribado in vivo de Cas12g1 WT frente al mutante de rescate A513D clonado a partir de dCas12g1 D513A. Cada punto representa un espaciador, y el valor indica el agotamiento de x veces en la condición especificada para el eje. Valores más altos indican un agotamiento más fuerte (es decir, menos colonias supervivientes). Las líneas rojas indican el umbral para “fuertemente agotado” (agotamiento >3 veces).
La figura 10 es un gráfico de dispersión que muestra la comparación de cribado in vivo de Cast2g1 WT con y sin el plásmido no codificante. Cada punto representa un espaciador, y el valor indica el agotamiento de x veces en la condición especificada para el eje. Valores más altos indican un agotamiento más fuerte (es decir, menos colonias supervivientes). Las líneas rojas indican el umbral para “fuertemente agotado” (agotamiento >3 veces). La figura 11 representa el mapeo de lectura de secuenciación de ARN pequeño de muestras de cribado in vivo del sistema Cas12g1 mínimo, que revela el ARNcr maduro para Cas12g1 (SEQ ID NO: 202).
La figura 12 representa el mapeo de lectura de secuenciación de ARN pequeño de muestras de cribado in vivo del sistema Cas12g1 mínimo mapeado en el plásmido no codificante, que revela el ARNtracr para Cas12g1 (SEQ ID NO. 250).
La figura 13 representa un plegamiento conjunto del ARNcr maduro (SEQ ID NO: 202) y ARNtracr (SEQ ID NO.
250) con secuencias determinadas por sec. de ARN pequeño de E. coli que expresa el sistema Cas12g1 a partir del cribado in vivo.
La figura 14 muestra un gel de SDS-Page al 4-15 % (BioRad) sin tinción de proteínas efectoras después de la purificación con etiqueta His, agrupación de fracciones y concentración.
Las figuras 15A-B representan geles desnaturalizantes que muestran la falta de procesamiento de pre-ARNcr in vitro por la proteína efectora Cas12g1 a (figura 15A) 37 °C y (figura 15B) 50 °C. Se incubó pre-ARNcr con y sin ARNtracr con Cas12g1 durante 1 hora a 37 °C y se analizó en un gel de TBE-Urea al 15 %.
La figura 16A es un gráfico de curva de fusión de Cas12g1 que muestra la termoestabilidad de apo Cas12g1 y una mayor termoestabilidad del complejo binario (Cas12g1 ARNcr) y ternario (Cas12g1 ARNcr ARNtracr) de Cas12g1. La curva de fusión se obtuvo usando fluorimetría diferencial de barrido (DSF).
La figura 16B representa la primera derivada de las fusiones térmicas a partir de las temperaturas de fusión de los complejos apo, binario (Cas12g1 ARNcr) y ternario (Cas12g1 ARNcr ARNtracr) de Cas12g1. Los trazos de la primera derivada de los complejos binario y ternario de Cas12g1 casi se superponen.
Las figuras 17A-D representan geles desnaturalizantes que demuestran la ausencia de actividad para el complejo de vigilancia de Cas12g1 (Cas12g1 ARNcr ARNtracr) contra dianas de ADNmc. El complejo de vigilancia de Cas12g1 se sometió a prueba para detectar actividad nucleasa contra sustratos de ADN a 37 °C (figura 17A), 42 °C (figura 17B), 50 °C (figura 17C) y 60 °C (figura 17D). La diana de ADNmc está marcada en el extremo 5' con el colorante IR800. Para todas las reacciones, el complejo de vigilancia de Cas12g1 se formó preincubando Cas12g1, ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada.
Las figuras 18A-D representan geles desnaturalizantes que demuestran la ausencia de actividad para el complejo de vigilancia de Cas12g1 (Cas12g1 ARNcr ARNtracr) contra dianas de ADNbc. El complejo de vigilancia de Cas12g1 se sometió a prueba para detectar actividad nucleasa contra sustratos de ADN a 37 °C (figura 18A), 42 °C (figura 18B), 50 °C (figura 18C) y 60 °C (figura 18D). La diana de ADNbc está marcada con colorante IR800 en el extremo 5' de la cadena complementaria no espaciadora. Para todas las reacciones, el complejo de vigilancia de Cas12g1 se formó preincubando Cas12g1, ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada.
La figura 19 representa un gel desnaturalizante que muestra la escisión del ADNmc sentido (S) (SEQ ID NO: 422) en presencia de transcritos de ARNmc sentido (S) (SEQ ID NO: 421) (con sustratos de tanto ADNmc como ARNmc que tienen complementariedad con el espaciador de ARNcr (SEQ ID NO: 412)) por complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr) y ternarios (Cas12g m-ARNcr ARNtracr) a 50 °C. El complejo ternario de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada. En las reacciones, los sustratos de ADNmc y ARNmc se hibridaron antes de añadir el complejo ternario de Cas12g1, lo que produjo un híbrido de ADN-ARN para los emparejamientos sentido-antisentido de ADNmc y ARNmc. Las muestras se trataron con ARNasa y se analizaron en un gel desnaturalizante de TBE-urea al 15 % usando tinción de ácido nucleico con SYBR Gold.
La figura 20 representa un gel desnaturalizante que muestra la ausencia de escisión de ADNmc sentido (S) (SEQ ID NO: 422) en presencia de transcritos de ARNmc antisentido (AS) (SEQ ID NO: 423) por complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr (SEQ iD NO: 412)) y ternarios (Cas12g m-ARNcr ARNtracr) a 50 °C. Obsérvese que solo la secuencia de ADNmc sentido tiene complementariedad con el espaciador de ARNcr. En las reacciones, los sustratos de ADNmc y ARNmc se hibridaron antes de añadir el complejo ternario de Cas12g1, lo que produjo un híbrido de ADN-ARN para los emparejamientos sentidoantisentido de ADNmc y ARNmc. El complejo ternario de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada. Las muestras se trataron con ARNasa y se analizaron en un gel desnaturalizante de TBE-urea al 15 % usando tinción de ácido nucleico con SYBR Gold.
La figura 21 representa un gel desnaturalizante que muestra la ausencia de escisión de ADNmc antisentido (AS) (SEQ ID NO: 424) en presencia de transcritos de ARNmc sentido (S) (SEQ ID NO: 421) por complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr (SEQ iD NO: 412)) y ternarios (Cas12g m-ARNcr ARNtracr) a 50 °C. La secuencia de sustrato de ARNmc sentido tiene complementariedad con el espaciador de ARNcr. En las reacciones, los sustratos de ADNmc y ARNmc se hibridaron antes de añadir el complejo ternario de Cas12g1, lo que produjo un híbrido de ADN-ARN para los emparejamientos sentidoantisentido de ADNmc y ARNmc. El complejo ternario de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada. Las muestras se trataron con ARNasa y se analizaron en un gel desnaturalizante de TBE-urea al 15 % usando tinción de ácido nucleico con SYBR Gold.
La figura 22 representa un gel desnaturalizante que muestra la ausencia de escisión de ADNmc antisentido (AS) (SEQ ID NO: 424) en presencia de transcritos de ARNmc antisentido (AS) (SEQ ID NO: 423) por complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr (SEQ iD NO: 412)) y ternarios (Cast2g m-ARNcr ARNtracr) a 50 °C. Ni los sustratos de ADNmc ni de ARNmc tienen complementariedad de secuencia con el espaciador de ARNcr. En las reacciones, los sustratos de ADNmc y ARNmc se hibridaron antes de añadir el complejo ternario de Cas12g1. El complejo ternario de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada. Las muestras se trataron con ARNasa y se analizaron en un gel desnaturalizante de TBE-urea al 15 % usando tinción de ácido nucleico con SYBR Gold.
Las figuras 23A-B representan geles desnaturalizantes que muestran actividad nucleasa no específica (es decir, colateral) del complejo de vigilancia de Cas12g1 (Cas12g1 ARNcr ARNtracr) contra el sustrato de ADNmc colateral tras el reconocimiento del ARNmc diana. El sustrato de ADNmc colateral marcado con colorante IR800 se escinde a 50 ° C por el complejo de vigilancia de Cas12g1 solo en presencia de ARNmc diana no marcado (figura 23A) y no en presencia de ARNmc no diana no marcado (figura 23B). El complejo de vigilancia de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a 37 °C.
La figura 24 representa un gel desnaturalizante que muestra la escisión de ADNmc de sentido (S) (SEQ ID NO: 422) en presencia de transcritos de ARNmc sentido (S) (SEQ ID NO: 421) (con sustratos tanto de ADNmc como ARNmc que tienen complementariedad con el espaciador de ARNcr (SEQ ID NO: 412)) por complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr) y ternarios (Cas12g m-ARNcr ARNtracr) a 37 °C. El complejo ternario de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada. En las reacciones, los sustratos de ADNmc y ARNmc se hibridaron antes de añadir el complejo ternario de Cas12g1, lo que produjo un híbrido de ADN-ARN para los emparejamientos sentido-antisentido de ADNmc y ARNmc. Las muestras se trataron con ARNasa y se analizaron en un gel desnaturalizante de TBE-urea al 15 % usando tinción de ácido nucleico con SYBR Gold.
La figura 25 representa un gel desnaturalizante que muestra la ausencia de escisión de ADNmc sentido (S) (SEQ ID NO: 422) en presencia de transcritos de ARNmc antisentido (AS) (SEQ ID NO: 423) por complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr (SEQ iD NO: 412)) y ternarios (Cas12g m-ARNcr ARNtracr) a 37 °C. Obsérvese que solo la secuencia sentido de ADNmc tiene complementariedad con el espaciador de ARNcr. En las reacciones, los sustratos de ADNmc y ARNmc se hibridaron antes de añadir el complejo ternario de Cas12g1, lo que produjo un híbrido de ADN-ARN para los emparejamientos sentidoantisentido de ADNmc y ARNmc. El complejo ternario de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada. Las muestras se trataron con ARNasa y se analizaron en un gel desnaturalizante de TBE-urea al 15 % usando tinción de ácido nucleico con SYBR Gold.
La figura 26 representa un gel desnaturalizante que muestra la ausencia de escisión de ADNmc antisentido (AS) (SEQ ID N0: 424) en presencia de transcritos de ARNmc sentido (S) (SEQ ID NO: 421) por complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr (SEQ iD NO: 412)) y ternarios (Cas12g m-ARNcr ARNtracr) a 37 °C. La secuencia de sustrato de ARNmc sentido tiene complementariedad con el espaciador de ARNcr. En las reacciones, los sustratos de ADNmc y ARNmc se hibridaron antes de añadir el complejo ternario Cas12gl, lo que produjo un híbrido de ADN-ARN para los emparejamientos sentido-antisentido de ADNmc y ARNmc. El complejo ternario de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada. Las muestras se trataron con ARNasa y se analizaron en un gel desnaturalizante de TBE-urea al 15 % usando tinción de ácido nucleico con SYBR Gold.
La figura 27 representa un gel desnaturalizante que muestra la ausencia de escisión de ADNmc antisentido (AS) (SEQ ID NO: 424) en presencia de transcritos de ARNmc antisentido (AS) (SEQ ID NO: 423) por complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr (SeQ ID NO: 412)) y ternarios (Cas12g m-ARNcr ARNtracr) a 37 °C. Ni los sustratos de ADNmc ni de ARNmc tienen complementariedad de secuencia con el espaciador de ARNcr. En las reacciones, los sustratos ADNmc y ARNmc se hibridaron antes de añadir el complejo ternario de Cas12g1. El complejo ternario de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a la temperatura especificada. Las muestras se trataron con ARNasa y se analizaron en un gel desnaturalizante de TBE-urea al 15 % usando tinción de ácido nucleico con SYBR Gold.
Las figuras 28A-B representan geles desnaturalizantes que muestran actividad de escisión de ARNmc diana y no diana de los complejos de Cas12g1 apo (Cas12g solamente), binarios (Cas12g m-ARNcr) y ternarios (Cas12g m-ARNcr ARNtracr) a 37 °C. La figura 28A representa la manipulación de sustratos de ARNmc diana marcados con IR 800, mientras que la figura 28B representa la falta de escisión de sustratos de ARNmc no diana marcados con IR 800.
Las figuras 29A-B representan geles desnaturalizantes que muestran actividad de escisión de ARNmc diana y no diana de los complejos de Cas12g1 apo (cas12g solamente), binarios (Cas12g m-ARNcr) y ternarios (Cas12g m-ARNcr ARNtracr) a 50 °C. La figura 29A representa la escisión de sustratos de ARNmc diana marcados con IR 800, mientras que la figura 29B representa la falta de escisión de sustratos de ARNmc no diana.
La figura 30A representa un gel desnaturalizante que muestra que el complejo de vigilancia de Cas12g1 escinde completamente el ARNmc diana hasta nucleótidos en concentraciones de complejo por encima de 32 nM, y muestra actividad ARNasa detectable en el ARNmc diana a concentraciones de complejo de tan solo 125 pM cuando se somete a ensayo a 50 °C.
La figura 30B representa un gel desnaturalizante que muestra que el complejo de vigilancia de Cas12g1 no muestra actividad de ARNasa con un ARNmc no diana a concentraciones de complejo tan altas como 250 nM. Todos los sustratos de ARNmc estaban marcados en el extremo 5' con colorante IR800. El complejo de vigilancia de Cas12g1 se formó preincubando Cas12g1 y ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a 50 °C.
La figura 31A representa un gel desnaturalizante que muestra una escisión robusta de ARNmc colateral por el complejo de vigilancia de Cas12g1 en presencia de concentraciones crecientes de ARNmc diana no marcado.
La figura 31B representa un gel desnaturalizante que muestra que el complejo de vigilancia de Cas12g1 no escinde ARNmc colateral en presencia de ARNmc no diana. Todos los sustratos de ARNmc colateral estaban marcados en el extremo 5' con colorante IR800. El complejo de vigilancia de Cas12g1 se formó preincubando Cas12g1 con ARNcr maduro y ARNtracr durante 10 minutos a 37 °C antes de añadir los sustratos e incubar durante 1 hora a 50 °C.
La figura 32 representa un gel desnaturalizante que muestra la actividad nucleasa del complejo de vigilancia de Cas12g1 en sustratos de ARNmc diana inhibidos por EDTA a 50 °C.
La figura 33 representa un gel desnaturalizante que muestra la escisión de ADNmc colateral activado por ARNmc diana por el complejo de vigilancia de Casl2g1 a 37 °C y 50 °C. Las muestras se analizaron mediante electroforesis en gel desnaturalizante de TBE-urea al 15 %.
La figura 34 representa un gel desnaturalizante que muestra la diana activada por ARNmc diana y la escisión de ARNmc colateral por el complejo de vigilancia de Cas12g1 a 37 °C. Las muestras se analizaron mediante electroforesis en gel desnaturalizante de TBE-urea al 15 %.
La figura 35 representa un gel desnaturalizante que muestra la ausencia de escisión de ADNmc colateral activado por ARNmc diana por el complejo de vigilancia de dCas12g1 D513A a 37 °C y 50 °C. Las muestras se analizaron mediante electroforesis en gel desnaturalizante de TBE-urea al 15 %.
La figura 36 representa un gel desnaturalizante que muestra la ausencia de la diana activada por ARNmc diana y la escisión de ARNmc colateral por el complejo de vigilancia de dCas12g1 D513A a 37 °C. Las muestras se analizaron mediante electroforesis en gel desnaturalizante de TBE-urea al 15 %.
Las figuras 37A-C son una serie de esquemas que muestran los componentes del sistema y los mecanismos de interferencia de Cas12g.
Descripción detallada
La amplia diversidad natural de los sistemas de defensa de CRISPR-Cas contiene una amplia gama de mecanismos de actividad y elementos funcionales que pueden aprovecharse para biotecnologías programables. En un sistema natural, estos mecanismos y parámetros permiten una defensa eficiente contra ADN y virus extraños al tiempo que proporcionan autodiscriminación frente a no autodiscriminación para evitar dirigirse a sí mismos. En un sistema diseñado por ingeniería, los mismos mecanismos y parámetros también proporcionan una caja de herramientas diversa de tecnologías moleculares y definen los límites del espacio de direccionamiento. Por ejemplo, los sistemas Cas9 y Cas13a tienen actividad ADN y ARN endonucleasa canónica y sus espacios de direccionamiento están definidos por el motivo adyacente al protoespaciador (PAM) en el ADN diana y los sitios flanqueantes del protoespaciador (PFS) en el ARN diana, respectivamente.
Los métodos descritos en el presente documento se han usado para descubrir mecanismos y parámetros adicionales dentro de los sistemas efectores de clase 2 de una sola subunidad que pueden aprovecharse de manera más eficaz para biotecnologías programables.
En un aspecto, la divulgación se refiere al uso de métodos y algoritmos computacionales para buscar e identificar novedosas familias de proteínas que presenten un fuerte patrón de coexistencia con determinadas otras características dentro de secuencias genómicas que se producen de manera natural. En determinadas realizaciones, estos métodos computacionales están dirigidos a identificar familias de proteínas que coexisten en proximidad estrecha a matrices de CRISPR. Sin embargo, los métodos dados a conocer en el presente documento son útiles para identificar proteínas que se producen de manera natural en proximidad estrecha a otras características, tanto no codificantes como codificantes de proteínas (por ejemplo, fragmentos de secuencias de fagos en áreas no codificantes de loci bacterianos; o proteínas de CRISPR Casi). Debe entenderse que los métodos y cálculos descritos en el presente documento pueden realizarse en uno o más dispositivos informáticos.
En algunas realizaciones, puede obtenerse un conjunto de secuencias genómicas a partir de bases de datos genómicas o metagenómicas. Las bases de datos comprenden lecturas cortas, o datos a nivel de cóntigo, o armazones ensamblados, o secuencias genómicas completas de organismos. Asimismo, la base de datos puede comprender datos de secuencias genómicas de organismos procariotas u organismos eucariotas, o puede incluir datos de muestras ambientales metagenómicas. Los ejemplos de repositorios de bases de datos incluyen RefSeq del Centro Nacional para la Información Biotecnológica (National Center for Biotechnology Information, NCBI), GenBank del NCBI, Whole Genome Shotgun (WGS) del NCBI e Integrated Microbial Genomes (IMG) del Joint Genome Institute (JGI).
En algunas realizaciones, se impone un requisito de tamaño mínimo para seleccionar datos de secuencia genómica de una longitud mínima especificada. En determinadas realizaciones a modo de ejemplo, la longitud mínima del cóntigo puede ser de 100 nucleótidos, 500 nt, 1 kb, 1,5 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 40 kb o 50 kb.
En algunas realizaciones, se extraen proteínas conocidas o predichas del conjunto completo o seleccionado de datos de secuencia genómica. En algunas realizaciones, se toman proteínas conocidas o predichas de la extracción de anotaciones de secuencia codificante (CDS) proporcionadas por la base de datos fuente. En algunas realizaciones, las proteínas predichas se determinan aplicando un método computacional para identificar proteínas a partir de secuencias de nucleótidos. En algunas realizaciones, se usa GeneMark Suite para predecir proteínas a partir de secuencias genómicas. En algunas realizaciones, se usa Prodigal para predecir proteínas a partir de secuencias genómicas. En algunas realizaciones, pueden usarse múltiples algoritmos de predicción de proteínas sobre el mismo conjunto de datos de secuencia desduplicándose el conjunto resultante de proteínas.
En algunas realizaciones, se identifican matrices de CRISPR a partir de los datos de secuencia genómica. En algunas realizaciones, se usa PILER-CR para identificar matrices de CRISPR. En algunas realizaciones, se usa la herramienta de reconocimiento de CRISPR (CRT) para identificar matrices de CRISPR. En algunas realizaciones, las matrices de CRISPR se identifican mediante una heurística que identifica motivos de nucleótidos repetidos un número mínimo de veces (por ejemplo, 2, 3 ó 4 veces), en las que el espacio entre apariciones consecutivas de un motivo repetido no excede una longitud específica (por ejemplo, 50, 100 ó 150 nucleótidos). En algunas realizaciones, pueden usarse múltiples herramientas de identificación de matrices de CRISPR sobre el mismo conjunto de datos de secuencia desduplicándose el conjunto resultante de matrices de CRISPR.
En algunas realizaciones, se identifican proteínas en proximidad estrecha a matrices de CRISPR. En algunas realizaciones, la proximidad se define como una distancia de nucleótidos y puede estar dentro de 20 kb, 15 kb o 5 kb. En algunas realizaciones, la proximidad se define como el número de marcos de lectura abiertos (ORF) entre una proteína y una matriz de CRISPR, y determinadas distancias a modo de ejemplo pueden ser 10, 5, 4, 3, 2, 1 ó 0 ORF. Las proteínas identificadas como en proximidad estrecha a una matriz de CRISPR se agrupan luego en agrupaciones de proteínas homólogas. En algunas realizaciones, se usa blastclust para formar agrupaciones de proteínas. En determinadas otras realizaciones, se usa mmseqs2 para formar agrupaciones de proteínas.
Para establecer un patrón de coexistencia fuerte entre los miembros de una agrupación de proteínas con matrices de CRISPR, puede realizarse una búsqueda BLAST de cada miembro de la familia de proteínas en el conjunto completo de proteínas conocidas y predichas previamente compiladas. En algunas realizaciones, puede usarse UBLAST o mmseqs2 para buscar proteínas similares. En algunas realizaciones, puede realizarse una búsqueda sólo para un subconjunto representativo de proteínas en la familia.
En algunas realizaciones, las agrupaciones de proteínas dentro de una proximidad estrecha a matrices de CRISPR se clasifican o se filtran mediante una métrica para determinar la coexistencia. Un ejemplo de una métrica es la razón del número de elementos en una agrupación de proteínas con respecto al número de coincidencias de BLAST hasta un determinado umbral de valor E. En algunas realizaciones, puede usarse un umbral de valor E constante. En otras realizaciones, el umbral de valor E puede determinarse por los miembros más distantes de la agrupación de proteínas. En algunas realizaciones, el conjunto global de proteínas está agrupado y la métrica de coexistencia es la razón del número de elementos de la agrupación asociada a CRISPR con respecto al número de elementos de la(s) agrupación/agrupaciones global(es) que las contienen.
En algunas realizaciones, se usa un proceso de revisión manual para evaluar la funcionalidad potencial y el conjunto mínimo de componentes de un sistema diseñado por ingeniería genética basado en la estructura de locus que se produce de manera natural de las proteínas en la agrupación. En algunas realizaciones, una representación gráfica de la agrupación de proteínas puede ayudar en la revisión manual y puede contener información que incluye similitud de secuencia por parejas, árbol filogenético, organismos/entornos fuente, dominios funcionales predichos y una representación gráfica de estructuras de locus. En algunas realizaciones, la representación gráfica de estructuras de locus puede filtrar familias de proteínas cercanas que tienen una alta representación. En algunas realizaciones, la representación puede calcularse mediante la razón del número de proteínas cercanas relacionadas con respecto al/a los tamaño(s) del/de las agrupación/agrupaciones global(es) que las contienen. En determinadas realizaciones a modo de ejemplo, la representación gráfica de la agrupación de proteínas puede contener una representación de las estructuras de matriz de CRISPR de los loci que se producen de manera natural. En algunas realizaciones, la representación gráfica de la agrupación de proteínas puede contener una representación del número de repeticiones directas conservadas frente a la longitud de la supuesta matriz CRISPR, o el número de secuencias espaciadoras únicas frente a la longitud de la supuesta matriz de CRISPR. En algunas realizaciones, la representación gráfica de la agrupación de proteínas puede contener una representación de diversas métricas de coexistencia del supuesto efector con matrices de CRISPR para predecir nuevos sistemas de CRISPR-Cas e identificar sus componentes.
Cribado agrupado
Para validar de manera eficiente la actividad de los novedosos sistemas de CRISPR-Cas diseñados por ingeniería genética y evaluar simultáneamente de manera imparcial diferentes mecanismos de actividad y parámetros funcionales, se usa un nuevo enfoque de cribado agrupado en E. coli. En primer lugar, a partir de la identificación computacional de la proteína conservada y elementos no codificantes del novedoso sistema de CRISPR-Cas, se usa síntesis de ADN y clonación molecular para ensamblar los componentes separados en un solo vector de expresión artificial, que en una realización se basa en una estructura principal de pET-28a+. En una segunda realización, los efectores y elementos no codificantes se transcriben en un único transcrito de ARNm y se usan diferentes sitios de unión al ribosoma para traducir los efectores individuales.
En segundo lugar, el ARNcr natural y los espaciadores de direccionamiento se reemplazan por una biblioteca de ARNcr sin procesar que contienen espaciadores no naturales dirigidos a un segundo plásmido, pACYC184. Esta biblioteca de ARNcr se clona en la estructura principal del vector que contiene los efectores proteicos y los elementos no codificantes (por ejemplo, pET-28a+) y, posteriormente, se transforma la biblioteca en E. colijunto con la diana de plásmido pACYC184. En consecuencia, cada célula de E. coli resultante no contiene más de un espaciador de direccionamiento. En una realización alternativa, la biblioteca de ARNcr sin procesar que contienen espaciadores no naturales también se dirige a genes esenciales de E. coli extraídos de recursos tales como los descritos en Baba et al. (2006) Mol. Syst. Biol. 2: 2006.0008; y Gerdes et al. (2003) J. Bacteriol.
185(19): 5673-84. En esta realización, la actividad positiva dirigida de los novedosos sistemas de CRISPR-Cas que altera la función génica esencial da como resultado muerte celular o detención del crecimiento. En algunas realizaciones, los espaciadores de direccionamiento de genes esenciales pueden combinarse con las dianas de pACYC184 para añadir otra dimensión al ensayo.
En tercer lugar, se cultivan E. coli bajo la selección con antibióticos. En una realización, se usa selección con tres antibióticos: kanamicina para garantizar la transformación exitosa del vector pET-28a+ que contiene el sistema efector de CRISPR-Cas diseñado por ingeniería genética, y cloranfenicol y tetraciclina para garantizar la cotransformación exitosa del vector diana pACYC184. Dado que pACYC184 normalmente confiere resistencia a cloranfenicol y tetraciclina, bajo la selección con antibióticos, la actividad positiva del novedoso sistema de CRISPR-Cas dirigido al plásmido eliminará las células que expresan activamente los efectores, los elementos no codificantes y los elementos activos específicos de la biblioteca de ARNcr. El examen de la población de células supervivientes en un punto de tiempo posterior en comparación con un punto de tiempo anterior normalmente proporciona una señal reducida en comparación con los ARNcr inactivos. En algunas realizaciones, se usa selección con dos antibióticos. Por ejemplo, la retirada o bien de cloranfenicol o bien de tetraciclina para eliminar la presión selectiva puede proporcionar información novedosa sobre el sustrato de direccionamiento, la especificidad de secuencia y la potencia.
En algunas realizaciones, sólo se usa kanamicina para garantizar la transformación exitosa del vector pET-28a+ que contiene el sistema efector de CRISPR-Cas diseñado por ingeniería genética. Esta realización es adecuada para bibliotecas que contienen espaciadores dirigidos a genes esenciales de E. coli, ya que no se necesita una selección adicional más allá de la kanamicina para observar las alteraciones del crecimiento. En esta realización, se elimina la dependencia del cloranfenicol y la tetraciclina, y sus dianas (si las hay) en la biblioteca proporcionan una fuente adicional de información negativa o positiva sobre el sustrato de direccionamiento, la especificidad de secuencia y la potencia.
Dado que el plásmido pACYC184 contiene un conjunto diverso de características y secuencias que pueden afectar a la actividad de un sistema de CRISPR-Cas, el mapeo de los ARNcr activos a partir del cribado agrupado en pACYC184 proporciona patrones de actividad que pueden sugerir diferentes mecanismos de actividad y parámetros funcionales de una manera amplia, sin ceñirse a una hipótesis. De este modo, las características requeridas para reconstituir el novedoso sistema de CRISPR-Cas en una especie procariota heteróloga pueden someterse a prueba y estudiarse de manera más exhaustiva.
Determinadas ventajas importantes del cribado agrupado in vivo descrito en el presente documento incluyen: (1) versatilidad - el diseño del plásmido permite expresar múltiples efectos y/o elementos no codificantes; la estrategia de clonación de la biblioteca permite que se expresen ambas direcciones transcripcionales direcciones del ARNcr predicho computacionalmente;
(2) pueden usarse pruebas exhaustivas de mecanismos de actividad y parámetros funcionales para evaluar diversos mecanismos de interferencia, incluida la escisión de ADN o ARN; para examinar la coexistencia de características tales como transcripción, replicación de ADN de plásmido; y para examinar secuencias flanqueantes para una biblioteca de ARNcr para determinar de manera fiable los PAM, en las que cualquier combinación de hasta 4 bases (que representan un PAM de complejidad 4N) está presente al menos 3-10 veces en la biblioteca de direccionamiento;
(3) sensibilidad - pACYC184 es un plásmido de bajo número de copias, que permite alta sensibilidad para la actividad de CRISPR-Cas, porque incluso tasas de interferencia moderadas pueden eliminar la resistencia a antibióticos codificada por el plásmido; y
(4) eficiencia - el cribado agrupado incluye etapas optimizadas de biología molecular que permiten una mayor velocidad y rendimiento de la secuenciación de ARN, y las muestras de expresión de proteínas pueden recogerse directamente de las células supervivientes en el cribado.
Tal como se comenta en más detalle en los ejemplos más adelante, las novedosas familias de CRISPR-Cas descritas en el presente documento se evaluaron usando este cribado agrupado in vivo para evaluar sus elementos, mecanismos y parámetros operativos, así como su capacidad para activarse y reprogramarse en un sistema diseñado por ingeniería genética fuera de su entorno celular natural.
Efectores de CRISPR-Cas de clase 2 que tienen un dominio RuvC
En un aspecto, la divulgación proporciona sistemas de CRISPR-Cas de clase 2 denominados en el presente documento CLUST.019143 (tipo V-G). Estos sistemas de CRISPR-Cas de clase 2 contienen una proteína efectora de CRISPR-Cas aislada que tiene un dominio RuvC y una guía de ARN aislada, que comprende un ARNtracr y un ARNcr, en los que el ARNcr incluye una secuencia espaciadora que es complementaria a una secuencia de ácido nucleico diana tal como una secuencia de ARN.
En algunas realizaciones, una proteína efectora de CRISPR-Cas que tiene un dominio RuvC puede incluir uno o más de los motivos del conjunto del motivo de RuvC I (SEQ ID NO: 210), el motivo de RuvC II (SEQ ID NO: 211) y el motivo RuvC III (SEQ ID NO: 212).
En algunas implementaciones, un sistema de CRISPR-Cas de tipo V-G incluye un efector de CRISPR-Cas que tiene un dominio RuvC, un ARNcr de tipo V-G y un ARNtracr de tipo V-G. Adecuadamente, un ARNcr de tipo V-G puede incluir SEQ ID NO: 200 proximal a su extremo 3' y adyacente a la secuencia espaciadora. Adecuadamente, un ARNcr de tipo V-G puede incluir SEQ ID NO: 201 proximal a su extremo 3' y adyacente a la secuencia espaciadora. Adecuadamente, un ARNcr de tipo V-G puede formar una estructura de tallo-bucle con un ARNtracr de tipo V-G.
En algunas realizaciones, pueden usarse sistemas de tipo V-G para unirse a ARN diana específico de secuencia. Adecuadamente, pueden usarse sistemas de tipo V-G para degradar ARN diana específico de secuencia tras el reconocimiento y la unión. Adecuadamente, pueden usarse sistemas de tipo V-G para degradar ARN “colateral” tras la unión a ARN diana específico de secuencia. Adecuadamente, pueden usarse sistemas de tipo V-G a temperaturas superiores (por ejemplo, 50 °C) para degradar ARN “colateral” tras la unión a ARN diana específico de secuencia con mayor eficiencia en comparación con temperaturas inferiores (por ejemplo, 37 °C). Adecuadamente, pueden usarse sistemas de tipo V-G para degradar ADN monocatenario “colateral” tras la unión a ARN diana específico de secuencia. Adecuadamente, pueden usarse sistemas de tipo V-G a temperaturas superiores (por ejemplo, 50 °C) para degradar ADNmc “colateral” tras la unión a ARN diana específico de secuencia con mayor eficiencia en comparación con temperaturas inferiores (por ejemplo, 37 °C).
Adecuadamente, un efector de CRISPR-Cas de tipo V-G tiene una secuencia de aminoácidos de menos de aproximadamente 860 aminoácidos. Adecuadamente, un efector de CRISPR-Cas de tipo V-G tiene una secuencia de aminoácidos de entre 650 y 860 aminoácidos o entre 700 y 850 aminoácidos.
En algunas realizaciones, la proteína efectora asociada a CRISPR de tipo V-G y la guía de ARN forman un complejo de vigilancia que puede incluir otros componentes. El complejo de vigilancia se activa tras la unión a un sustrato de ácido nucleico que es complementario a una secuencia espaciadora en la guía de ARN (es decir, un sustrato específico de secuencia, también denominado en el presente documento ácido nucleico diana). En algunas realizaciones, el ácido nucleico diana es un ARN monocatenario. En algunas realizaciones, el ácido nucleico diana es un ARN bicatenario. En algunas realizaciones, la especificidad de secuencia requiere una coincidencia completa de la secuencia espaciadora en la guía de ARN con el sustrato diana. En otras realizaciones, la especificidad de secuencia requiere una coincidencia parcial (contigua o no contigua) de la secuencia espaciadora en la guía de ARN con el sustrato diana.
En algunas realizaciones, el complejo de vigilancia se activa tras la unión al sustrato diana. En algunas realizaciones, el sustrato diana es un ARN (por ejemplo, un ARN monocatenario o bicatenario). En algunas realizaciones, el complejo activado presenta actividad de “recambio múltiple”, mediante la cual, tras actuar sobre (por ejemplo, escindiendo) el sustrato diana, el complejo activado permanece en un estado activado. En algunas realizaciones, el complejo activado presenta actividad de “recambio individual”, mediante la cual, tras actuar sobre el sustrato diana, el complejo de vigilancia vuelve a un estado inactivo. En algunas realizaciones, el complejo activado presenta actividad de escisión no específica (es decir, “colateral”), mediante la cual el complejo activado escinde ácidos nucleicos sin similitud de secuencia con la diana (“ácidos nucleicos colaterales”). En algunas realizaciones, el sustrato de ácido nucleico colateral es un ADN (por ejemplo, un ADN monocatenario o bicatenario). En algunas realizaciones, el sustrato de ácido nucleico colateral es un ARN (por ejemplo, un ARN monocatenario o bicatenario).
ARNasas guiadas por ARN de CRISPR de clase 2
En otro aspecto, esta divulgación describe una familia novedosa de efectores de CRISPR de clase 2 que tienen capacidades de direccionamiento a ARN. El uno o más dominios de ARNasa subyacentes confieren la capacidad de unirse a y escindir cualquier molécula de ARN diana. El ARN diana puede ser cualquier forma de ARN, incluyendo, pero sin limitarse a, ARNm, ARNt, ARN ribosómico, ARN no codificante, ARNlinc y ARN nuclear. Por ejemplo, en algunas realizaciones, la proteína asociada a CRISPR reconoce y escinde dianas ubicadas en la cadena codificante de marcos de lectura abiertos (ORF).
En una realización, la divulgación proporciona una familia de efectores de CRISPR de clase 2, denominados en el presente documento generalmente proteínas efectoras de CRISPR-Cas CLUST.019143 (tipo V-G). Esta familia recién identificada de efectores de CRISPR de clase 2 puede usarse en una variedad de aplicaciones, y las nuevas proteínas efectoras son particularmente adecuadas para aplicaciones terapéuticas, porque son significativamente más pequeñas que otros efectores de CRISPR que se dirigen a ARN (por ejemplo, efectores de CRISPR Cas13a, Cas13b o Cas13c), lo que permite el empaquetamiento de los efectores y/o ácidos nucleicos que codifican para los efectores en sistemas de administración que tienen limitaciones de tamaño. Actividad ARNasa colateral
En algunas realizaciones, un complejo de vigilancia compuesto por (pero no necesariamente limitado a) una proteína asociada a CRISPR Cas12g y una guía de ARN se activa tras la unión a un ácido nucleico diana (por ejemplo, un ARN diana). La activación induce un cambio conformacional, lo que da como resultado que el complejo activado actúe como ARNasa no específica, escindiendo y/o degradando moléculas de ARN cercanas (por ejemplo, moléculas de ARNmc o ARNbc) (es decir, efectos “colaterales”).
Actividad ADNasa colateral
En algunas realizaciones, un complejo de vigilancia compuesto por (pero no necesariamente limitado a) un efector Cas12g y una guía de ARN se activa tras la unión a un ácido nucleico diana (por ejemplo, un ARN diana). La activación induce un cambio conformacional, lo que da como resultado que el complejo actúe como ADNasa no específica, escindiendo y/o degradando moléculas de ADN cercanas (por ejemplo, moléculas de ADNmc o ADNbc) (es decir, efectos “colaterales”).
Reconocimiento de diana libre de colateral
En otras realizaciones, un complejo de vigilancia compuesto por (pero no necesariamente limitado a) un efector Cas12g y una guía de ARN no presenta actividad nucleasa colateral posterior al reconocimiento de la diana. Esta realización “libre de colateral” puede comprender proteínas efectoras de tipo natural o modificadas por ingeniería genética.
Direccionamiento independiente de PAM/PFS
En algunas realizaciones, un complejo de vigilancia compuesto por (pero no necesariamente limitado a) un efector Cas12g y una guía de ARN reconoce y escinde el ácido nucleico diana sin ningún requisito adicional adyacente a o flanqueante del protoespaciador (es decir, requisitos de motivo adyacente al protoespaciador “pAm ” o secuencia flanqueante del protoespaciador “PFS”).
Modificaciones de enzimas CRISPR
Enzimas CRISPR deficientes en nucleasas
Cuando las enzimas CRISPR descritas en el presente documento tienen actividad nucleasa, las enzimas CRISPR pueden modificarse para que tengan una actividad nucleasa disminuida, por ejemplo, la inactivación de nucleasa de al menos el 50 %, al menos el 60 %, al menos el 70 %, al menos el 80 %, al menos el 90 %, al menos el 95 %, al menos el 97 % o del 100 % en comparación con las enzimas CRISPR de tipo natural. La actividad nucleasa puede disminuirse, por ejemplo, introduciendo mutaciones (tales como inserciones, deleciones o sustituciones de aminoácidos) en los dominios de nucleasa de las enzimas CRISPR. En algunas realizaciones, se identifican residuos catalíticos para las actividades nucleasa, y estos residuos de aminoácido pueden sustituirse por diferentes residuos de aminoácido (por ejemplo, glicina o alanina) para disminuir la actividad nucleasa. Un ejemplo de una mutación de este tipo para Cas12g1 incluye D513A.
Las enzimas CRISPR inactivadas pueden comprender (por ejemplo, por medio de una proteína de fusión, péptidos ligadores, ligadores peptídicos de Gly4Ser (GS), etc.) o estar asociadas (por ejemplo, por medio de coexpresión de múltiples proteínas) con uno o más dominios funcionales. Estos dominios funcionales pueden tener diversas actividades, por ejemplo, actividad metilasa, actividad desmetilasa, actividad de activación de la transcripción, actividad de represión de la transcripción, actividad de factor de liberación de la transcripción, actividad de modificación de histonas, actividad de escisión de ARN, actividad de escisión de ADN, actividad de unión a ácido nucleico y actividad de cambio (por ejemplo, inducible por luz). En algunas realizaciones, los dominios funcionales son caja asociada a Krüppel (KRa B), VP64, VP16, Fok1, P65, HSF1, MyoD1 y biotina-APEX.
El posicionamiento del uno o más dominios funcionales en las enzimas CRISPR inactivadas permite la orientación espacial correcta del dominio funcional para afectar a la diana con el efecto funcional atribuido. Por ejemplo, si el dominio funcional es un activador de la transcripción (por ejemplo, VP16, VP64 o p65), el activador de la transcripción se coloca en una orientación espacial que permite que afecte a la transcripción de la diana. Asimismo, está situado un represor de la transcripción (por ejemplo, KRAb ) para que afecte a la transcripción de la diana, y está situada una nucleasa (por ejemplo, Fok1) para que escinda o escinda parcialmente la diana. En algunas realizaciones, el dominio funcional está situado en el extremo N-terminal de la enzima CRISPR. En algunas realizaciones, el dominio funcional está situado en el extremo C-terminal de la enzima CRISPR. En algunas realizaciones, la enzima CRISPR inactivada se modifica para que comprenda un primer dominio funcional en el extremo N-terminal y un segundo dominio funcional en el extremo C-terminal.
Enzimas divididas
La presente divulgación también proporciona una versión dividida de las enzimas CRISPR descritas en el presente documento. La versión dividida de las enzimas CRISPR puede ser ventajosa para la administración. En algunas realizaciones, las enzimas CRISPR se dividen en dos partes de las enzimas, que juntas comprenden sustancialmente una enzima CRISPR en funcionamiento.
La división puede realizarse de modo que el/los dominio(s) catalítico(s) no se vea(n) afectado(s). Las enzimas CRISPR pueden funcionar como una nucleasa o pueden ser enzimas inactivadas, que son esencialmente proteínas de unión a ARN con muy poca o ninguna actividad catalítica (por ejemplo, debido a mutación/mutaciones en sus dominios catalíticos).
En algunas realizaciones, el lóbulo de nucleasa y el lóbulo de hélice a se expresan como polipéptidos separados. Aunque los lóbulos no interactúan por sí solos, la guía de ARN los recluta en un complejo de vigilancia que recapitula la actividad de enzimas CRISPR de longitud completa y cataliza la escisión de Ad N específica de sitio. El uso de una guía de ARN modificada anula la actividad de la enzima dividida al evitar la dimerización, lo que permite el desarrollo de un sistema de dimerización inducible. La enzima dividida se describe, por ejemplo, en Wright, Addison V., et al. “Rational design of a split-Cas9 enzyme complex”, Proc. Nat'l. Acad. Sci., 112.10 (2015): 2984-2989.
En algunas realizaciones, la enzima dividida puede fusionarse con una pareja de dimerización, por ejemplo, empleando dominios de dimerización sensibles a rapamicina. Esto permite la generación de una enzima CRISPR químicamente inducible para el control temporal de la actividad de la enzima CRISPR. Por tanto, las enzimas CRISPR pueden volverse químicamente inducibles al dividirse en dos fragmentos y los dominios de dimerización sensibles a rapamicina pueden usarse para el reensamblaje controlado de las enzimas CRISPR.
El punto de división normalmente se diseña in silico y se clona en los constructos. Durante este proceso, pueden introducirse mutaciones en la enzima dividida y pueden eliminarse dominios no funcionales. En algunas realizaciones, las dos partes o fragmentos de la enzima CRISPR dividida (es decir, los fragmentos N-terminal y C-terminal) pueden formar una enzima CRISPR completa, que comprende, por ejemplo, al menos el 70 %, al menos el 80 %, al menos al menos el 90 %, al menos el 95 % o al menos el 99 % de la secuencia de la enzima CRISPR de tipo natural.
Enzimas autoactivantes o inactivantes
Las enzimas CRISPR descritas en el presente documento pueden diseñarse para que se autoactiven o se autoinactiven. En algunas realizaciones, las enzimas CRISPR se autoinactivan. Por ejemplo, la secuencia diana puede introducirse en los constructos codificantes de enzimas CRISPR. Por tanto, las enzimas CRISPR pueden escindir la secuencia diana, así como el constructo que codifica para la enzima, autoinactivando de ese modo su expresión. Se describen métodos de construcción de un sistema de CRISPR autoinactivante, por ejemplo, en Epstein, Benjamin E. y David V. Schaffer. “Engineering a Self-Inactivating CRISPR System for AAV Vectors”, Mol. Ther., 24 (2016): S50.
En algunas otras realizaciones, una guía de ARN adicional, expresada bajo el control de un promotor débil (por ejemplo, el promotor 7SK), puede dirigirse a la secuencia de ácido nucleico que codifica para la enzima CRISPR para evitar y/o bloquear su expresión (por ejemplo, al prevenir la transcripción y/o traducción del ácido nucleico). La transfección de células con vectores que expresan la enzima CRISPR y la(s) guía(s) de ARN que se dirige(n) al ácido nucleico que codifica para la enzima CRISPR puede conducir a una alteración eficiente del ácido nucleico que codifica para la enzima CRISPR y disminuir los niveles de la enzima CRISPR, limitando de ese modo la actividad de edición del genoma.
En algunas realizaciones, la actividad de edición del genoma de las enzimas CRISPR puede modularse a través de firmas de ARN endógeno (por ejemplo, miARN) en células de mamífero. El cambio de enzima CRISPR puede realizarse usando una secuencia complementaria al miARN en la 5'-UTR del ARNm que codifica para la enzima CRISPR. Los cambios responden de manera selectiva y eficiente al miARN en las células diana. Por tanto, los cambios pueden controlar diferencialmente la edición del genoma al detectar actividades endógenas de miARN dentro de una población celular heterogénea. Por tanto, los sistemas de cambio pueden proporcionar un marco para la edición del genoma selectivo de tipo celular y la ingeniería celular basada en información de miARN intracelular (Hirosawa, Moe et al. “Cell-type-specific genome editing with a microRNA-responsive CRISPR-Cas9 switch”, Nucl. Acids Res., 27 de julio de 2017; 45(13): e118).
Enzimas CRISPR inducibles
Las enzimas CRISPR pueden ser inducibles, por ejemplo, inducibles por luz o inducibles químicamente. Este mecanismo permite la activación del dominio funcional en las enzimas CRISPR con un desencadenante conocido. La inducibilidad por la luz puede lograrse mediante diversos métodos conocidos en la técnica, por ejemplo, mediante el diseño de un complejo de fusión en el que se usa el emparejamiento CRY2PHR/CIBN en enzimas CRISPR divididas (véase, por ejemplo, Konerman et al. “Optical control of mammalian endogenous transcription and epigenetic states”, Nature, 500.7463 (2013): 472). La inducibilidad química puede lograrse, por ejemplo, mediante el diseño de un complejo de fusión en el que se usa el emparejamiento FKBP/FRB (proteína de unión a FK506/dominio de unión a rapamicina de FKBP) en enzimas CRISPR divididas. Se requiere rapamicina para formar el complejo de fusión, activando de ese modo las enzimas CRISPR (véase, por ejemplo, Zetsche, Volz y Zhang, “A split-Cas9 architecture for inducible genome editing and transcription modulation”, Nature Biotech., 33.2 (2015): 139-142).
Además, la expresión de las enzimas CRISPR puede modularse mediante promotores inducibles, por ejemplo, activación transcripcional controlada por tetraciclina o doxiciclina (sistema de expresión Tet-On y Tet-Off), sistema de expresión génica inducible por hormonas (por ejemplo, un sistema de expresión génica inducible por ecdisona) y un sistema de expresión génica inducible por arabinosa. Cuando se administra como ARN, la expresión de la proteína efectora dirigida al ARN puede modularse a través de un ribointerruptor, que puede detectar una molécula pequeña como la tetraciclina (véase, por ejemplo, Goldfless, Stephen J. et al. “Direct and specific chemical control of eukaryotic translation with a synthetic RNA-protein interaction”, Nucl. Acids Res., 40.9 (2012): e64-e64).
Se describen diversas realizaciones de enzimas CRISPR inducibles y sistemas de CRISPR inducibles, por ejemplo, en los documentos US8871445, US20160208243 y WO2016205764.
Mutaciones funcionales
En algunas realizaciones, las proteínas asociadas a CRISPR incluyen al menos una señal de localización nuclear (NLS) (por ejemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ó 10) unida al extremo N-terminal o C-terminal de la proteína. Los ejemplos no limitativos de NLS incluyen una secuencia de NLS derivada de: la NLS del antígeno T grande del virus SV40, que tiene la secuencia de aminoácidos PKKKRKV (SEQ ID NO: 300); la NLS de nucleoplasmina (por ejemplo, la NlS de nucleoplasmina bipartita con la secuencia KRPAATKKAg Qa KKKK (SEQ ID NO: 301)); la NLS de c-myc que tiene la secuencia de aminoácidos PAAKRVKLD (SEQ ID NO: 302) o RQRRNELKRSP (SeQ ID NO: 303); la NLS de hRNPA1 M9 que tiene la secuencia NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 304); la secuencia RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO: 305) del dominio IBB de importinaalfa; las secuencias VSRKRPRP (SEQ ID NO: 306) y PPKKARED (SEQ ID NO: 307) de la proteína T del mioma; la secuencia PQPKKKPL (SEQ ID NO: 308) de p53 humana; la secuencia SALIKKKKKMAP (SEQ ID NO: 309) de c-abl IV de ratón; las secuencias DRLRR (SEQ ID NO: 310) y PKQKKRK (SEQ ID NO: 311) de NS1 del virus de la gripe; la secuencia RKLKKKIKKL (SEQ ID NO: 312) del antígeno delta del virus de la hepatitis; la secuencia REKKKFLKRR (SEQ ID NO: 313) de la proteína Mx1 de ratón; la secuencia KRKGDEVDGVDEVAKKKSKK (SEQ ID NO: 314) de la poli(ADP-ribosa) polimerasa humana; y la secuencia RKCLQAGMNLEARKTKK (SEQ ID NO: 315) del receptor de glucocorticoides humano. En algunas realizaciones, la proteína asociada a CRISPR incluye al menos una señal de exportación nuclear (NES) (por ejemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ó 10) unida al extremo N-terminal o C-terminal de la proteína. En una realización preferida, está unida una NLS o NES C-terminal y/o N-terminal para una expresión óptima y direccionamiento nuclear en células eucariotas, por ejemplo, células humanas.
En algunas realizaciones, las enzimas CRISPR descritas en el presente documento están mutadas en uno o más residuos de aminoácido para alterar una o más actividades funcionales. Por ejemplo, en algunas realizaciones, la enzima CRISPR está mutada en uno o más residuos de aminoácido para alterar su actividad helicasa. En algunas realizaciones, la enzima CRISPR está mutada en uno o más residuos de aminoácido para alterar su actividad nucleasa (por ejemplo, actividad endonucleasa o actividad exonucleasa). En algunas realizaciones, la enzima CRISPR está mutada en uno o más residuos de aminoácido para alterar su capacidad para asociarse funcionalmente con una guía de ARN. En algunas realizaciones, la enzima CRISPR está mutada en uno o más residuos de aminoácido para alterar su capacidad para asociarse funcionalmente con un ácido nucleico diana. En algunas realizaciones, las enzimas CRISPR descritas en el presente documento son capaces de escindir una molécula de ácido nucleico diana. En algunas realizaciones, la enzima CRISPR escinde ambas cadenas de la molécula de ácido nucleico diana. Sin embargo, en algunas realizaciones, la enzima CRISPR está mutada en uno o más residuos de aminoácido para alterar su actividad de escisión. Por ejemplo, en algunas realizaciones, la enzima CRISPR puede comprender una o más mutaciones que hacen que la enzima sea incapaz de escindir un ácido nucleico diana. En otras realizaciones, la enzima CRISPR puede comprender una o más mutaciones de manera que la enzima es capaz de escindir una única cadena del ácido nucleico diana (es decir, actividad nickasa). En algunas realizaciones, la enzima CRISPR es capaz de escindir la cadena del ácido nucleico diana que es complementaria a la cadena con la que se hibrida la guía de ARN. En algunas realizaciones, la enzima CRISPR es capaz de escindir la cadena del ácido nucleico diana con la que se hibrida la guía de ARN.
En algunas realizaciones, una enzima CRISPR descrita en el presente documento puede modificarse por ingeniería genética para que incluya una deleción en uno o más residuos de aminoácido para reducir el tamaño de la enzima al tiempo que se retienen una o más actividades funcionales deseadas (por ejemplo, actividad nucleasa y la capacidad de interactuar funcionalmente con una guía de ARN). La enzima CRISPR truncada puede usarse ventajosamente en combinación con sistemas de administración que tienen limitaciones de carga.
También se proporcionan ácidos nucleicos que codifican para las proteínas (por ejemplo, una proteína asociada a CRISPR) y guías de ARN (por ejemplo, un ARNcr) descritas en el presente documento. En algunas realizaciones, el ácido nucleico es un ácido nucleico sintético. En algunas realizaciones, el ácido nucleico es una molécula de ADN. En algunas realizaciones, el ácido nucleico es una molécula de ARN (por ejemplo, una molécula de ARNm). En algunas realizaciones, el ARNm está rematado en los extremos, poliadenilado, sustituido con 5-metilcitidina, sustituido con pseudouridina, o una combinación de los mismos. En algunas realizaciones, el ácido nucleico (por ejemplo, ADN) está operativamente unido a un elemento regulador (por ejemplo, un promotor) para controlar la expresión del ácido nucleico. En algunas realizaciones, el promotor es un promotor constitutivo. En algunas realizaciones, el promotor es un promotor inducible. En algunas realizaciones, el promotor es un promotor específico de célula, tal como Syn y CamKIIa para tipos de células neuronales, o globulina de unión a tiroxina (TBG) para la expresión en hepatocitos. En algunas realizaciones, el promotor es un promotor específico de organismo. En la técnica se conocen promotores adecuados e incluyen, por ejemplo, un promotor pol I, un promotor pol II, un promotor pol III. En algunas realizaciones, se expresan eficazmente ARN cortos tales como la guía de ARN usando un promotor pol III, que incluye un promotor U6, un promotor H1, un promotor 7SK. En algunas realizaciones, el promotor es procariota, tal como un promotor T7. En algunas realizaciones, los promotores son eucariotas e incluyen el promotor LTR del virus del sarcoma de Rous retroviral, un promotor de citomegalovirus (CMV), un promotor de SV40, un promotor de dihidrofolato reductasa, un promotor de p-actina, un promotor de factor de elongación 1 alfa, un promotor de factor de elongación 1 alfa corto, un promotor de SV40 y el promotor CAG sintético. En algunas realizaciones, las señales de terminación para la inducción de la poliadenilación de ARNm incluyen, pero no se limitan a, SV40, hGH y bGH.
En algunas realizaciones, el/los ácido(s) nucleico(s) está(n) presente(s) en un vector (por ejemplo, un vector viral o un fago). Los vectores pueden incluir uno o más elementos reguladores que permiten la propagación del vector en una célula de interés (por ejemplo, una célula bacteriana o una célula de mamífero). En algunas realizaciones, el vector incluye un ácido nucleico que codifica para un solo componente de un sistema asociado a CRISPR (Cas) descrito en el presente documento. En algunas realizaciones, el vector incluye múltiples ácidos nucleicos, cada uno de los cuales codifica para un componente de un sistema asociado a CRISPR (Cas) descrito en el presente documento.
En un aspecto, la presente divulgación proporciona secuencias de ácido nucleico que son al menos el 10 %, el 15 %, el 20 %, el 25 %, el 30 %, el 35 %, el 40 %, el 45 %, el 50 %, el 55 %, el 60 %, el 65 %, el 70 %, el 75 %, el 80 %, el 85 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 % o el 99 % idénticas a las secuencias nucleicas descritas en el presente documento. En otro aspecto, la presente divulgación también proporciona secuencias de aminoácidos que son al menos el 10 %, el 15 %, el 20 %, el 25 %, el 30 %, el 35 %, el 40 %, el 45 %, el 50 %, el 55 %, el 60 %, el 65 %, el 70 %, el 75 %, el 80 %, el 85 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 % o el 99 % idénticas a las secuencias de aminoácidos descritas en el presente documento.
En algunas realizaciones, las secuencias de ácido nucleico tienen al menos una porción (por ejemplo, al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90 ó 100 nucleótidos, por ejemplo, nucleótidos contiguos o no contiguos) que es la misma que las secuencias descritas en el presente documento. En algunas realizaciones, las secuencias de ácido nucleico tienen al menos una porción (por ejemplo, al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90 ó 100 nucleótidos, por ejemplo, nucleótidos contiguos o no contiguos) que es diferente de las secuencias descritas en el presente documento.
En algunas realizaciones, las secuencias de aminoácidos tienen al menos una porción (por ejemplo, al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90 ó 100 residuos de aminoácido, por ejemplo, residuos de aminoácido contiguos o no contiguos) que es la misma que las secuencias descritas en el presente documento. En algunas realizaciones, las secuencias de aminoácidos tienen al menos una porción (por ejemplo, al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90 ó 100 residuos de aminoácido, por ejemplo, residuos de aminoácido contiguos o no contiguos) que es diferente de las secuencias descritas en el presente documento.
Para determinar el porcentaje de identidad de dos secuencias de aminoácidos, o de dos secuencias de ácido nucleico, las secuencias se alinean para fines de comparación óptima (por ejemplo, pueden introducirse huecos en una o ambas de una primera y una segunda secuencia de aminoácidos o de ácido nucleico para la alineación óptima y las secuencias no homólogas pueden descartarse para fines de comparación). En general, la longitud de una secuencia de referencia alineada para fines de comparación debe ser al menos el 80 % de la longitud de la secuencia de referencia y, en algunas realizaciones, es al menos el 90 %, el 95 % o el 100 % de la longitud de la secuencia de referencia. A continuación, se comparan los residuos de aminoácidos o nucleótidos en las posiciones de aminoácidos o posiciones de nucleótidos correspondientes. Cuando una posición en la primera secuencia está ocupada por el mismo residuo de aminoácido o nucleótido que la posición correspondiente en la segunda secuencia, entonces las moléculas son idénticas en esa posición. El porcentaje de identidad entre las dos secuencias es una función del número de posiciones idénticas compartidas por las secuencias, teniendo en cuenta el número de huecos y la longitud de cada hueco, que es necesario introducir para una alineación óptima de las dos secuencias. Para los fines de la presente divulgación, la comparación de secuencias y la determinación del porcentaje de identidad entre dos secuencias pueden lograrse usando una matriz de puntuación Blossum 62 con una penalización por hueco de 12, una penalización por extensión de hueco de 4 y una penalización por hueco de desplazamiento de marco de 5.
En algunas realizaciones, las proteínas asociadas a CRISPR y las proteínas accesorias descritas en el presente documento pueden fusionarse con una o más etiquetas peptídicas, incluyendo una etiqueta His, una etiqueta GST, una etiqueta FLAG o una etiqueta myc. En algunas realizaciones, las proteínas asociadas a CRISPR o las proteínas accesorias descritas en el presente documento pueden fusionarse con un resto detectable, tal como una proteína fluorescente (por ejemplo, proteína fluorescente verde o proteína fluorescente amarilla). En aquellas realizaciones en las que se fusiona una etiqueta con una proteína asociada a CRISPR, tal etiqueta puede facilitar la purificación basada en afinidad y/o basada en carga de la proteína asociada a CRISPR, por ejemplo, mediante cromatografía de líquidos o separación con perlas utilizando un reactivo de intercambio iónico o de afinidad inmovilizado. Como ejemplo no limitativo, una proteína asociada a CRISPR recombinante de esta divulgación (tal como Cas12g) comprende una etiqueta de polihistidina (His), y para la purificación se carga en una columna de cromatografía que comprende un ion metálico inmovilizado (por ejemplo, un ion Zn2+, Ni2+, Cu2+ quelado por un ligando quelante inmovilizado en la resina, resina que puede ser una resina preparada individualmente o una resina disponible comercialmente) o una columna lista para usar tal como la columna HisTrap FF comercializada por GE Healthcare Life Sciences, Marlborough, Massachusetts. Después de la etapa de carga, la columna se enjuaga opcionalmente, por ejemplo, usando una o más disoluciones tampón adecuadas, y luego la proteína etiquetada con His se eluye usando un tampón de elución adecuado. Alternativa o adicionalmente, si la proteína asociada a CRISPR recombinante de esta divulgación utiliza una etiqueta FLAG, tal proteína puede purificarse usando métodos de inmunoprecipitación conocidos en la industria. 0tros métodos de purificación adecuados para proteínas asociadas a CRISPR o proteínas accesorias etiquetadas de esta divulgación resultarán evidentes para los expertos en la técnica.
Las proteínas descritas en el presente documento (por ejemplo, proteínas asociadas a CRISPR o proteínas accesorias) pueden administrarse o usarse como moléculas de ácido nucleico o polipéptidos. Cuando se usan moléculas de ácido nucleico, la molécula de ácido nucleico que codifica para las proteínas asociadas a CRISPR puede tener codones optimizados, tal como se describe con más detalle a continuación. Pueden optimizarse los codones del ácido nucleico para su uso en cualquier organismo de interés, en particular células humanas o bacterias. Por ejemplo, el ácido nucleico puede tener codones optimizados para cualquier eucariota no humano, incluyendo ratones, ratas, conejos, perros, ganado o primates no humanos. Están disponibles fácilmente tablas de uso de codones, por ejemplo, en la “Base de datos de uso de codones” disponible en línea con una búsqueda de kazusa.or.jp/codon/ y estas tablas pueden adaptarse de varios modos. Véase Nakamura et al. Nucl. Acids Res. 28:292 (2000). También están disponibles algoritmos informáticos para la optimización de codones de una secuencia particular para la expresión en una célula huésped particular, tales como Gene Forge (Aptagen; Jacobus, pA).
En algunos casos, los ácidos nucleicos de esta divulgación que codifican para proteínas asociadas a CRISPR o proteínas accesorias para la expresión en células eucariotas (por ejemplo, humanas, de mamíferos, etc.) incluyen uno o más intrones, es decir, una o más secuencias no codificantes que comprenden, en un primer extremo (por ejemplo, un extremo 5'), una secuencia donadora de corte y empalme y, en un segundo extremo (por ejemplo, el extremo 3'), una secuencia aceptora de corte y empalme. Puede usarse cualquier donador de corte y empalme/aceptor de corte y empalme adecuado en las diversas realizaciones de esta divulgación, incluyendo, sin limitación, el intrón del virus de simio 40 (SV40), el intrón de beta-globina e intrones sintéticos. Alternativa o adicionalmente, los ácidos nucleicos de esta divulgación que codifican para proteínas asociadas a CRISPR o proteínas accesorias pueden incluir, en el extremo 3' de una secuencia codificante de ADN, una señal de parada de la transcripción tal como una señal de poliadenilación (poliA). En algunos casos, la señal de poliA está ubicada muy cerca de, o junto a, un intrón tal como el intrón de SV40.
Guías de ARN
En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen al menos una guía de ARN. La arquitectura de múltiples guías de ARN se conoce en la técnica (véanse, por ejemplo, las publicaciones internacionales n.os WO 2014/093622 y WO 2015/070083). En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen múltiples guías de ARN (por ejemplo, dos, tres, cuatro, cinco, seis, siete, ocho o más guías de ARN). En algunas realizaciones, la guía de ARN incluye un ARNcr y un ARNtracr. En algunas realizaciones, la guía de ARN es un constructo diseñado por ingeniería genética que comprende un ARNtracr y un ARNcr (en una sola guía de ARN). En la técnica se conocen secuencias para guías de ARN de múltiples sistemas de CRISPR y pueden buscarse usando bases de datos públicas (véase, por ejemplo, Grissa et al. (2007) Nucleic Acids Res. 35 (problema con el servidor web): W52-7; Grissa et al. (2007) BMC Bioinformatics 8: 172; Grissa et al. (2008) Nucleic Acids Res. 36 (problema con el servidor web): W145-8; y Moller y Liang (2017) PeerJ 5: e3788; véase también la base de datos de CRISPR disponible en: crispr.i2bc.paris-saclay.fr/crispr/BLAST/CRISPRsBlast.php; y MetaCRAST disponible en: github.com/molleraj/MetaCRAST).
En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen al menos una guía de ARN o un ácido nucleico que codifica para al menos una guía de ARN. En algunas realizaciones, la guía de ARN incluye un ARNcr. Generalmente, los ARNcr descritos en el presente documento incluyen un secuencia de repetición directa y una secuencia espaciadora. En determinadas realizaciones, el ARNcr incluye, consiste esencialmente en o consiste en una secuencia de repetición directa unida a una secuencia guía o secuencia espaciadora. En algunas realizaciones, el ARNcr incluye una secuencia de repetición directa, una secuencia espaciadora y una secuencia de repetición directa (DR-espaciador-DR), que es típica de configuraciones de ARNcr precursor (pre-ARNcr) en otros sistemas de CRISPR. En algunas realizaciones, el ARNcr incluye una secuencia de repetición directa truncada y una secuencia espaciadora, que es típica de ARNcr procesado o maduro. En algunas realizaciones, el ARNcr se hibrida con una región anti-repetición de un ARNtracr complementario a la región de repetición directa de ARNcr. En algunas realizaciones, la proteína asociada a CRISPR forma un complejo con el ARNcr, y la secuencia espaciadora dirige el complejo a una unión específica de secuencia con el ácido nucleico diana que es complementario a la secuencia espaciadora. En algunas realizaciones, la proteína asociada a CRISPR forma un complejo con el ARNcr y el ARNtracr, y la secuencia espaciadora dirige el complejo a una unión específica de secuencia con el ácido nucleico diana que es complementario a la secuencia espaciadora.
En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen al menos una guía de ARN o un ácido nucleico que codifica para al menos una guía de ARN. En algunas realizaciones, la guía de ARN incluye un ARNcr maduro. En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen un ARNcr maduro y un ARNtracr. En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen un pre-ARNcr. En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen un pre-ARNcr y un ARNtracr.
Adecuadamente, la guía de ARN de tipo V-G puede formar una estructura secundaria tal como una estructura de tallo-bucle. Adecuadamente, la guía de ARN de tipo V-G puede incluir tanto un ARNcr de tipo V-G como un ARNtracr de tipo V-G, o bien fusionados en una sola molécula de ARN o bien como moléculas de ARN separadas. En algunas realizaciones, un ARNcr de tipo V-G puede hibridarse con un ARNtracr de tipo V-G para formar una estructura de tallo-bucle. Una estructura de tallo-bucle a modo de ejemplo de un ARNcr maduro:ARNtracr de tipo V-G se muestra en la figura 13. Las secciones complementarias del ARNcr y del ARNtracr forman el tallo. Por ejemplo, el tallo puede incluir al menos 8 o al menos 9 o al menos 10 o al menos aproximadamente 11 pares de bases.
En algunos ejemplos, la repetición directa puede comprender al menos 12 o al menos 14 o al menos 16 o aproximadamente 18 nucleótidos. La repetición directa puede incluir la secuencia de ácido nucleico X1ACACC (SEQ ID NO: 203) proximal al espaciador, en la que X1 denota G o T
En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen una pluralidad de guías de ARN (por ejemplo, 2, 3, 4, 5, 10, 15 o más) o una pluralidad de ácidos nucleicos que codifican para una pluralidad de guías de ARN.
En algunas realizaciones, el sistema de CRISPR descrito en el presente documento incluye una guía de ARN o un ácido nucleico que codifica para la guía de ARN. En algunas realizaciones, la guía de ARN comprende o consiste en una secuencia de repetición directa y una secuencia espaciadora capaz de hibridarse (por ejemplo, se hibrida en condiciones apropiadas) con un ácido nucleico diana, en la que la secuencia de repetición directa incluye SEQ ID NO: 200 proximal a su extremo 3' y adyacente a la secuencia espaciadora. En algunas realizaciones, la guía de ARN comprende o consiste en una secuencia de repetición directa y una secuencia espaciadora capaz de hibridarse (por ejemplo, se hibrida en condiciones apropiadas) con un ácido nucleico diana, en la que la secuencia de repetición directa incluye SEQ ID NO: 201 proximal a su extremo 3' y adyacente a la secuencia espaciadora.
Se proporcionan ejemplos de pares de proteína efectora y secuencias de repetición directa de guías de ARN en la tabla 5A. En algunas realizaciones, la secuencia de repetición directa comprende o consiste en una secuencia de ácido nucleico enumerada en la tabla 5A (por ejemplo, SEQ ID NO: 9-13, 25-34). En algunas realizaciones, la secuencia de repetición directa comprende o consiste en un ácido nucleico que tiene una secuencia de ácido nucleico enumerada en la tabla 5A con un truncamiento de los tres nucleótidos 5' iniciales. En algunas realizaciones, la secuencia de repetición directa comprende o consiste en un ácido nucleico que tiene una secuencia de ácido nucleico enumerada en la tabla 5A con un truncamiento de los cuatro nucleótidos 5' iniciales. En algunas realizaciones, la secuencia de repetición directa comprende o consiste en un ácido nucleico que tiene una secuencia de ácido nucleico enumerada en la tabla 5A con un truncamiento de los cinco nucleótidos 5' iniciales. En algunas realizaciones, la secuencia de repetición directa comprende o consiste en un ácido nucleico que tiene una secuencia de ácido nucleico enumerada en la tabla 5A con un truncamiento de los seis nucleótidos 5' iniciales. En algunas realizaciones, la secuencia de repetición directa comprende o consiste en un ácido nucleico que tiene una secuencia de ácido nucleico enumerada en la tabla 5A con un truncamiento de los siete nucleótidos 5' iniciales. En algunas realizaciones, la secuencia de repetición directa comprende o consiste en un ácido nucleico que tiene una secuencia de ácido nucleico enumerada en la tabla 5A con un truncamiento de los ocho nucleótidos 5' iniciales.
Se proporcionan ejemplos de pares de proteína efectora y secuencias que codifican para ARNtracr en la tabla 7 (por ejemplo, SEQ iD NO: 117-134). La tabla 7 contiene secuencias con complementariedad a las DR de sistemas Cas12g diferentes. Este conjunto de supuestos loci que contienen ARNtracr incluye un locus que contiene el ARNtracr de Cas12g1.
En algunas realizaciones, el sistema de CRISPR-Cas de tipo V-G incluye la proteína efectora que comprende la secuencia de aminoácidos de SEQ ID NO: 6, y una guía de ARN que incluye una secuencia de ARNtracr que contiene la secuencia GAUGCUUACUUAGUCAUCUGGUUGGCAAACCUCCGCGGACCUUCGGGACCAAUGG AGAGGAACCCAGCCGAGAAGCAUCGAGCCGGUAAAUGCCGGAAA (SEQ ID NO: 250) y una secuencia de ARNcr que contiene la secuencia UUUACCGGCUCUGACACC (SEQ ID NO: 202).
Multiplexación de guías de ARN
Se ha demostrado que las proteínas efectoras de CRISPR-Cas de tipo V-G (CLUST.019143) emplean más de una guía de ARN, permitiendo de ese modo la capacidad de estos efectores, y sistemas y complejos que las incluyen, para dirigirse a múltiples dianas de ácido nucleico diferentes. En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen múltiples guías de ARN (por ejemplo, dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez, quince, veinte, treinta, cuarenta o más guías de ARN). En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento incluyen una sola cadena de ARN o un ácido nucleico que codifica para una sola cadena de ARN, en los que las guías de ARN están dispuestas en tándem. La única cadena de ARN puede incluir múltiples copias de la misma guía de ARN, múltiples copias de guías de ARN distintas, o combinaciones de las mismas.
En algunas realizaciones, las proteínas efectoras de CRISPR-Cas de tipo V-G se administran complejadas con múltiples guías de ARN dirigidas a diferentes ácidos nucleicos diana. En algunas realizaciones, las proteínas efectoras de CRISPR-Cas de tipo V-G pueden coadministrarse con múltiples guías de ARN, cada una específica para un ácido nucleico diana diferente. Se describen métodos de multiplexación usando proteínas asociadas a CRISPR, por ejemplo, en los documentos US 9.790.490 y EP 3009511.
Modificaciones de guías de ARN
Longitudes de espaciadores
La longitud del espaciador de las guías de ARN puede oscilar entre aproximadamente 15 y 50 nucleótidos. En algunas realizaciones, la longitud del espaciador de una guía de ARN es de al menos 16 nucleótidos, al menos 17 nucleótidos, al menos 18 nucleótidos, al menos 19 nucleótidos, al menos 20 nucleótidos, al menos 21 nucleótidos o al menos 22 nucleótidos. En algunas realizaciones, la longitud del espaciador es de desde 15 hasta 17 nucleótidos, desde 15 hasta 23 nucleótidos, desde 15 hasta 30 nucleótidos, desde 16 hasta 22 nucleótidos, desde 17 hasta 20 nucleótidos, desde 20 hasta 24 nucleótidos (por ejemplo, 20, 21, 22, 23 ó 24 nucleótidos), desde 23 hasta 25 nucleótidos (por ejemplo, 23, 24 ó 25 nucleótidos), desde 24 hasta 27 nucleótidos, desde 27 hasta 30 nucleótidos, desde 30 hasta 45 nucleótidos (por ejemplo, 30, 31, 32, 33, 34, 35, 40 ó 45 nucleótidos), desde 30 ó 35 hasta 40 nucleótidos, desde 41 hasta 45 nucleótidos, desde 45 hasta 50 nucleótidos, o más. En algunas realizaciones, la longitud del espaciador de la guía de ARN es de al menos 16 nucleótidos, o es de desde 16 hasta 20 nucleótidos (por ejemplo, 16, 17, 18, 19 ó 20 nucleótidos). En algunas realizaciones, la longitud del espaciador de la guía de ARN es de 19 nucleótidos.
Se proporcionan pares de proteína efectora y secuencias de repetición directa de guías de ARN a modo de ejemplo en la tabla 5A. En algunas realizaciones, la secuencia de repetición directa comprende o consiste en una secuencia de ácido nucleico enumerada en la tabla 5A (por ejemplo, SEQ ID NO: 9-14).
Las secuencias de guía de ARN pueden modificarse de una manera que permite la formación del complejo de CRISPR y la unión satisfactoria a la diana, mientras que al mismo tiempo no permite una actividad nucleasa satisfactoria (es decir, sin actividad nucleasa/sin causar indels). Estas secuencias guía modificadas se denominan “guías muertas” o “secuencias guía muertas”. Estas guías muertas o secuencias guía muertas pueden ser catalíticamente inactivas o conformacionalmente inactivas con respecto a la actividad nucleasa. Las secuencias guía muertas son normalmente más cortas que las respectivas secuencias guía que dan como resultado una escisión activa de ARN. En algunas realizaciones, las guías muertas son el 5 %, el 10 %, el 20 %, el 30 %, el 40 % o el 50 % más cortas que las respectivas guías de ARN que tienen actividad nucleasa. Las secuencias guía muertas de guías de ARN pueden tener desde 13 hasta 15 nucleótidos de longitud (por ejemplo, 13, 14 ó 15 nucleótidos de longitud), desde 15 hasta 19 nucleótidos de longitud o desde 17 hasta 18 nucleótidos de longitud (por ejemplo, 17 nucleótidos de longitud).
Por tanto, en un aspecto, la divulgación proporciona sistemas de CRISPR que no se producen de manera natural o diseñados por ingeniería genética que incluyen una enzima CRISPR funcional tal como se describe en el presente documento y una guía de ARN, en los que la guía de ARN incluye una secuencia guía muerta, mediante lo cual la guía de ARN es capaz de hibridarse con una secuencia diana de manera que el sistema de CRISPR se dirige a un locus genómico de interés en una célula sin actividad de escisión detectable.
Se describe una descripción detallada de guías muertas, por ejemplo, en el documento WO 2016094872.
Guías inducibles
Pueden generarse guías de ARN como componentes de sistemas inducibles. La naturaleza inducible de los sistemas permite el control espaciotemporal de la edición génica o la expresión génica. En algunas realizaciones, los estímulos para los sistemas inducibles incluyen, por ejemplo, radiación electromagnética, energía sonora, energía química y/o energía térmica.
En algunas realizaciones, la transcripción de guías de ARN puede modularse mediante promotores inducibles, por ejemplo, activación transcripcional controlada por tetraciclina o doxiciclina (sistemas de expresión Tet-On y Tet-Off), sistemas de expresión génica inducibles por hormonas (por ejemplo, sistemas de expresión génica inducibles por ecdisona) y sistemas de expresión génica inducibles por arabinosa. Otros ejemplos de sistemas inducibles incluyen, por ejemplo, sistemas de activaciones de la transcripción de dos híbridos de molécula pequeña (FKBP, ABA, etc.), sistemas inducibles por luz (fitocromo, dominios LOV o criptocromo) o efector transcripcional inducible por luz (LITE). Estos sistemas inducibles se describen, por ejemplo, en los documentos WO 2016205764 y US 8795965.
Modificaciones químicas
Pueden aplicarse modificaciones químicas a la estructura principal de fosfato, azúcar y/o base de la guía de ARN. Las modificaciones de la estructura principal tales como fosforotioatos modifican la carga en la estructura principal de fosfato y ayudan en la administración y la resistencia a la nucleasa del oligonucleótido (véase, por ejemplo, Eckstein, “Phosphorothioates, essential components of therapeutic oligonucleotides”, Nucl. Acid Ther., 24 (2014), págs. 374-387); las modificaciones de azúcares, tales como 2'-O-metilo (2'-OMe), 2'-F y ácido nucleico bloqueado (LNA), mejoran tanto el apareamiento de bases como la resistencia a nucleasas (véase, por ejemplo, Allerson et al. “Fully 2'-modified oligonucleotide duplexes with improved in vitro potency and stability compared to unmodified small interfering RNA”, J. Med. Chem., 48.4 (2005): 901-904). Bases modificadas químicamente, tales como 2-tiouridina o N6-metiladenosina, entre otras, pueden permitir un apareamiento de bases más fuerte o más débil (véase, por ejemplo, Bramsen et al., “Development of therapeutic-grade small interfering RNAs by chemical engineering”, Front. Genet. 20 de agosto de 2012; 3:154). Además, el ARN es susceptible de conjugaciones en los extremos 5' y 3' con una variedad de restos funcionales, incluyendo colorantes fluorescentes, polietilenglicol o proteínas.
Puede aplicarse una amplia variedad de modificaciones en las moléculas de guía de ARN sintetizadas químicamente. Por ejemplo, la modificación de un oligonucleótido con un 2'-OMe para mejorar la resistencia a la nucleasa puede cambiar la energía de unión del apareamiento de bases de Watson-Crick. Además, una modificación de 2'-OMe puede afectar a la forma en que el oligonucleótido interactúa con los reactivos de transfección, las proteínas o cualquier otra molécula en la célula. Los efectos de estas modificaciones pueden determinarse mediante pruebas empíricas.
En algunas realizaciones, la guía de ARN incluye una o más modificaciones de fosforotioato. En algunas realizaciones, la guía de ARN incluye uno o más ácidos nucleicos bloqueados con el fin de mejorar el apareamiento de bases y/o aumentar la resistencia a las nucleasas.
Puede encontrarse un resumen de estas modificaciones químicas, por ejemplo, en Kelley et al., “Versatility of chemically synthesized guide RNAs for CRISPR-Cas9 genome editing”, J. Biotechnol. 10 de septiembre de 2016; 233:74-83; el documento WO 2016205764; y el documento US 8795965 B2.
Modificaciones de secuencias
Las secuencias y las longitudes de las guías de ARN (por ejemplo, ARNtracr y ARNcr) descritas en el presente documento pueden optimizarse. En algunas realizaciones, la longitud optimizada de las guías de ARN puede determinarse identificando la forma procesada de ARNtracr y/o ARNcr, o mediante estudios empíricos de longitud para guías de ARN, ARNtracr, ARNcr y los tetrabucles de ARNtracr.
Las guías de ARN también pueden incluir una o más secuencias de aptámeros. Los aptámeros son moléculas de oligonucleótidos o péptidos que pueden unirse a una molécula diana específica. Los aptámeros pueden ser específicos para efectores de genes, activadores de genes o represores de genes. En algunas realizaciones, los aptámeros pueden ser específicos de una proteína, que a su vez es específica y recluta/se une a efectores de genes, activadores de genes o represores de genes específicos. Los efectores, activadores o represores pueden estar presentes en forma de proteínas de fusión. En algunas realizaciones, la guía de ARN tiene dos o más secuencias de aptámeros que son específicas para las mismas proteínas adaptadoras. En algunas realizaciones, las dos o más secuencias de aptámeros son específicas para diferentes proteínas adaptadoras. Las proteínas adaptadoras pueden incluir, por ejemplo, MS2, PP7, Qp, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, <^ Cb5, <^ Cb8r, <^ Cb1r, <^ Cb23r, 7s y PRR1. Por consiguiente, en algunas realizaciones, el aptámero se selecciona de proteínas de unión que se unen específicamente a una cualquiera de las proteínas adaptadoras tal como se describe en el presente documento. En algunas realizaciones, la secuencia de aptámero es un bucle de unión a MS2, un bucle de unión a QBeta o un bucle de unión a PP7. Puede encontrarse una descripción detallada de los aptámeros, por ejemplo, en Nowak et al., “Guide RNA engineering for versatile Cas9 functionality”, Nucl. Acid. Res., 16 de noviembre de 2016;44(20):9555-9564; y el documento WO 2016205764.
Requisitos de coincidencia con la secuencia diana:guía
En sistemas de CRISPR clásicos, el grado de complementariedad entre una secuencia guía y su secuencia diana correspondiente puede ser de aproximadamente el 50 %, el 60 %, el 75 %, el 80 %, el 85 %, el 90 %, el 95 %, el 97,5 %, el 99 % o el 100 %. En algunas realizaciones, el grado de complementariedad es del 100 %. Las guías de ARN pueden tener aproximadamente 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75 o más nucleótidos de longitud.
Para reducir las interacciones inespecíficas, por ejemplo, para reducir la interacción de la guía con una secuencia diana que tiene baja complementariedad, pueden introducirse mutaciones en los sistemas de CRISPR de modo que los sistemas de CRISPR puedan distinguir entre secuencias diana e inespecíficas que tienen más del 80 %, el 85 %, el 90 % o el 95 % de complementariedad. En algunas realizaciones, el grado de complementariedad es de desde el 80 % hasta el 95 %, por ejemplo, aproximadamente el 83 %, el 84 %, el 85 %, el 86 %, el 87 %, el 88 %, el 89 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 % o el 95 % (por ejemplo, distinguiendo entre una diana que tiene 18 nucleótidos de una no diana de 18 nucleótidos que tiene 1, 2 ó 3 apareamientos erróneos). Por consiguiente, en algunas realizaciones, el grado de complementariedad entre una secuencia guía y su secuencia diana correspondiente es mayor del 94,5 %, el 95 %, el 95,5 %, el 96 %, el 96,5 %, el 97 %, el 97,5 %, el 98 %, el 98,5 %, el 99 %, el 99,5 % o el 99,9 %. En algunas realizaciones, el grado de complementariedad es del 100 %. Para todas las realizaciones de los sistemas y métodos descritos en el presente documento, se sabe en el campo que no se requiere una complementariedad completa para la hibridación o unión tal como se describe en el presente documento, siempre que haya suficiente complementariedad para ser funcional. Pueden aprovecharse modulaciones de la eficiencia de escisión introduciendo apareamientos erróneos, por ejemplo, uno o más apareamientos erróneos, tal como 1 ó 2 apareamientos erróneos, entre una secuencia espaciadora y una secuencia diana, incluyendo la posición del apareamiento erróneo a lo largo del espaciador/diana. Cuanto más central (es decir, no en los extremos 3' ó 5') esté ubicado un apareamiento erróneo, por ejemplo, un apareamiento erróneo doble, más se ve afectada la eficiencia de escisión. Por consiguiente, al elegir posiciones de apareamiento erróneo a lo largo de la secuencia espaciadora, puede modularse la eficiencia de escisión. Por ejemplo, si se desea menos del 100 % de escisión de las dianas (por ejemplo, en una población celular), pueden introducirse 1 ó 2 apareamientos erróneos entre la secuencia espaciadora y diana en las secuencias espaciadoras.
Optimización de sistemas de CRISPR para su uso en organismos seleccionados
Optimización de codones
La invención contempla todas las posibles variaciones de ácidos nucleicos, tales como ADNc, que podrían realizarse seleccionando combinaciones basadas en posibles elecciones de codones. Estas combinaciones se realizan de acuerdo con el código genético de tripletes convencional tal como se aplica al polinucleótido que codifica para la variante que se produce de manera natural, y la totalidad de tales variaciones deben considerarse como dadas a conocer específicamente. En el presente documento se dan a conocer secuencias de nucleótidos que codifican para variantes de proteínas efectoras asociadas a CRISPR-Cas de tipo V-G cuyos codones se han optimizado para su expresión en bacterias (por ejemplo, E. coli) y en células humanas. Por ejemplo, las secuencias con codones optimizados para células humanas pueden generarse sustituyendo los codones de la secuencia de nucleótidos que aparecen con menor frecuencia en células humanas por codones que aparecen con mayor frecuencia en células humanas. La frecuencia de aparición de los codones puede determinarse computacionalmente mediante métodos conocidos en la técnica. Se ha publicado un cálculo a modo de ejemplo de estas frecuencias de codones para diversas células huésped (por ejemplo, E. coli, levadura, insecto, C. elegans, D. melanogaster, ser humano, ratón, rata, cerdo, P pastoris, A. thalian, maíz y tabaco) o se ha puesto a disposición por fuentes tales como la herramienta de tabla de frecuencia de uso de codones GenScript® (a continuación se incluyen tablas de uso de codones a modo de ejemplo para E. coli y seres humanos).
Tabla 1. Tabla de uso de codones para E. coli
Figure imgf000031_0001
Tabla 2. Tabla de uso de codones para seres humanos
Figure imgf000031_0002
Figure imgf000032_0001
Métodos de uso de sistemas de CRISPR
Los sistemas de CRISPR descritos en el presente documento tienen una amplia variedad de utilidades, incluyendo la modificación (por ejemplo, supresión, inserción, translocación, inactivación o activación) de un polinucleótido diana en una multiplicidad de tipos de células. Los sistemas de CRISPR tienen un amplio espectro de aplicaciones en, por ejemplo, la detección de ADN/ARN (por ejemplo, desbloqueo de indicador enzimático de alta sensibilidad específico (SHERLOCK)), el seguimiento y etiquetado de ácidos nucleicos, ensayos de enriquecimiento (extracción de la secuencia deseada del acervo), la detección de ADN tumoral circulante, la preparación de bibliotecas de última generación, el cribado de fármacos, el diagnóstico y pronóstico de enfermedades y el tratamiento de diversos trastornos genéticos. Sin querer limitarse a ninguna teoría en particular, los sistemas de CRISPR que incluyen una proteína Cas12g pueden presentar una mayor actividad o pueden ser preferentemente activos cuando se dirigen a determinadas clases de loci, tales como regiones genómicas transcripcionalmente activas. Por tanto, pueden usarse ventajosamente sistemas de CRISPR que incluyen una proteína Cas12g en aplicaciones dirigidas a loci transcripcionalmente activos.
Detección de ADN/ARN
En un aspecto, los sistemas de CRISPR-Cas descritos en el presente documento pueden usarse en la detección de ADN/ARN mediante detección de ARN. Pueden reprogramarse nucleasas guiadas por ARN efector único con guías de ARN para proporcionar una plataforma para la detección de ARN específico. Tras el reconocimiento de su diana de a Rn , las nucleasas guiadas por ARN efector único de tipo V-G activadas participan en la escisión “colateral” de ADNmc y ARN cercanos sin similitud de secuencia con la diana. Esta actividad de escisión colateral programada por guía de ARN permite que los sistemas de CRISPR detecten la presencia de un ARN específico mediante la degradación no específica de ARN y ADNmc marcados.
La actividad nucleasa colateral del sistema de CRISPR-Cas descrito en el presente documento puede combinarse con un indicador en aplicaciones de detección de ARN tales como las descritas por los métodos denominados SHERLOCK (desbloqueo de indicador enzimático de alta sensibilidad específico) o el indicador trans de CRISPR dirigido por endonucleasa de ADN (DETECTR), que logran una sensibilidad atomolar para la detección de ácidos nucleicos. Se describen en detalle métodos de uso de los sistemas de CRISPR-Cas en SHERLOCK, por ejemplo, en Gootenberg, et al. “Nucleic acid detection with CRISPR-Cas13a/C2c2”, Science, 356(6336):438-442 (2017). Se describen en detalle métodos de uso de los sistemas de CRISPR-Cas en DETECTR, por ejemplo, en Chen et al., Science, 360 (6387): 436-439, 2018.
Las proteínas asociadas a CRISPR pueden usarse además en ensayos de inmunotransferencia de tipo Northern, que usan electroforesis para separar muestras de ARN por tamaño. Las proteínas asociadas a CRISPR pueden usarse para unir y detectar específicamente la secuencia de ARN diana. Las proteínas asociadas a CRISPR también pueden fusionarse con una proteína fluorescente (por ejemplo, GFP) y usarse para rastrear la localización del ARN en células vivas. Más particularmente, las proteínas asociadas a CRISPR pueden inactivarse porque ya no escinden los ARN tal como se describió anteriormente. Por tanto, las proteínas asociadas a CRISPR pueden usarse para determinar la localización del ARN o variantes de corte y empalme específicas, el nivel de transcritos de ARNm, la regulación por incremento o disminución de los transcritos y el diagnóstico específico de enfermedad. Las proteínas asociadas a CRISPR pueden usarse para la visualización de ARN en células (vivas) usando, por ejemplo, microscopía fluorescente o citometría de flujo, tal como clasificación de células activadas por fluorescencia (FACS), que permite el cribado de alto rendimiento de células y la recuperación de células vivas después de la clasificación celular. Puede encontrarse una descripción detallada sobre cómo detectar ADN y ARN, por ejemplo, en la publicación internacional n.° WO 2017/070605.
En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento pueden usarse en hibridación in situ de fluorescencia resistente a errores multiplexada (MERFISH). Estos métodos se describen en, por ejemplo, Chen et al., “Spatially resolved, highly multiplexed RNA profiling in single cells”, Science, 24 de abril de 2015; 348(6233):aaa6090.
En algunas realizaciones, los sistemas de CRISPR que incluyen una proteína Cast2g descritos en el presente documento presentan una mayor actividad (por ejemplo, una mayor actividad nucleasa) cuando la proteína efectora se dirige a una región genómica transcripcionalmente activa, y pueden usarse para detectar la expresión activa (por ejemplo, transcripción) de una secuencia diana de interés. En algunas realizaciones, el nivel de expresión (por ejemplo, transcripción) de una secuencia de interés (por ejemplo, un gen de interés) puede cuantificarse determinando un nivel de actividad (por ejemplo, actividad nucleasa) de un sistema de CRISPR descrito en el presente documento que se dirige a la secuencia de interés, y el nivel de actividad del sistema de CRISPR puede usarse para determinar el nivel de expresión de la secuencia de interés.
En algunas realizaciones, los sistemas de CRISPR descritos en el presente documento pueden usarse para detectar un ARN diana en una muestra (por ejemplo, una muestra clínica, una célula o un lisado celular). La actividad ARNasa colateral de las proteínas efectoras de CRISPR-Cas de tipo V-G (CLUST.019143) descritas en el presente documento se activa cuando las proteínas efectoras se unen a un ácido nucleico diana. Al unirse al ARN diana de interés, la proteína efectora escinde un ARN detector marcado para generar o cambiar una señal (por ejemplo, una señal aumentada o una señal disminuida), permitiendo de ese modo la detección cualitativa y cuantitativa del ARN diana en la muestra. La detección y cuantificación específicas de ARN en la muestra permite multitud de aplicaciones, incluyendo el diagnóstico.
En algunas realizaciones, los métodos incluyen a) poner en contacto una muestra con: (i) una guía de ARN (por ejemplo, ARNcr) y/o un ácido nucleico que codifica para la guía de ARN, en los que la guía de ARN consiste en una secuencia de repetición directa y una secuencia espaciadora capaz de hibridarse con el ARN diana; (ii) una proteína efectora de CRISPR-Cas de tipo V-G y/o un ácido nucleico que codifica para la proteína efectora; y (iii) un ARN detector marcado; en los que la proteína efectora se asocia con la guía de ARN para formar un complejo; en los que la guía de ARN se hibrida con el ARN diana; y en los que, tras la unión del complejo al ARN diana, la proteína efectora presenta actividad ARNasa colateral y escinde el ARN detector marcado; y b) medir una señal detectable producida por la escisión del ARN detector marcado, en los que dicha medición proporciona la detección del ARN diana monocatenario en la muestra.
En algunas realizaciones, los métodos incluyen además comparar la señal detectable con una señal de referencia y determinar la cantidad de ARN diana en la muestra. En algunas realizaciones, la medición se realiza usando detección de nanopartículas de oro, polarización de fluorescencia, transición/dispersión de fase coloidal, detección electroquímica y detección basada en semiconductores. En algunas realizaciones, el ARN detector marcado incluye un par de colorantes emisores de fluorescencia, un par de transferencia de energía por resonancia de fluorescencia (FRET) o un par de extintor/fluoróforo. En algunas realizaciones, tras la escisión del ARN detector marcado por la proteína efectora, disminuye o aumenta una cantidad de señal detectable producida por el ARN detector marcado. En algunas realizaciones, el ARN detector marcado produce una primera señal detectable antes de la escisión por la proteína efectora y una segunda señal detectable después de la escisión por la proteína efectora.
En algunas realizaciones, se produce una señal detectable cuando la proteína efectora escinde el ARN detector marcado. En algunas realizaciones, el ARN detector marcado incluye una base nitrogenada modificada, un resto de azúcar modificado, un enlace de ácido nucleico modificado o una combinación de los mismos.
En algunas realizaciones, los métodos incluyen la detección multicanal de múltiples ARN diana independientes en una muestra (por ejemplo, dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez, quince, veinte, treinta, cuarenta o más ARN diana) mediante el uso de múltiples sistemas de proteínas efectoras de CRISPR-Cas de tipo V-G, cada uno de los cuales incluye una proteína efectora ortóloga distinta y guías de ARN correspondientes, lo que permite la diferenciación de múltiples ARN diana en la muestra. En algunas realizaciones, los métodos incluyen la detección multicanal de múltiples ARN diana independientes en una muestra, con el uso de múltiples casos de sistemas de proteínas efectoras de CRISPR-Cas de tipo V-G, cada uno de los cuales contiene una proteína efectora ortóloga con sustratos de ARNasa colateral diferenciables. Se describen métodos de detección de un ARN en una muestra usando proteínas asociadas a CRISPR, por ejemplo, en la publicación de patente estadounidense n.° 2017/0362644.
Seguimiento y etiquetado de ácidos nucleicos
Los procesos celulares dependen de una red de interacciones moleculares entre proteínas, ARN y ADN. La detección precisa de las interacciones proteína-ADN y proteína-ARN es clave para comprender tales procesos. Las técnicas de etiquetado de proximidad in vitro emplean una etiqueta de afinidad combinada con un grupo indicador, por ejemplo, un grupo fotoactivable, para etiquetar polipéptidos y ARN en las proximidades de una proteína o un a Rn de interés in vitro. Después de la irradiación UV, los grupos fotoactivables reaccionan con las proteínas y otras moléculas que están en proximidad estrecha con las moléculas etiquetadas, marcándolas. Las moléculas de interacción marcadas pueden recuperarse e identificarse posteriormente. Las proteínas efectoras de direccionamiento al ARN pueden usarse, por ejemplo, para dirigir sondas a secuencias de ARN seleccionadas. Estas aplicaciones también pueden aplicarse en modelos animales para la obtención de imágenes in vivo de enfermedades o tipos de células difíciles de cultivar. Los métodos de seguimiento y etiquetado de ácidos nucleicos se describen, por ejemplo, en los documentos US 8795965; WO 2016205764; y WO 2017070605.
Aislamiento, purificación, enriquecimiento y/o agotamiento de ARN
Los sistemas de CRISPR (por ejemplo, proteínas asociadas a CRISPR) descritos en el presente documento pueden usarse para aislar y/o purificar ARN. Por ejemplo, las proteínas asociadas a CRISPR pueden fusionarse con una etiqueta de afinidad que puede usarse para aislar y/o purificar el complejo de proteína asociada a CRISPR-ARN. Estas aplicaciones son útiles, por ejemplo, para el análisis de perfiles de expresión génica en células.
En algunas realizaciones, las proteínas asociadas a CRISPR pueden usarse para seleccionar como diana un ARN no codificante específico (ARNnc) bloqueando de ese modo su actividad. En algunas realizaciones, las proteínas asociadas a CRISPR pueden usarse para enriquecer específicamente un ARN particular (incluyendo, entre otros, el aumento de la estabilidad, etc.) o, alternativamente, para agotar específicamente un ARN particular (por ejemplo, variantes de corte y empalme particulares, isoformas, etc.).
Estos métodos se describen generalmente, por ejemplo, en los documentos US 8795965, WO 2016205764 y WO 2017070605.
Cribado de alto rendimiento
Los sistemas de CRISPR descritos en el presente documento pueden usarse para preparar bibliotecas de secuenciación de última generación (NGS). Por ejemplo, para crear una biblioteca de NGS rentable, los sistemas de CRISPR pueden usarse para alterar la secuencia codificante de un gen diana, y los clones transfectados con enzimas CRISPR pueden cribarse simultáneamente mediante secuenciación de última generación (por ejemplo, en el sistema Ion Torrent PGM). Puede encontrarse una descripción detallada sobre cómo preparar bibliotecas de NGS, por ejemplo, en Bell et al., “A high-throughput screening strategy for detecting CRISPR-Cas9 induced mutations using next-generation sequencing”, BMC Genomics, 15.1 (2014): 1002.
Microorganismos modificados por ingeniería genética
Se usan ampliamente microorganismos (por ejemplo, E. coli, levadura y microalgas) para biología sintética. El desarrollo de la biología sintética tiene una amplia utilidad, incluyendo diversas aplicaciones clínicas. Por ejemplo, los sistemas de CRISPR programables descritos en el presente documento pueden usarse para dividir proteínas de dominios tóxicos para la muerte celular dirigida, por ejemplo, usando ARN ligado al cáncer como transcrito diana. Además, las rutas que implican interacciones proteína-proteína pueden verse influidas en sistemas biológicos sintéticos con, por ejemplo, complejos de fusión con los efectores apropiados tales como cinasas o enzimas.
En algunas realizaciones, pueden introducirse secuencias de guía de ARN que se dirigen a secuencias de fagos en el microorganismo. Por tanto, la divulgación también proporciona métodos de vacunación de un microorganismo (por ejemplo, una cepa de producción) contra la infección por fagos.
En algunas realizaciones, los sistemas de CRISPR proporcionados en el presente documento pueden usarse para modificar por ingeniería genética microorganismos, por ejemplo, para mejorar el rendimiento o mejorar la eficiencia de la fermentación. Por ejemplo, los sistemas de CRISPR descritos en el presente documento pueden usarse para modificar por ingeniería genética microorganismos, tales como levadura, para generar biocombustibles o biopolímeros a partir de azúcares fermentables, o para degradar lignocelulosa de origen vegetal derivada de desechos agrícolas como fuente de azúcares fermentables. Más particularmente, los métodos descritos en el presente documento pueden usarse para modificar la expresión de genes endógenos requeridos para la producción de biocombustibles y/o para modificar genes endógenos, que pueden interferir con la síntesis de biocombustibles. Estos métodos de modificación por ingeniería genética de microorganismos se describen, por ejemplo, en Verwaal et al., “CRISPR/Cpf1 enables fast and simple genome editing of Saccharomyces cerevisiae”, Yeast, 8 de septiembre de 2017. doi: 10.1002/yea.3278; y Hlavova et al., “Improving microalgae for biotechnology-from genetics to synthetic biology”, Biotechnol. Adv., 1 de noviembre de 2015; 33:1194-203.
En algunas realizaciones, los sistemas de CRISPR proporcionados en el presente documento pueden usarse para inducir muerte o latencia de una célula (por ejemplo, un microorganismo tal como un microorganismo modificado por ingeniería genética). Estos métodos pueden usarse para inducir latencia o muerte de una multitud de tipos de células, incluyendo células procariotas y eucariotas, incluyendo, pero sin limitarse a, células de mamíferos (por ejemplo, células cancerosas o células de histocultivo), protozoos, células fúngicas, células infectadas con un virus, células infectadas con una bacteria intracelular, células infectadas con un protozoo intracelular, células infectadas con un prión, bacterias (por ejemplo, bacterias patógenas y no patógenas), protozoos y parásitos unicelulares y multicelulares. Por ejemplo, en el campo de la biología sintética es altamente deseable disponer de mecanismos de control de microorganismos modificados por ingeniería genética (por ejemplo, bacterias) para evitar su propagación o diseminación. Los sistemas descritos en el presente documento pueden usarse como “interruptores de muerte” para regular y/o prevenir la propagación o diseminación de un microorganismo modificado por ingeniería genética. Además, existe la necesidad en la técnica de alternativas a los tratamientos con antibióticos actuales.
Los sistemas descritos en el presente documento también pueden usarse en aplicaciones en las que es deseable destruir o controlar una población microbiana específica (por ejemplo, una población bacteriana). Por ejemplo, los sistemas descritos en el presente documento pueden incluir una guía de ARN (por ejemplo, un ARNcr) que se dirige a un ácido nucleico (por ejemplo, un ARN) que es específico de género, especie o cepa, y puede administrarse a la célula. Al formar complejos y unirse al ácido nucleico diana, se activa la actividad ARNasa colateral de las proteínas efectoras de CRISPR-Cas CLUST.019143 (tipo V-G), lo que conduce a la escisión del ARN colateral dentro de los microorganismos, dando como resultado finalmente latencia o muerte. En algunas realizaciones, los métodos comprenden poner en contacto la célula con un sistema descrito en el presente documento que incluye proteínas efectoras de CRISPR-Cas CLUST.019143 (tipo V-G) o un ácido nucleico que codifica para la proteína efectora, y una guía de ARN (por ejemplo, un ARNcr) o un ácido nucleico que codifica para la guía de ARN, en los que la secuencia espaciadora es complementaria a al menos 15 nucleótidos (por ejemplo, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50 o más nucleótidos) de un ácido nucleico diana (por ejemplo, una guía de ARN específica de género, cepa o especie). Sin querer limitarse a ninguna teoría en particular, la escisión del ARN colateral por las proteínas efectoras de CRISPR-Cas CLUST.019143 (tipo V-G) puede inducir muerte celular programada, toxicidad celular, apoptosis, necrosis, necroptosis, muerte celular, detención del ciclo celular, anergia celular, una reducción del crecimiento celular o una reducción de la proliferación celular. Por ejemplo, en bacterias, la escisión del ARN colateral por las proteínas efectoras de CRISPR-Cas CLUST.019143 (tipo V-G) puede ser bacteriostática o bactericida.
Aplicación en plantas
Los sistemas de CRISPR descritos en el presente documento tienen una amplia variedad de utilidad en plantas. En algunas realizaciones, los sistemas de CRISPR pueden usarse para modificar por ingeniería genética genomas de plantas (por ejemplo, mejorar la producción, fabricar productos con modificaciones postraduccionales deseadas o introducir genes para producir productos industriales). En algunas realizaciones, los sistemas de CRISPR pueden usarse para introducir un rasgo deseado en una planta (por ejemplo, con o sin modificaciones hereditarias en el genoma), o regular la expresión de genes endógenos en células vegetales o plantas completas.
En algunas realizaciones, los sistemas de CRISPR pueden usarse para identificar, editar y/o silenciar genes que codifican para proteínas específicas, por ejemplo, proteínas alergénicas (por ejemplo, proteínas alergénicas en cacahuete, soja, lentejas, guisantes, judías verdes y judías mungo). Se describe una descripción detallada sobre cómo identificar, editar y/o silenciar genes que codifican para proteínas, por ejemplo, en Nicolaou et al., “Molecular diagnosis of peanut and legume allergy”, Curr. Opin. Allergy Clin. Immunol. 11(3):222-8 (2011) y el documento W02016205764 A1.
Impulsos génicos
El impulso génico es el fenómeno en el que la herencia de un gen o conjunto de genes particular está sesgada favorablemente. Los sistemas de CRISPR descritos en el presente documento pueden usarse para crear impulsos génicos. Por ejemplo, los sistemas de CRISPR pueden diseñarse para seleccionar como diana y alterar un alelo particular de un gen, lo que hace que la célula copie el segundo alelo para corregir la secuencia. Debido a la copia, el primer alelo se convertirá en el segundo alelo, aumentando la posibilidad de que el segundo alelo se transmita a la descendencia. Se describe un método detallado sobre cómo usar los sistemas de CRISPR descritos en el presente documento para crear impulsos génicos, por ejemplo, en Hammond et al., “A CRISPR-Cas9 gene drive system targeting female reproduction in the malaria mosquito vector Anopheles gambiae”, Nat. Biotechnol, enero de 2016; 34(1):78-83.
Cribado agrupado
Tal como se describe en el presente documento, el cribado de CRISPR agrupado es una potente herramienta para identificar genes implicados en mecanismos biológicos tales como proliferación celular, resistencia a fármacos e infección viral. Las células se transducen en masa con una biblioteca de vectores codificantes de guía de ARN descritos en el presente documento, y la distribución de guías de ARN se mide antes y después de aplicar una exposición selectiva. Los cribados de CRISPR agrupados funcionan bien para los mecanismos que afectan a la supervivencia y proliferación celular, y pueden extenderse para medir la actividad de genes individuales (por ejemplo, mediante el uso de líneas de células indicadoras modificadas). Los cribados de CRISPR en matriz, en los que sólo se selecciona como diana un gen a la vez, posibilitan el uso de la secuenciación de ARN como lectura. En algunas realizaciones, los sistemas de CRISPR que se describen en el presente documento pueden usarse en cribados de CRISPR en una sola célula. Puede encontrarse una descripción detallada sobre los cribados de CRISPR agrupados, por ejemplo, en Datlinger et al., “Pooled CRISPR screening with single-cell transcriptome read-out”, Nat. Methods., marzo de 2017; 14(3):297-301.
Mutagénesis de saturación (“golpeo”)
Los sistemas de CRISPR descritos en el presente documento pueden usarse para mutagénesis de saturación in situ. En algunas realizaciones, puede usarse una biblioteca de guías de ARN agrupada para realizar la mutagénesis de saturación in situ para genes o elementos reguladores particulares. Tales métodos pueden revelar características mínimas críticas y vulnerabilidades discretas de estos genes o elementos reguladores (por ejemplo, potenciadores). Estos métodos se describen, por ejemplo, en Canver et al., “BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis”, Nature, 12 de noviembre de 2015; 527 (7577): 192­ 7.
Aplicaciones relacionadas con el ARN
Los sistemas de CRISPR descritos en el presente documento tienen diversas aplicaciones relacionadas con el ARN, por ejemplo, la modulación de la expresión génica, la degradación de una molécula de ARN, la inhibición de la expresión del ARN, el cribado de ARN o productos de ARN, la determinación de las funciones del ARNlinc o ARN no codificante, la inducción de latencia celular, la inducción de la detención del ciclo celular, la reducción del crecimiento celular y/o la proliferación celular, la inducción de anergia celular, la inducción de apoptosis celular, la inducción de necrosis celular, la inducción de muerte celular y/o la inducción de muerte celular programada. Puede encontrarse una descripción general de este tipo de aplicaciones, por ejemplo, en el documento W0 2016/205764 A1. En diferentes realizaciones, los métodos descritos en el presente documento pueden realizarse in vitro, in vivo o ex vivo.
Por ejemplo, los sistemas de CRISPR descritos en el presente documento pueden administrarse a un sujeto que tiene una enfermedad o un trastorno para seleccionar como diana e inducir muerte celular en una célula particular o un grupo de células particulares en un estado patológico (por ejemplo, células cancerosas o células infectadas con un agente infeccioso). Por ejemplo, en algunas realizaciones, los sistemas de CRISPR descritos en el presente documento pueden usarse para seleccionar como diana e inducir muerte celular en una célula cancerosa, en los que la célula cancerosa es de un sujeto que tiene tumor de Wilms, sarcoma de Ewing, un tumor neuroendocrino, un glioblastoma, un neuroblastoma, un melanoma, cáncer de piel, cáncer de mama, cáncer de colon, cáncer rectal, cáncer de próstata, cáncer de hígado, cáncer renal, cáncer pancreático, cáncer de pulmón, cáncer biliar, cáncer de cuello uterino, cáncer de endometrio, cáncer de esófago, cáncer gástrico, cáncer de cabeza y cuello, carcinoma medular de tiroides, cáncer de ovario, glioma, linfoma, leucemia, mieloma, leucemia linfoblástica aguda, leucemia mielógena aguda, leucemia linfocítica crónica, leucemia mielógena crónica, linfoma de Hodgkin, linfoma no Hodgkin o cáncer de vejiga urinaria.
Modulación de la expresión génica
Los sistemas de CRISPR descritos en el presente documento pueden usarse para modular la expresión génica. Los sistemas de CRISPR pueden usarse, junto con guías de ARN adecuadas, para seleccionar como diana la expresión génica mediante el control del procesamiento del ARN. El control del procesamiento del ARN puede incluir, por ejemplo, reacciones de procesamiento de ARN tales como corte y empalme de ARN (por ejemplo, corte y empalme alternativo), replicación viral y biosíntesis de ARNt. Las proteínas dirigidas al ARN en combinación con guías de ARN adecuadas también pueden usarse para controlar la activación del ARN (ARNa). La activación del ARN es un fenómeno de regulación génica dependiente de Argonaute (Ago) y guiado por ARN pequeño en el que los ARN bicatenarios (ARNbc) cortos dirigidos por promotores inducen la expresión del gen diana a nivel transcripcional/epigenético. El ARNa conduce a la promoción de la expresión génica, de modo que el control de la expresión génica puede lograrse de esa manera mediante la alteración o reducción del ARNa. En algunas realizaciones, los métodos incluyen el uso de CRISPR que selecciona como diana ARN como sustitutos de, por ejemplo, ácidos ribonucleicos de interferencia (tales como ARNip, ARNhc o ARNbc). Los métodos de modulación de la expresión génica se describen, por ejemplo, en el documento W02016205764.
Control de la interferencia de ARN
El control sobre los microARN (miARN) o ARN de interferencia puede ayudar a reducir los efectos inespecíficos al reducir la longevidad de los miARN o ARN de interferencia in vivo o in vitro. En algunas realizaciones, los ARN diana pueden incluir ARN de interferencia, es decir, ARN implicados en la ruta de interferencia del ARN, tales como ARN de horquilla corta (ARNhc), ARN de interferencia pequeños (ARNip), etc. En algunas realizaciones, los ARN diana incluyen, por ejemplo, miARN o ARN bicatenarios (ARNbc).
En algunas realizaciones, si la proteína que selecciona como diana el ARN y las guías de ARN adecuadas se expresan selectivamente (por ejemplo, espacial o temporalmente bajo el control de un promotor regulado, por ejemplo, un promotor y/o potenciador específico de ciclo celular o de tejido), los nuevos sistemas descritos en el presente documento pueden usarse para proteger a las células o los sistemas (in vivo o in vitro) de la interferencia de ARN (iARN) en esas células. Estos nuevos métodos son útiles en tejidos o células vecinas donde no se requiere iARN o para fines de comparación de las células o los tejidos donde las proteínas asociadas a CRISPR y los ARNcr adecuados se expresan y no se expresan (es decir, donde la iARN no está controlada y donde lo está, respectivamente). Las proteínas que seleccionan como diana el ARN pueden usarse para controlar o unirse a moléculas que comprenden o consisten en ARN, tales como ribozimas, ribosomas o ribointerruptores. En algunas realizaciones, las guías de ARN pueden reclutar las proteínas que seleccionan como diana el ARN a estas moléculas de modo que las proteínas que seleccionan como diana el ARN puedan unirse a ellas. Estos métodos se describen, por ejemplo, en los documentos WO 2016205764 y WO 2017070605.
Modificación de ribointerruptores y control de las regulaciones metabólicas
Los ribointerruptores son segmentos reguladores de ARN mensajeros que se unen a moléculas pequeñas y, a su vez, regulan la expresión génica. Este mecanismo permite que la célula detecte la concentración intracelular de estas moléculas pequeñas. Un ribointerruptor específico normalmente regula su gen adyacente alterando la transcripción, la traducción o el corte y empalme de este gen. Por tanto, en algunas realizaciones, la actividad de los ribointerruptores puede controlarse mediante el uso de proteínas que seleccionan como diana el ARN descritas en el presente documento en combinación con guías de ARN adecuadas para seleccionar como diana los ribointerruptores. Esto puede lograrse mediante la escisión del, o la unión al, ribointerruptor. Se describen métodos de uso de sistemas de CRISPR para controlar ribointerruptores, por ejemplo, en los documentos WO 2016205764 y WO 2017070605.
Modificación de ARN
En algunas realizaciones, las proteínas asociadas a CRISPR descritas en el presente documento pueden fusionarse con un dominio de edición de bases, tal como ADAR1, ADAR2, APOBEC o citidina desaminasa inducida por activación (AID), y pueden usarse para modificar una secuencia de ARN (por ejemplo, un ARNm). En algunas realizaciones, la proteína asociada a CRISPR incluye una o más mutaciones (por ejemplo, en un dominio catalítico), que hace que la proteína asociada a CRISPR sea incapaz de escindir el a Rn .
En algunas realizaciones, las proteínas asociadas a CRISPR pueden usarse con un polipéptido de fusión de unión a ARN que comprende un dominio de edición de bases (por ejemplo, ADAR1, ADAR2, APOBEC o AID) fusionado a un dominio de unión a ARN, tal como MS2 (también conocida como proteína de la cubierta MS2), Qbeta (también conocida como proteína de la cubierta Qbeta) o PP7 (también conocida como proteína de la cubierta PP7). Las secuencias de aminoácidos de los dominios de unión a ARN MS2, Qbeta y PP7 se proporcionan a continuación:
MS2 (proteína de la cubierta MS2)
MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVE VPKVATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSG IY (SEQ ID NO: 316)
Qbeta (proteína de la cubierta Qbeta)
MAKLETVTLGNIGKDGKQTLVLNPRGVNPTNGVASLSQAGAVPALEKRVTVSVSQPSRNRKNYK VQVKIQNPTACTANGSCDPSVTRQAYADVTFSFTQYSTDEERAFVRTELAALLASPLLIDAIDQ LNPAY (SEQ ID NO: 317)
PP7 (proteína de la cubierta PP7)
MSKTIVLSVGEATRTLTEIQSTADRQIFEEKVGPLVGRLRLTASLRQNGAKTAYRVNLKLDQAD WDCSTSVCGELPKVRYTQVWSHDVTIVANSTEASRKSLYDLTKSLWQATSEDLWNLVPLGR
(SEQ ID NO: 318)
En algunas realizaciones, el dominio de unión a ARN puede unirse a una secuencia específica (por ejemplo, una secuencia de aptámero) o a motivos de estructura secundaria en un ARNcr del sistema descrito en el presente documento (por ejemplo, cuando el ARNcr está en un complejo de efector-ARNcr), reclutando de ese modo el polipéptido de fusión de unión a ARN (que tiene un dominio de edición de bases) al complejo efector. Por ejemplo, en algunas realizaciones, el sistema de CRISPR incluye una proteína asociada a CRISPR, un ARNcr que tiene una secuencia de aptámero (por ejemplo, un bucle de unión a MS2, un bucle de unión a QBeta o un bucle de unión a PP7) y un polipéptido de fusión de unión a ARN que tiene un dominio de edición de bases fusionado con un dominio de unión a ARN que se une específicamente a la secuencia del aptámero. En este sistema, la proteína asociada a CRISPR forma un complejo con el ARNcr que tiene la secuencia de aptámero. Además, el polipéptido de fusión de unión a ARN se une al ARNcr (a través de la secuencia de aptámero) formando de ese modo un complejo tripartito que puede modificar un ARN diana.
Se describen métodos de uso de sistemas de CRISPR para la edición de bases, por ejemplo, en la publicación internacional n.° WO 2017/219027, en particular con respecto a su discusión sobre la modificación del ARN. Corte y empalme de ARN
En algunas realizaciones, una proteína asociada a CRISPR inactivada descrita en el presente documento (por ejemplo, una proteína asociada a CRISPR que tiene una o más mutaciones en un dominio catalítico) puede usarse para seleccionar como diana y unirse a sitios de corte y empalme específicos en transcritos de a Rn . La unión de la proteína asociada a CRISPR inactivada al ARN puede inhibir estéricamente la interacción del espliceosoma con el transcrito, lo que permite la alteración en la frecuencia de generación de isoformas de transcrito específicas. Se describen métodos de uso de sistemas de CRISPR para alterar el corte y empalme, por ejemplo, en la publicación internacional n.° WO 2017/219027, en particular con respecto a su discusión sobre el corte y empalme de ARN.
Mapeo cuantitativo de rasgos (crisprQTL)
Los sistemas de CRISPR descritos en el presente documento pueden usarse para mapear regiones codificantes y no codificantes de un genoma que influyen en la expresión génica. Por ejemplo, en algunas realizaciones, una población de células puede transducirse con múltiples perturbaciones programadas por guía de ARN de CRISPR aleatorias y con código de barras. A continuación, puede usarse secuenciación de ARN en una sola célula para obtener el perfil de expresión génica y la recopilación de guías de ARN en cada célula. Los datos generados pueden usarse para identificar asociaciones entre guías de ARN y cambios cuantitativos en la expresión génica, lo que facilita el análisis de la arquitectura reguladora en cis de las células. Estos métodos se describen, por ejemplo, en Gasperini et al., “crisprQTL mapping as a genome-wide association framework for cellular genetic screens”, bioRxiv, publicado el 4 de mayo de 2018, doi: doi.org/10.1101/314344.
Rastreo del linaje
Los sistemas de CRISPR pueden usarse para el rastreo del linaje celular (no forma parte de la invención). Los sistemas de CRISPR pueden usarse para editar combinatoriamente una secuencia de “código de barras” en los genomas de las células de un embrión a medida que se desarrolla. Basándose en el conocimiento de las características de edición en la diana y fuera de la diana del sistema de CRISPR, esta actividad de edición combinatoria puede ajustarse de manera que los eventos de edición genómica se acumulen de manera informativa a medida que las células crecen y se dividen. Los patrones de códigos de barras observados en las células editadas se usan para reconstruir las relaciones de linaje de desarrollo de las células en un organismo. Estos métodos, y variantes de los mismos, se describen, por ejemplo, en McKenna et al., “Whole organism lineage tracing by combinatorial and cumulative genome editing”, Science, 29 de julio de 2016; 353(6298): aaf7907. Estos métodos también pueden usarse en células cancerosas, por ejemplo, para seguir la evolución de un tumor a lo largo del tiempo y el espacio, en el caso de metástasis. En algunas realizaciones, las proteínas Cas12g que presentan una mayor actividad cuando la proteína efectora se dirige a una región genómica transcripcionalmente activa (por ejemplo, Cas12g1) pueden usarse para realizar el rastreo del linaje de células en las que se expresan genes marcadores de interés. Por ejemplo, en algunas realizaciones, estos sistemas pueden usarse para rastrear la evolución de células cancerosas que expresan genes relevantes para el diagnóstico o tratamiento de enfermedades.
Aplicaciones terapéuticas
Los sistemas de CRISPR descritos en el presente documento que tienen actividad en un contexto celular de mamífero pueden tener una amplia gama de aplicaciones terapéuticas. En algunas realizaciones, los nuevos sistemas de CRISPR dirigidos a ARN pueden usarse para tratar directamente enfermedades y trastornos. A partir del desarrollo de productos terapéuticos basados en interferencia de ARN, se ha demostrado que varias enfermedades pueden tratarse seleccionando como diana ARN endógeno. Los sistemas de CRISPR dirigidos a ARN descritos en el presente documento pueden aplicarse de modo similar.
En un aspecto, los sistemas de CRISPR descritos en el presente documento pueden usarse para tratar una enfermedad provocada por la sobreexpresión de ARN, ARN tóxico y/o ARN mutado (por ejemplo, defectos de corte y empalme o truncamientos). Por ejemplo, la expresión de los ARN tóxicos puede estar asociada con la formación de inclusiones nucleares y cambios degenerativos de inicio tardío en el cerebro, el corazón o el músculo esquelético. En algunas realizaciones, el trastorno es distrofia miotónica. En la distrofia miotónica, el principal efecto patógeno de los ARN tóxicos es secuestrar proteínas de unión y comprometer la regulación del corte y empalme alternativo (véase, por ejemplo, 0sborne et al., “RNA-dominant diseases”, Hum. mol. Genet., 15 de abril de 2009; 18(8):1471-81). La distrofia miotónica (distrofia miotónica (DM)) es de particular interés para los genetistas porque produce una gama extremadamente amplia de características clínicas. La forma clásica de DM, que ahora se denomina DM de tipo 1 (DM1), está provocada por una expansión de repeticiones CTG en la región no traducida (UTR) en 3' de DMPK, un gen que codifica para una proteína cinasa citosólica. Los sistemas de CRISPR, tal como se describe en el presente documento, pueden dirigirse a ARN sobreexpresado o ARN tóxico, por ejemplo, el gen de DMPK o cualquiera de los cortes y empalmes alternativos mal regulados en músculo esquelético, corazón o cerebro con DM1. Otro ejemplo es la enfermedad de Huntington (EH), en la que la expansión de trinucleótidos CAG en el gen que codifica para la proteína huntingtina produce una proteína aberrante. La inactivación específica del ARN mutado o específico del alelo que codifica para proteína huntingtina anómala puede ser beneficiosa. Las mutaciones en el gen de APOB que provocan hipobetalipoproteinemia familiar (FHBL) provocan transcritos mutados que interfieren con la generación de las dos formas naturales del transcrito en individuos no afectados, y la inactivación específica del transcrito de APOB mutado puede ser beneficiosa para tratar la FHBL. Asimismo, la reciente aprobación de patisirán por parte de la FDA destaca el potencial terapéutico de la iARN para inactivar la proteína transtiretina mal plegada tóxica (Kristen, et al. Neurodegener Dis Manag. Febrero de 2019; 9(1):5-23.) que provoca amiloidosis hereditaria mediada por transtiretina, y puede esperarse que la utilización de los sistemas de CRISPR descritos en el presente documento que seleccionan como diana la mutación tóxica tenga beneficios similares.
En otro aspecto, los sistemas de CRISPR descritos en el presente documento pueden dirigirse a genes identificados a partir de estudios genéticos que proporcionan un efecto protector cuando se inactivan. Estos pueden conferir mutaciones protectoras, tales como la eliminación de PCSK9 para reducir el LDL plasmático y disminuir el riesgo de enfermedad cardiovascular (Frank-Kamenetsky, et al. Proc Natl Acad Sci USA. 19 de agosto de 2008; 105(33): 11915-11920), y la eliminación de CCR5 para conferir protección contra la infección por VIH (Shimizu et al, Mol Ther Nucleic Acids. Febrero de 2015; 4(2): e227).
Los sistemas de CRISPR descritos en el presente documento también pueden seleccionar como diana mutaciones que actúan en trans que afectan a las funciones dependientes del ARN que provocan diversas enfermedades tales como, por ejemplo, síndrome de Prader-Willi, atrofia muscular espinal (AME) y disqueratosis congénita. Una lista de enfermedades que pueden tratarse usando los sistemas de CRISPR descritos en el presente documento se resume en Cooper et al., “RNA and disease”, Cell, 136.4 (2009): 777-793, y el documento WO 2016205764 A1.
Los sistemas de CRISPR descritos en el presente documento también pueden usarse en el tratamiento de diversas tauopatías, incluyendo, por ejemplo, tauopatías primarias y secundarias, tales como tauopatía primaria relacionada con la edad (PART)/demencia senil con predominio de ovillos neurofibrilar (NFT) (con NFT similares a los observados en la enfermedad de Alzheimer (EA), pero sin placas), demencia pugilística (encefalopatía traumática crónica) y parálisis supranuclear progresiva. Se describe una lista útil de tauopatías y métodos de tratamiento de estas enfermedades, por ejemplo, en el documento WO 2016205764.
Los sistemas de CRISPR descritos en el presente documento también pueden usarse para seleccionar como diana mutaciones que interrumpen los códigos de corte y empalme de actuación en cis que pueden provocar defectos y enfermedades de corte y empalme. Estas enfermedades incluyen, por ejemplo, enfermedad degenerativa de neuronas motoras que resulta de la eliminación del gen SMN1 (por ejemplo, atrofia muscular espinal), distrofia muscular de Duchenne o Becker (DMD/BMD), demencia frontotemporal y parkinsonismo ligado al cromosoma 17 (FTDP-17), y fibrosis quística. En el ejemplo de la ataxia de Friedreich, la enfermedad está provocada por una expansión de repetición de trinucleótidos GAA en el gen de frataxina (FXN) que interfiere con el corte y empalme normal. Los efectores dirigidos a ARN descritos en el presente documento pueden seleccionarse como diana para afectar al sitio de corte y empalme y restablecer la actividad proteica normal para lograr un beneficio terapéutico.
Los sistemas de CRISPR descritos en el presente documento también pueden usarse para tratar un cáncer en un sujeto (por ejemplo, un sujeto humano). Por ejemplo, las proteínas asociadas a CRISPR descritas en el presente documento pueden programarse con un ARNcr dirigido a una molécula de ARN que es aberrante (por ejemplo, comprende una mutación puntual o se ve sometido a corte y empalme alternativo) y se encuentra en células cancerosas, para inducir muerte celular en células cancerosas (por ejemplo, por medio de apoptosis). Un ejemplo es el oncogén de fusión BCR-ABL que se encuentra en muchos pacientes con leucemia mielógena crónica (LMC), una mutación específica del cáncer, y, por tanto, puede seleccionarse como diana sin afectar a células somáticas sanas.
Además, los sistemas de CRISPR descritos en el presente documento pueden usarse para tratar una enfermedad infecciosa en un sujeto. Por ejemplo, las proteínas asociadas a CRISPR descritas en el presente documento pueden programarse con ARNcr dirigido a ARN expresado por un agente infeccioso (por ejemplo, una bacteria, un virus, un parásito o un protozoo) con el fin de seleccionar como diana e inducir muerte celular en la célula del agente infeccioso. Los sistemas de CRISPR también pueden usarse para tratar enfermedades en las que un agente infeccioso intracelular infecta las células de un sujeto huésped. Al programar la proteína asociada a CRISPR para que se dirija a una molécula de ARN codificada por un gen de agente infeccioso, las células infectadas con el agente infeccioso pueden seleccionarse como diana e inducir muerte celular. Los sistemas de CRISPR pueden usarse además para la actividad antiviral, en particular contra virus de ARN tales como VIH, virus sincitial respiratorio (VSR) y virus de la hepatitis C (VHC), aunque también pueden seleccionarse como diana virus de ADN con intermediarios de ARN en su ciclo vital (tal como el virus del herpes simple de tipos 1 y 2, y el virus de la hepatitis B). Las proteínas efectoras pueden dirigirse a los ARN virales usando guías de ARN adecuadas seleccionadas para seleccionar como diana secuencias de ARN viral.
Además, pueden usarse ensayos de detección de ARN in vitro para detectar sustratos de ARN específicos. Las proteínas efectoras dirigidas al ARN pueden usarse para la detección basada en ARN en células vivas. Ejemplos de aplicaciones son diagnósticos mediante la detección de, por ejemplo, ARN específicos de enfermedades. Puede encontrarse una descripción detallada de las aplicaciones terapéuticas de los sistemas de CRISPR descritos en el presente documento, por ejemplo, en los documentos US 8795965, EP 3009511, WO 2016205764 y WO 2017070605.
En otro aspecto, los sistemas de CRISPR descritos en el presente documento pueden diseñarse para permitir funciones adicionales que utilizan Cas12g enzimáticamente inactiva como chasis sobre la cual pueden unirse dominios proteicos para conferir actividades tales como la edición de bases (Cox et al., Science. 24 de noviembre de 2017; 358(6366):1019-1027) y la modificación del corte y empalme de ARN (Konermann, et al. Cell. 19 de abril de 2018; 173 (3): 665-676.e14).
Adecuadamente, se proporcionan células y sistemas de CRISPR-Cas de la presente invención para su uso en el tratamiento o la prevención de cualquiera de las enfermedades dadas a conocer en el presente documento. Administración de sistemas de CRISPR
Los sistemas de CRISPR descritos en el presente documento, o componentes de los mismos, moléculas de ácido nucleico de los mismos, o moléculas de ácido nucleico que codifican para o proporcionan componentes de los mismos, pueden administrarse mediante diversos sistemas de administración tales como vectores, por ejemplo, plásmidos, vectores de administración virales. Las nuevas enzimas CRISPR y/o cualquiera de los ARN (por ejemplo, guías de ARN) pueden administrarse usando vectores adecuados, por ejemplo, plásmidos o vectores virales, tales como virus adenoasociados (VAA), lentivirus, adenovirus y otros vectores virales, o combinaciones de los mismos. Las proteínas y una o más guías de ARN pueden empaquetarse en uno o más vectores, por ejemplo, plásmidos o vectores virales. Para aplicaciones bacterianas, los ácidos nucleicos que codifican para cualquiera de los componentes de los sistemas de CRISPR descritos en el presente documento pueden administrarse a las bacterias mediante un fago. Los fagos a modo de ejemplo incluyen, pero no se limitan a, fago T4, Mu, fago X, fago T5, fago T7, fago T3, 029, M13, MS2, Qp y 0X174.
En algunas realizaciones, los vectores, por ejemplo, plásmidos o vectores virales, se administran al tejido de interés, por ejemplo, mediante inyección intramuscular, administración intravenosa, administración transdérmica, administración intranasal, administración oral o administración en la mucosa. Tal administración puede ser por medio de una sola dosis o de múltiples dosis. Un experto en la técnica entiende que la dosis real que va a administrarse en el presente documento puede variar mucho dependiendo de una variedad de factores, tales como las opciones de vector, las células diana, los organismos, los tejidos, las condiciones generales del sujeto que va a tratarse, los grados de transformación/modificación buscada, las vías de administración, los modos de administración, los tipos de transformación/modificación buscada, etc.
En determinadas realizaciones, la administración es por medio de adenovirus, que pueden administrarse en una única dosis que contiene al menos 1 * 105 partículas (también denominadas unidades de partículas, up) de adenovirus. En algunas realizaciones, la dosis es de al menos aproximadamente 1 * 106 partículas, al menos aproximadamente 1 * 107 partículas, al menos aproximadamente 1 * 108 partículas o al menos aproximadamente 1 * 109 partículas de los adenovirus. Los métodos de administración y las dosis se describen, por ejemplo, en el documento WO 2016205764 y la patente estadounidense n.° 8.454.972.
En algunas realizaciones, la administración es por medio de un vector de virus adenoasociado recombinante (VAAr). Por ejemplo, en algunas realizaciones, puede usarse un vector de VAA modificado para la administración. Los vectores de VAA modificados pueden basarse en uno o más de varios tipos de cápside, incluyendo VAA1, VAA2, VAA5, VAA6, VAA8, VAA8.2. VAA9, VAA rhlO, vectores de VAA modificados (por ejemplo, VAA2 modificado, VAA3 modificado, VAA6 modificado) y VAA pseudotipificado (por ejemplo, VAA2/8, VAA2/5 y VAA2/6). Los vectores de VAA y las técnicas a modo de ejemplo que pueden usarse para producir partículas de VAAr se conocen en la técnica (véanse, por ejemplo, Aponte-Ubillus et al. (2018) Appl. Microbiol. Biotechnol.
102(3): 1045-54; Zhong et al. (2012) J. Genet. Syndr. Gene Ther. S1: 008; West et al. (1987) Virology 160: 38-47 (1987); Tratschin et al. (1985) Mol. Cell. Biol. 5: 3251-60); las patentes estadounidenses n.os 4.797.368 y 5.173.414; y las publicaciones internacionales n.os WO 2015/054653 y WO 93/24641).
En algunas realizaciones, la administración es por medio de plásmidos. La dosificación puede ser un número suficiente de plásmidos como para provocar una respuesta. En algunos casos, las cantidades adecuadas de ADN de plásmido en las composiciones de plásmido pueden ser de aproximadamente 0,1 a aproximadamente 2 mg. Los plásmidos incluirán generalmente (i) un promotor; (ii) una secuencia que codifica para enzimas CRISPR dirigidas a ácidos nucleicos, operativamente unidas al promotor; (iii) un marcador seleccionable; (iv) un origen de replicación; y (v) un terminador de la transcripción en el sentido de 3' y operativamente unido a (ii). Los plásmidos también pueden codificar para los componentes de ARN de un complejo de CRISPR, pero uno o más de éstos pueden estar codificados en su lugar en vectores diferentes. La frecuencia de administración está dentro del ámbito del profesional médico o veterinario (por ejemplo, médico, veterinario) o un experto en la técnica.
En otra realización, la administración es por medio de liposomas o formulaciones de lipofectina y similares, y pueden prepararse mediante métodos conocidos por los expertos en la técnica. Tales métodos se describen, por ejemplo, en el documento WO 2016205764 y las patentes estadounidenses n.os 5.593.972; 5.589.466; y 5.580.859.
En algunas realizaciones, la administración es por medio de nanopartículas o exosomas. Por ejemplo, se ha demostrado que los exosomas son particularmente útiles en la administración de ARN.
Medios adicionales de introducción de uno o más componentes de los nuevos sistemas de CRISPR en las células es mediante el uso de péptidos de penetración celular (CPP). En algunas realizaciones, un péptido de penetración celular se une a las enzimas CRISPR. En algunas realizaciones, las enzimas CRISPR y/o las guías de ARN se acoplan a uno o más CPP para transportarlos dentro de las células de manera eficaz (por ejemplo, protoplastos de plantas). En algunas realizaciones, las enzimas CRISPR y/o la(s) guía(s) de ARN están codificadas por una o más moléculas de ADN circulares o no circulares que se acoplan a uno o más CPP para la administración celular.
Los CPP son péptidos cortos de menos de 35 aminoácidos derivados de proteínas o de secuencias quiméricas capaces de transportar biomoléculas a través de la membrana celular de manera independiente del receptor. Los CPP pueden ser péptidos catiónicos, péptidos que tienen secuencias hidrófobas, péptidos anfipáticos, péptidos que tienen secuencias ricas en prolina y secuencias antimicrobianas, y péptidos quiméricos o bipartitos. Los ejemplos de CPP incluyen, por ejemplo, Tat (que es una proteína activadora transcripcional nuclear requerida para la replicación viral por VIH de tipo I), penetratina, secuencia de péptido señal de factor de crecimiento de fibroblastos (FGF) de Kaposi, secuencia de péptido señal de integrina p3, secuencia de Arg del péptido poliarginina, transportadores moleculares ricos en guanina y péptido flecha dulce. Los CPP y los métodos para usarlos se describen, por ejemplo, en Hallbrink et al., “Prediction of cell-penetrating peptides”, Methods Mol. Biol., 2015; 1324:39-58; Ramakrishna et al., “Gene disruption by cell-penetrating peptide-mediated delivery of Cas9 protein and guide RNA”, Genome Res., junio de 2014; 24(6):1020-7; y el documento WO 2016205764 A1.
La administración del sistema de CRISPR de tipo V-G como complejo de ribonucleoproteína por electroporación o nucleofección, en la que la proteína Cas12g purificada se incuba previamente con una guía de ARN y se somete a electroporación (o nucleofección) en las células de interés, es otro método de introducción eficaz del sistema de CRISPR en células para la edición génica. Esto es particularmente útil para la edición del genoma ex vivo y el desarrollo de terapias celulares, y tales métodos se describen en Roth et al. “Reprogramming human T cell function and specificity with non-viral genome targeting”, Nature. Julio de 2018; 559 (7714): 405-409.
También se describen diversos métodos de administración para los sistemas de CRISPR descritos en el presente documento, por ejemplo, en los documentos US 8795965, Ep 3009511, WO 2016205764 y WO 2017070605. Kits
Esta divulgación también abarca kits para llevar a cabo los diversos métodos de la divulgación utilizando los sistemas de CRISPR descritos en el presente documento. Un kit a modo de ejemplo de la presente divulgación comprende (a) uno o más ácidos nucleicos que codifican para una proteína asociada a CRISPR y un ARNcr relacionado, y/o (b) un complejo de ribonucleoproteína de una proteína asociada a CRISPR y un ARNcr relacionado. En algunas realizaciones, el kit comprende una proteína Cas12g y una guía de ARN de Cas12g. Tal como se describió anteriormente, un complejo de proteína y guía de ARN tiene una actividad de edición tal como formación de SSB, escisión de ARN, interferencia de CRISPR, modificación de bases nitrogenadas, metilación o desmetilación de ADN, modificación de cromatina, etc. En determinadas realizaciones, la proteína asociada a CRISPR es una variante, tal como una variante que tiene actividad endonucleasa reducida.
Los kits de esta divulgación también incluyen opcionalmente reactivos adicionales, incluyendo uno o más de un tampón de reacción, un tampón de lavado, uno o más materiales de control (por ejemplo, un sustrato o un ácido nucleico que codifica para un componente del sistema de CRISPR), etc. Un kit de la presente divulgación también incluye opcionalmente instrucciones para realizar un método de esta divulgación utilizando los materiales proporcionados en el kit. Las instrucciones se proporcionan en forma física, por ejemplo, como un documento impreso empaquetado físicamente con otro elemento del kit, y/o en forma digital, por ejemplo, un documento publicado digitalmente que puede descargarse de un sitio web o proporcionado en un medio legible por ordenador.
Ejemplos
La invención se describe además en los siguientes ejemplos, que no limitan el alcance de la invención descrita en las reivindicaciones.
Ejemplo 1: Identificación de componentes mínimos para sistemas de CLUST.019143 (proteína efectora de CRISPR-Cas de tipo V-G) (figuras 1 - 3)
Para lograr el conjunto inicial más amplio posible de familias de tipo V, se exploraron miembros adicionales de la diversidad de tipo V dentro de una base de datos ampliada de secuencias genómicas y metagenómicas microbianas. Las secuencias del genoma y metagenoma se descargaron de NCBI (Benson et al., 2013; Pruitt et al., 2012), secuenciación del genoma completo (WGS) de NCBI y DOE JGI Integrated Microbial Genomes (Markowitz et al., 2012) y se compilaron para construir una base de datos de 293.985 sistemas de CRISPR-Cas supuestos, cada uno de los cuales incluye un efector predicho y una matriz de CRISPR y, cuando estén presentes, módulos de adaptación, proteínas accesorias y ARNtracr (Yan et al., 2018).
Una búsqueda en esta base de datos de sistemas CRISPR-Cas en los que la proteína efectora contenía un dominio homólogo a RuvC (TnpB) reveló una diversidad de nuevas familias de CRISPR-Cas tipo V más allá de los subtipos V-A - E y V-U descritos anteriormente. Los loci que codifican para estos efectores están altamente enriquecidos para matrices de CRISPR de diferentes longitudes, pero el módulo de adaptación que consistía en Cas1, Cas2 y Cas4 está asociado solo con Cas12a, Cas12b y Cas12e, mientras que los loci de los subtipos V-C y V-D, de acuerdo con las observaciones previas, contienen sólo el gen de Cas1 (figura 1) (Burstein et al., 2017; Shmakov et al., 2015). Los efectores predichos en las familias recién identificadas variaron en tamaño de 720 aa a 1093 aa, incluyendo cada uno un dominio RuvC derivado de TnpB C-terminal con aminoácidos catalíticos conservados típicos de las nucleasas similares a RuvC y extensiones N-terminales que eran de longitud y secuencia variables (figuras 2A-B).
El árbol de clasificación representado en la figura 1 se construyó comparando los perfiles de secuencia extraídos de múltiples alineaciones de grupos de proteínas Cas12 fácilmente alineables. Se realizaron comparaciones de perfil-perfil usando HHsearch (Soding et al., 2005); las puntuaciones entre dos perfiles se normalizaron por el mínimo de las autopuntuaciones y se convirtieron en una matriz de distancia en la escala logarítmica natural. Se reconstruyó el dendrograma UPGMA a partir de la matriz de distancia. El árbol a la profundidad de 2 unidades de distancia (correspondientes a la puntuación de búsqueda HH por parejas de e 2d = 0,02 en relación con la autopuntuación) normalmente recupera de manera fiable la similitud del perfil y puede servir como guía para la clasificación de subtipos (Shmakov et al., 2017).
La arquitectura de dominios de Cas12g, representada en las figuras 2A-2B, indica que el efector contiene los residuos catalíticos activos del dominio de nucleasa RuvC. La secuencia de repetición directa para CLUST.019143 (tipo V-G) muestra una secuencia de nucleótidos 5'-GACACC-3' consenso proximal al extremo 3' de la secuencia de repetición directa. La estructura secundaria predicha de las secuencias de repetición directa del sistema de CRISPR-Cas CLUST.019143 (tipo V-G) de ejemplo se representa en la figura 3.
Canalización para la identificación de loci de CRISPR-Cas de clase 2
Las secuencias del genoma y metagenoma se descargaron de NCBI (Benson et al., 2013; Pruitt et al., 2012), secuenciación del genoma completo (WGS) de NCBI y DOE JGI Integrated Microbial Genomes (Markowitz et al., 2012) y se compilaron para construir una base de datos de 293.985 loci de CRISPR-Cas supuestos dentro de los cuales se buscaron nuevos efectores de tipo V que contienen RuvC. Tal como se describió anteriormente en detalle (Yan et al., 2018), este enfoque para la ingeniería de canalización realiza un filtrado mínimo en los estadios intermedios con el fin de expandir el espacio de búsqueda para el descubrimiento de nuevos efectores de CRISPR y reducir los sesgos
Construcción del árbol de clasificación de efectores de clase 2
El árbol de clasificación se construyó comparando los perfiles de secuencia extraídos de múltiples alineaciones de grupos de proteínas Cas12 fácilmente alineables. Las comparaciones de perfil a perfil se realizaron utilizando HHsearch (Soding, 2005); las puntuaciones entre dos perfiles se normalizaron por el mínimo de las autopuntuaciones y se convirtieron en una matriz de distancia en la escala logarítmica natural. Se reconstruyó el dendrograma UPGMA a partir de la matriz de distancia. El árbol a la profundidad de 2 unidades de distancia (lo que corresponde a la puntuación de HHsearch por parejas de e~2D = 0,02 en relación con la autopuntuación) normalmente recupera de manera fiable la similitud del perfil y puede servir como guía para la clasificación de subtipos (Shmakov et al., 2017).
Tabla 3. Proteínas efectoras CLUST.019143 (tipo V-G) representativas
Figure imgf000043_0001
Figure imgf000044_0001
Tabla 4. Secuencias de aminoácidos de proteínas efectoras CLUST.019143 (tipo V-G) representativas
Figure imgf000044_0002
MHFEQFNIDVADLCQWLMSLRPNTRIGDAQSTVFWDFFLNPSILTVEADEKERDRWRLAAFDELLQIRFGHDPNAP PWSEEFRSAIRHVAQRPKSATAQRLFDRLRSLTAPHRLVLLKSAAEWIIARYQRGMENWQRQFAEWQREKEEWEAA HPNLTPEVRDAFTRVFKNLFENPDGDGKIGVRRKNPRICSWERLKLNKDNCVYAGQKGHGPLCWEFSKFVKAQKNA GTIKTFFVDVANKYLHVRRNLSKPGVKLKKSPRQEAFKRLYNQKGMEKARNWFTDAWSGYLTALNLNEKTILDHGC LKHCGAIGAEFEKSLCQFNPHTHLCVQYRNALESLEPAIRELEGDYREWRRLFLAPPRKPSFRYPSSRRLPMPKIF GEHFHQIDFDQSILRLRLEDMAEGEWIEFGFKPWPKDYRPGKDEVRVTSVHVNFHGNRMRAGFHFEAPAKPSRFAC TQDELDDLRSKQFPRQSQDRQLLEVARRRLLESFDGMLESDLRILAVDLGEKGAAAAVYQGHGHEADVAIPIVKID RLYDHVPDVLDVESARVPPPKFDDSRDPRGVRKEHVGRHLGQLQRGAQTLAQHRQQDESAPAALRRHDFRSLTRHI RWMIRDWTRHNAAQITAAAETHRCHLIVFESLRGFKPRGYDQMDFAQKARLAFFAYGRVRRKWEKAVERGLRWT VPYGFTSQICSECGHRQRNKGRLRKNKYQRRFVCECGEPKKSANKTAAPDRSATVSPCTCRLQLGSDVNAARVLAR VFWDEIVLPTREEMREPAVDSAPPSK (SEQ ID NO: 3)
>UOQF01000587_2|M
[metagenoma de digestor anaerobioj MTRTKYREERTLVRGLQRLPNQDKTEFNKNVLRLRRHFEQFNLNVAELCQWLISFKPENPNSVCETKLFWEFMLEP ENFCPDTYDRGSDWLRHEIFLLVAGWQTFEDMKAYNIRESLLTSAKMASSRPRSKTAEVLFIRLKSLEASHVMVLL KSASEWLSTRYIRQSENWKRHVQEWQKEKAAWEDKHPKLTPAIRDKYNAIFVELGISEKRSRVCSWKKLSENKDNC DWAGERKNIGDKWVSHSALCSKFNEFHRSLKGSPRKYFVTNANQYLELRRKNPQWTRDMAMΩGLFRNVPGAQNWFP NAWTNYLNALNILETTILKDYNGHLPHCNKLSDECLFNQHTFNCRQYKRLLVGKLSSQERDLEETYREWRREYLAP PDKPFLRYPSAQKLPTPKLFGRGYYDLDFTRHWKLRLDDMPAENFVSFGFKPWPRDYDKKPGEINITSVHVHFIG TRARVGFRFAVPHSYSRFSVSQDKIDELRSRVFPRKSQDLEFLNEARLRLLDGMNENQKSALRIMAVDLGTHRAAA AFFTGRIFDKPKLIKLKKIDLLTESITDTTQPEKHSANEKKIQREKGLTQHHVGKHLDTLETRTKEIISKRQNIKI TPSDDTLGTLGDHDLRHLTSHIQRMIRDWVRLNAQQITELAEKEKVDLIVFESLRGFRAHAYDKLDLEQKRRLAFF AYGRIRRKVAEKAVERGMRVLTVPYFESSQICAQCGRSQNDKNKLRDNKRKQSFQCEFSDCNYKTHSDENAARVLG RVFWGEITLPTD (SEQ ID NO: 16)
>UOQK01013695_2|M
[metagenoma de digestor anaerobio] MTRTKYREERTLVRGLQRLPNQDKTEFNKNVLRLRRHFEQFNLNVAELCQWLISFKPENPNSVCETKLFWEFMLEP ENFCPDTYDRGSDWLRHEIFLLVAGWQTFEDMKAYNIRESLLTSAKMASSRPRSKTAEVLFIRLKSLEASHVMVLL KSASEWLSTRYIRQSENWKRHVQEWQKEKAAWEDKHPKLTPAIRDKYNAIFVELGISEKRSRVCSWKKLSENKDNC DWAGERKNIGDKWVSHSALCSKFNEFHRSLKGSPRKYFVTNANQYLELRRKNPQWTRDMAMΩGLFRNVPGAQNWFP NAWTNYLNALNILETTILKDYNGHLPHCNKLSDECLFNQHTFNCRQYKRLLVGKLSSQERDLEETYREWRREYLAP PDKPFLRYPSAQKLPTPKLFGRGYYDLDFTRHWKLRLDDMPAENFVSFGFKPWPRDYDKKPGEINITSVHVHFIG TRARVGFRFAVPHSYSRFSVSQDKIDELRSRVFPRKSQDLEFLNEARLRLLDGMNENQKSALRIMAVDLGTHRAAA AFFTGRIFDKPKLIKLKKIDLLTESITDTTQPEKHSANEKKIQREKGLTQHHVGKHLDTLETRTKEIISKRQNIKI TPSDDTLGTLGDHDLRHLTSHIQRMIRDWVRLNAQQITELAEKEKVDLIVFESLRGFRAHAYDKLDLEQKRRLAFF AYGRIRRKVAEKAVERGMRVLTVPYFESSQICAQCGRSQNDKNKLRDNKRKQSFQCEFSDCNYKTHSDENAARVLG RVFWGEITLPTD (SEQ ID NO: 16)
>3300028920|Ga0272441_10052198_2|M
[sedimento acuático-marino-marino] MLEPERFCARNDPGDPRGDWIRHAVFEWAGWKLSDNLDQYNLNEELTASIEAAMDKTRTATAEALFERLMRREAS NVMVLLKVAAEWIAAKYVHQMENWKRQKEEWEKEKAEWENSHTELTEQVRDKYNRIFKELDIKNKRPRVCTWKRLS ENKDNCDWAGKRKLIGKSWVNHAALCYKYHEYSEAPKVKHRDHFIANANKYIKIRREYPQWSRDQAMKTLFKNEPR ASYWFPKEWKMYLGALGIEENTIIGNYTGCLPHCLKITHKCRFNKHTNECRRYKDLMHERLTNEERQLEELYREWR RNYLIAPGKPALRYPSARTLPTPKIFGSGYYRLDFERNQVHLRLDDMSQGDFISFGIKAWPRKYDYQPDTIDITSV QVHFVGTRARIGFRFKVPHRESIFTIRQDDIDELRSRKYPRESQDQKFLEEVRKRILNGFSEDQIAKLKIMAVDLG SDEGGVAFFKGHVFEKGESLKIIKIDELFESKKNEEAEKAKGLNVHHVGRHLDVLQKKSQEIALLRQGMTNAPSND MVQSLYPNDMRRLTSHIRRMIRDWVRLNSSQIIKLAEREQVELIVFESMRGFLAPGYDKIDPDKKRRLAFFAFGSI RRKVAEKAVERGMRWTVPYHCSSQVCAKCGKEQEDKKRFRKNKEKREFVCEDKKCNHKTNSDINAAHVCGRVFWG EINLLGKKIKIK (SEQ ID NO: 17)
>3300028920|Ga0272441_10052198_4|P
[sedimento acuático-marino-marino] MTRTKYREERTLVRSINRLPKQDKAEFKKNVLRLRRYFEQYNLDVSETCQWLISYRGLNLDEICKTQLFWEFMLEP ERFCARNDPGDPRGDWIRHAVFEWAGWKLSDNLDQYNLNEELTASIEAAMDKTRTATAEALFERLMRREASNVMV LLKVAAEWIAAKYVHQMENWKRQKEEWEKEKAEWENSHTELTEQVRDKYNRIFKELDIKNKRPRVCTWKRLSENKD NCDWAGKRKLIGKSWVNHAALCYKYHEYSEAPKVKHRDHFIANANKYIKIRREYPQWSRDQAMKTLFKNEPRASYW FPKEWKMYLGALGIEENTIIGNYTGCLPHCLKITHKCRFNKHTNECRRYKDLMHERLTNEERQLEELYREWRRNYL IAPGKPALRYPSARTLPTPKIFGSGYYRLDFERNQVHLRLDDMSQGDFISFGIKAWPRKYDYQPDTIDITSVQVHF VGTRARIGFRFKVPHRESIFTIRQDDIDELRSRKYPRESQDQKFLEEVRKRILNGFSEDQIAKLKIMAVDLGSDEG GVAFFKGHVFEKGESLKIIKIDELFESKKNEEAEKAKGLNVHHVGRHLDVLQKKSQEIALLRQGMTNAPSNDMVQS LYPNDMRRLTSHIRRMIRDWVRLNSSQIIKLAEREQVELIVFESMRGFLAPGYDKIDPDKKRRLAFFAFGSIRRKV AEKAVERGMRWTVPYHCSSQVCAKCGKEQEDKKRFRKNKEKREFVCEDKKCNHKTNSDINAAHVCGRVFWGEINL LGKKIKIK (SEQ ID NO: 18)
>3300016590|Ga0186947_1003_42|P
[sedimento acuático-sedimento de aguas termales]
MDNNRTRYREERTLVRSLRPLDGENRNAFKNRVNRLRIHFKNFNLDVSEICQWLMSIRPDAKKPDKETKSFWDFFL NPESFFDPTINNVDIIRLNLFKVITGRESEANLIRYNLPLLLYESIILLKKQEPSDTARRLFARLKKMEPVHVMIL LKAAAEWVYARYQRLMDNHEYQYKVWHDEKSAWENKHPELTPEIREKYNSIFKELGRKQGVTIRKNPRICNWEKLE ENKDNCGYNGKRIQFGDKWKAHSMLCIEYRNFLRDNKITGKRIGFFATHAYNYLKLRAHQPRLTKDEAFKRIFKSA PNGIYWFPKAWKNYLQFMNLNELNLIRKYNANLPHCLEFKGDKDCQYNKHTELCQEYKTLLLEKFTEDELKLEGLY REWRKQYLSGPSKPAFRYPSCSKLPTPKIFGKRFHEIDFENSIVRLRLDDMPDGEYLTFKFKPWPNDYQPQPEEAE ISSVHVHFVGTRARVGFRFKIAHKQSRFKTSQDEIDELRSRKYPRQAQDADFLKAAREKLLQSFKGENPTKEIKIM AVDLGEYRGYISVYKGENIEISEPLSILKIDKLYDSLESAGVDKTDLAKYIKDHKGLIKEHVDSHLKVISEKANEI TKHRPAGKKTGASNLKDYDLRSLTAHTGWMIRDWVRLNVSQIIRIAEKHEVDLIVLESLRGWKAPGYDEFDLRKKR WLAFFSYGRIRHKLKEKAVERGMMWTVPYYKSSQICSKCGKEQENKGLWKKNKNERLFICDYPGCGHRDNSDANA AKVLAKIFWGEIVL (SEQ ID NO: 8)
>3300016590|Ga0186947_1003_42|M
[sedimento acuático-sedimento de aguas termales] MSIRPDAKKPDKETKSFWDFFLNPESFFDPTINNVDIIRLNLFKVITGRESEANLIRYNLPLLLYESIILLKKQEP SDTARRLFARLKKMEPVHVMILLKAAAEWVYARYQRLMDNHEYQYKVWHDEKSAWENKHPELTPEIREKYNSIFKE LGRKQGVTIRKNPRICNWEKLEENKDNCGYNGKRIQFGDKWKAHSMLCIEYRNFLRDNKITGKRIGFFATHAYNYL KLRAHQPRLTKDEAFKRIFKSAPNGIYWFPKAWKNYLQFMNLNELNLIRKYNANLPHCLEFKGDKDCQYNKHTELC QEYKTLLLEKFTEDELKLEGLYREWRKQYLSGPSKPAFRYPSCSKLPTPKIFGKRFHEIDFENSIVRLRLDDMPDG EYLTFKFKPWPNDYQPQPEEAEISSVHVHFVGTRARVGFRFKIAHKQSRFKTSQDEIDELRSRKYPRQAQDADFLK AAREKLLQSFKGENPTKEIKIMAVDLGEYRGYISVYKGENIEISEPLSILKIDKLYDSLESAGVDKTDLAKYIKDH KGLIKEHVDSHLKVISEKANEITKHRPAGKKTGASNLKDYDLRSLTAHTGWMIRDWVRLNVSQIIRIAEKHEVDLI VLESLRGWKAPGYDEFDLRKKRWLAFFSYGRIRHKLKEKAVERGMMWTVPYYKSSQICSKCGKEQENKGLWKKNK NERLFICDYPGCGHRDNSDANAAKVLAKIFWGEIVL (SEQ ID NO: 7) >3300010938|Ga0137716_10003017_35|M
[sedimento acuático-aguas termales-aguas termales fe si] MVASRYREARTLVRRLGRLPGEGEASFRAKLARLRKHFERFNVDVSELCQWLMGLRKQHCHKAGTASFGVLGDFLL HPESSNVAPGEAEADRWRLLVFDAVAGICPAKQLTNAPMPRGLPEAMEREAKRLADLEWRRRNTTQSKLIDRLAIL EPAHRLVLLKAAAEWWSRYQRGLENWAARRGEWEKERHAWEKRHPALSEEVRQRFTEVFKSLNDPERTDKPGVRR KNPRICPYERLRANIDNCIYAGEKGHGALCWKYAEFVKARKTRQPQFNDKRFAEDAEKVLPLLKQGMKRHQALQRL FPRDRPHGQLAQQRFNENWTAYLQALGLKEERWNRGRLPHCLKIGETHEKSKCAWNPHTELCKQYKRALDQFDEE TLKLEPLYREWRRDYLAGPGKPQFRYPSSRELPMPKIFGAGFHEIDFDRSILRLRLEDMPEGEWIEFGFAPWPRGY RPSKEEVKVKGAISSVHVNFVGVRARAGFRFDVRHRASRFQCTQDELDQLRSRAYPRRAQDREYLDAARKRLLESF AEGEEAAKRELRLLAVDLGETGACAAVYHGHAHQKDVQLAILKINRLYTQLPEALEPDPHGRPEEGKRKYERDDPR GVRKEHMGRHLKRMADGAASIAARRQGTMPATVTMAGHDFRGLKRHVTWMIRDWARHNAARIVAAAEEHGCDLIVF ESLRGQKVPGYHELSSEKERDKRQLAMLSYGRIRHKVREKAVERGMRWMVPDYRSSRLCSSCGHEQCAEKWQERR WRENKKKRLFKCVCGEPAPTEKPHHGGSAPDRQRAARRDGPGPGKRPGMAADQAKQRCRCGAEMNSDANAARVLAR VFWGEITPPASERSFAGSA (SEQ ID NO: 19)
>3300010938|Ga0137716_10003017_32|P
[sedimento acuático-aguas termales-aguas termales fe si] MGLRKQHCHKAGTASFGVLGDFLLHPESSNVAPGEAEADRWRLLVFDAVAGICPAKQLTNAPMPRGLPEAMEREAK RLADLEWRRRNTTQSKLIDRLAILEPAHRLVLLKAAAEWWSRYQRGLENWAARRGEWEKERHAWEKRHPALSEEV RQRFTEVFKSLNDPERTDKPGVRRKNPRICPYERLRANIDNCIYAGEKGHGALCWKYAEFVKARKTRQPQFNDKRF AEDAEKVLPLLKQGMKRHQALQRLFPRDRPHGQLAQQRFNENWTAYLQALGLKEERWNRGRLPHCLKIGETHEKS KCAWNPHTELCKQYKRALDQFDEETLKLEPLYREWRRDYLAGPGKPQFRYPSSRELPMPKIFGAGFHEIDFDRSIL RLRLEDMPEGEWIEFGFAPWPRGYRPSKEEVKVKGAISSVHVNFVGVRARAGFRFDVRHRASRFQCTQDELDQLRS RAYPRRAQDREYLDAARKRLLESFAEGEEAAKRELRLLAVDLGETGACAAVYHGHAHQKDVQLAILKINRLYTQLP EALEPDPHGRPEEGKRKYERDDPRGVRKEHMGRHLKRMADGAASIAARRQGTMPATVTMAGHDFRGLKRHVTWMIR DWARHNAARIVAAAEEHGCDLIVFESLRGQKVPGYHELSSEKERDKRQLAMLSYGRIRHKVREKAVERGMRWMVP DYRSSRLCSSCGHEQCAEKWQERRWRENKKKRLFKCVCGEPAPTEKPHHGGSAPDRQRAARRDGPGPGKRPGMAAD QAKQRCRCGAEMNSDANAARVLARVFWGEITPPASERSFAGSA (SEQ ID NO: 20) >3300006865|Ga0073934_10000021_236|M
[sedimento acuático-aguas termales-aguas termales] MHPSRYKTARTLVRRLCRLPGEDRSAFRSKVGLLRGHFEQFNVDVSELCQWLMSLRKRNKVPENPATFGALGDFLL QPGLPGEETDEKEADRLRLAVFDAVAGFRMLEDRLAASIPASLSDAIRDEAVFLAGVRAAGKPSGLARVLARLEAC APAQRLVLLKSAAEWIVARFLRGTENWMRQRAEWEKEKAAWEAAHPHLTPEVRAQFNKIFESLHDPENSGKPGVSR KNPRICPWDRLKQNLDNCCYGEKGHSALCWRYQDFLKQRMGENRRDKKNFSATAMDLAQICREWKIQHSRNALNNP RVLDRLFAEHERRKQDKTKKESRSPKPRQGGYKANPKADYLRSFKAHWKAYLEHMKLNDTTVLERGCLPHCLSIKK NGKESTCKWNKHTELCLEYKRSLAPLPDSVLELEPEYREWRRLYLHGPGRPHFRYPSAGELPLPKVFGEGFHQVDL DRSIVRLRLEGAAEGEWLEFGFIPWPRGYQPSRREVLITSVQVHFVGTRPRAGFRFDVSHRTSRFGCSQDELDELR SRRYPRQAQDKEFLAAARAQLIQTFEGGEGAARQQMRVMSVDLGEGGACASIYEGRTHQKDESLKVIKIDRRYDQH PEVLEKDVGAAKPQKFEKSDPRGVRKEHVARHLNRIAAGASAIAEHRRKERSDAECSVGELQEHDFRSLKRHIAWM IRDWVRLNAAQIIDVAKQHCCDLIVFESQRGFRLPGYDELDRGKKQRFAILAFGRIRRKWEKAVEHGMRWTVPY FASSQVCSACKRVQENRGSWRENKKKRVFACEFCKLKLNSDANASRVLARVFWGEIELPEPTRAHLPSKA (SEQ ID NO: 5)
>3300006945|Ga0073933_1000004_588|P
[sedimento acuático-aguas termales-aguas termales]
MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAE PTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRL KDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRIC PAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRY MNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSV KRHSIAKIFGENYFQADFKNSWGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRV PHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQA FPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAA KKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRI RRKVTEKAVERGMRWTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEI ELPTAIP (SEQ ID NO: 6)
>3300007071 |Ga0073930_1000342_16|M
[sedimento acuático-aguas termales-aguas termales] MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAE PTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRL KDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRIC PAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRY MNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSV KRHSIAKIFGENYFQADFKNSWGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRV PHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQA FPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAA KKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRI RRKVTEKAVERGMRWTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEI ELPTAIP (SEQ ID NO: 6)
>3300022554|Ga0212093100001156|M
[sedimento acuático-aguas termales-aguas termales] MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAE PTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRL KDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRIC PAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRY MNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSV KRHSIAKIFGENYFQADFKNSWGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRV PHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQA FPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAA KKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRI RRKVTEKAVERGMRWTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEI ELPTAIP (SEQ ID NO: 6)
>3300025094|Ga0209478_1000005_814|P
[sedimento acuático-aguas termales-aguas termales] MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAE PTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRL KDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRIC PAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRY MNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSV KRHSIAKIFGENYFQADFKNSWGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRV PHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQA FPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAA KKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRI RRKVTEKAVERGMRWTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEI ELPTAIP (SEQ ID NO: 6)
>3300025105|Ga0209479_1000006_88|P
[sedimento acuático-aguas termales-aguas termales] MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAE PTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRL KDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRIC PAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRY MNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSV KRHSIAKIFGENYFQADFKNSWGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRV PHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQA FPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAA KKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRI RRKVTEKAVERGMRWTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEI ELPTAIP (SEQ ID NO: 6)
>3300025310|Ga020917210000050165 P
[sedimento acuático-aguas termales-aguas termales]
MHPSRYKTARTLVRRLCRLPGEDRSAFRSKVGLLRGHFEQFNVDVSELCQWLMSLRKRNKVPENPATFGALGDFLL QPGLPGEETDEKEADRLRLAVFDAVAGFRMLEDRLAASIPASLSDAIRDEAVFLAGVRAAGKPSGLARVLARLEAC APAQRLVLLKSAAEWIVARFLRGTENWMRQRAEWEKEKAAWEAAHPHLTPEVRAQFNKIFESLHDPENSGKPGVSR KNPRICPWDRLKQNLDNCCYGEKGHSALCWRYQDFLKQRMGENRRDKKNFSATAMDLAQICREWKIQHSRNALNNP RVLDRLFAEHERRKQDKTKKESRSPKPRQGGYKANPKADYLRSFKAHWKAYLEHMKLNDTTVLERGCLPHCLSIKK NGKESTCKWNKHTELCLEYKRSLAPLPDSVLELEPEYREWRRLYLHGPGRPHFRYPSAGELPLPKVFGEGFHQVDL DRSIVRLRLEGAAEGEWLEFGFIPWPRGYQPSRREVLITSVQVHFVGTRPRAGFRFDVSHRTSRFGCSQDELDELR SRRYPRQAQDKEFLAAARAQLIQTFEGGEGAARQQMRVMSVDLGEGGACASIYEGRTHQKDESLKVIKIDRRYDQH PEVLEKDVGAAKPQKFEKSDPRGVRKEHVARHLNRIAAGASAIAEHRRKERSDAECSVGELQEHDFRSLKRHIAWM IRDWVRLNAAQIIDVAKQHCCDLIVFESQRGFRLPGYDELDRGKKQRFAILAFGRIRRKWEKAVEHGMRWTVPY FASSQVCSACKRVQENRGSWRENKKKRVFACEFCKLKLNSDANASRVLARVFWGEIELPEPTRAHLPSKA (SEQ ID NO: 5)
>3300019846|Ga0197078_1002_15|M
[sedimento acuático-aguas termales] MKNPKYREERTLTMGIRSFPLEDKSHFKEKVRKLRKFFEIFNKDVADLCQWLIVFRKGGKSENIPIWEFFINPLES IKDISEDQADELKRKVLDVIIGNESINNIRNEKLPTEVLKYLENLDDNWNQSVQELFKRMKDKKPSHRQILLKAAS NLIYSRYYKTLENREKQKEEWKKERDTWQRKNPDLKEDIRTKYTEVYKQLGIKRKAPRICEWEKLKNWKHNCTYSS NKQHTERCFDFNKLFSSADNKKKRKWFIDNAHLYLQYLSKSNQKDALKQLYHKKKGSEKWFGRLWNDYLKLMKISE QDILTKYHClLPHClSENLGSAKYREYFDNSEYGFARSEFGKCANTYLGSRKKGSNKADSLQMVYGKHKSNIDERF EEIWNDYLKFIKKTEEEAIIEYNHSLPVYLKSDYCQFRPHGDKCKQYRDLLADFTEVEKSLEKKYREWRKSYLSGP GKPQFRYPSAKTIAIPKLFGSGYFRIDFEESILNLKLENDEWLSLGFKPWPKRKDYDIHYSDIEIPSVSIHFVGTR AKVGFRFKVKHKESRFKVAQEEIDKLRSQKYPRQYQDNDFLKEARELLLKDFDGDKNEMKILAFDWGETGAYAALF TGEKYEKGFQLPVLKFEKLYCSDKFKEAWDQKKKEQKWSKDESKAKLKEYKLKGLTKGHVGKHLENISEKAVKIAE IRGEKKDEKLLRPSDLRRLFSHSAWMIRDWVRLNTKQLIKIAEKNEVDLIVFESMRGSAPPSYDKLEEITEKIKWA FFSLGRIRHKVTEKAVERGMRTITVPYVKSSQVCFDCGKEAEDKKKWQHHKTELTKFICEHCPADLNSDENAARVL CKVFWGDITLPSTEWEK (SEQ ID NO: 21)
>3300023207|Ga0255811_11223672_52|P
[digestato de biorreactor-anaeorobio-digestor anaerobio] MTRIKYRQERTLVRGLQRLPNQDKAEFNKNVLGLRRHFEQFNLNVAELCQWLISFKPENPGSVCETKLFWEFMLEP ENFCPDTYDRGPDWLRHEIFVLAAGWRTFEDIKAHNMPESLFESIKIASSKPRSKTAEALFIRLKSLEASHVMVLL KSASEWLSTRYVRQSENWKQNEQEWQKKKAAWEDKHPELTPAIRDKYNAIFVELGISEKRPHVCSWKKLSENKDNC DWAGERKNIGDKWISHSDLCIKYHEFARKLRSKQRQHFVDNANQYLELRRRYPQWTRDMAMNGLFKNVPLARNWFR NAWTNYLNALNILETTILENYSGHLPHCEKLSDECVFKKHTDNCRRYKLLLGEKLSNQERELEETYREWRREFLAP PNKPFLRYPSAQKLPTPKLFGRGYYDLDFTRHWKLRLDDMPADNFVSFGFKPWPRGYDKKPGEINITSVHVHFIG TRARVGFRFAVPHSDSRFSVSQDKIDELRSGGFPGKSQDQEFLNEARQRLLDGMNENQKSALRIMAVDLGTHRAAA AFFTGCIFNKAKLLKLKKIDLLTEPKTDTTKPEKLSADEKKIQREKGLTQHHVGKHFETLEARTKEIISKRQNMKM APSDDTPDIVGDHDLRHLTSHIRRMIRDWVRLNARQITELAEEENVDLIVFESMRGFRAPGYDKLDLKKKRRLAFF AYGQIRRKVAEKAVERGMRVITVPYFKSSQICAQCGRSQNDKNKLRDNKWKQSFQCEFSDCNYKTHSDENAARVLG RVFWGEITLPTD (SEQ ID NO: 1)
>RKX31836,1
[bacterias de división candidata Zixibacteria bacterium.] MNRTRYREERTITRGMRRLPGEERKSFKAKVITLRRNFEQFNTDVSEICQWLMSIRPNGKHNIPNTEPFWDFILEP HNFWNQEETNIDSVRLWFEMAVGWRQVTDVANFELERQLLMSLESIQSVPRTIAAKRMLQRIKNYEFQHKMVLL RSAVEWINTRFIRTYKNWEMNIKEFLEKKKVWENDHPKLTEEIRNTFNKVFDELEISKKNPNICRWSHLKKNRDNC NYAGVRIKVGGEYNNHSEKCKRYQDFLKKHSAHKKYFAANAMMYINIRKKRRDLTKREAIKVLLDKIPQARSWFPQ AWDNYLEYLGLNEISLINKFDGQLPHCLRLDTECIYNVHTQSCRKYYVLLKDLPDKYLSLEETYREWRKYFLREPR KPVFAYPSTRQRTVSKIFGRDYFEADYDNSIIKLRLDDMAEGQFLSFGFKPWPVDYDVQPIDTEITSVLVHFIGTR ARVGFRFKMPHRPSRINIKQDELDELRSRSRLIQEKDQALLEKVRLRLRDGFIGIFDKELRVLAVDLGTSSCATAF FVGRQFQESSRLQIVKYDRVYKSNYEIKKRRNNKGIDKQKQLLFKEKGLNQYHIKVHLDKLAEQNKQIIKKREASG NPTPTEQDMRRLSLHIGWMHRDWVRINASQIIKSAKKLRADLIVFESLRDFRPMMFNEFDIDKKRRLAFFPFGLIR HKVIEKAVESGMRWTVPYMFSSQFCGACGRQQNDKKRLQKNKTDKRGACFICEYNDCAFEGDPDENAARVLGGVF WGNIGLPLS (SEQ ID NO: 4)
>FLYL01000025_159|P
[metagenoma de aguas termales] MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAE PTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRL KDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRIC PAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRY MNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSV KRHSIAKIFGENYFQADFKNSWGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRV PHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQA FPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAA KKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRI RRKVTEKAVERGMRWTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEI ELPTAIP (SEQ ID NO: 6)
>0RFD01000444_4|P
[metagenoma de sedimentos]
PAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAE
FFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRL
RMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRIC
NKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRY
LRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSV
IFGENYFQADFKNSWGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRV
DCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQA
IEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAA
FDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRI
AVERGMRWTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEI
(SEQ ID NO: 6)
1000005_848|P
oma de sedimentos]
PAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAE
FFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRL
RMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRIC
NKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRY
LRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSV
IFGENYFQADFKNSWGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRV
DCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQA
IEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAA
FDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRI
AVERGMRWTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEI
(SEQ ID NO: 6)
7640|Ga0209347_1003758_14|P
terrestre-profundo]
ESRTLVRRLRRLPGESREEFRGKVRRLRKQFAQFNVNASELCQWLMSLRPGGKKASDRTKEFWEFFLEP
DDDRCDACRLAVFDVAAGLAPADRLGDYGVSQALAESVHVIGQISLTPTAAKLFTRLCGFEASHRQVLL
VAHYLRGYENWVRRHEEWEKEKARWEASHPELTQAARDDFNRIFKDLGIERKRPRVCTGERLKANKDDC
PVGGTWRNHSSLCVKYWRFLKEYPRKARVPRQFREFFVTNAKTYMDLRRTSRGDRSVTMAAFLRKQRNA
EAYLKALEVNEQTVLAAGYGLPHCTEIGPDADCQFNKHTADCEKYRRALDARPDLLPLEKLYRHWRREY
CFQYPSQRKLPMPKIFGRGYFRVDLASSIIELRMEGGRDFERFRIAAWPSDYTPSAQEAQITSVHVSFV
FRFEVPHKASRFAAGQDQIDELRSRKYPRRAQDAEFLVAARKRLLESFAGGAEHDVRILAVDLGTSNGA
SLEKAMPLDVIKLEKLHSSSPKENRGAGPEPSEEERKKARARGLRPSHVGRHLENWALAAREIANQRGN
LGDHDLRRFSLHIRWMIRDWVRLNVSQIIEAAEGNHVDLIVFESMRGWRAPGYDTVDDEKKRRLAFFAH
REKAVERGMRWTVPYFMSSQFCGSCGTQQQDTRKLKTNKRERTSFTCENCGHRANSDENAAQVLAKVF
EDPDDCS (SEQ ID NO: 22)
7640|Ga0209347_1003758_16|M
terrestre-profundo]
LPGESREEFRGKVRRLRKQFAQFNVNASELCQWLMSLRPGGKKASDRTKEFWEFFLEPERFLENQDDDR
VFDVAAGLAPADRLGDYGVSQALAESVHVIGQISLTPTAAKLFTRLCGFEASHRQVLLKAAAEWIVAHY
VRRHEEWEKEKARWEASHPELTQAARDDFNRIFKDLGIERKRPRVCTGERLKANKDDCDWAGERIPVGG
LCVKYWRFLKEYPRKARVPRQFREFFVTNAKTYMDLRRTSRGDRSVTMAAFLRKQRNAQWFPQAWEAYL
QTVLAAGYGLPHCTEIGPDADCQFNKHTADCEKYRRALDARPDLLPLEKLYRHWRREYLSGPGKPCFQY
MPKIFGRGYFRVDLASSIIELRMEGGRDFERFRIAAWPSDYTPSAQEAQITSVHVSFVGTRALAGFRFE
FAAGQDQIDELRSRKYPRRAQDAEFLVAARKRLLESFAGGAEHDVRILAVDLGTSNGAVAVFRGRSLEK
KLEKLHSSSPKENRGAGPEPSEEERKKARARGLRPSHVGRHLENWALAAREIANQRGNEADGPATLGDH
HIRWMIRDWVRLNVSQIIEAAEGNHVDLIVFESMRGWRAPGYDTVDDEKKRRLAFFAHGRIRHKIREKA
TVPYFMSSQFCGSCGTQQQDTRKLKTNKRERTSFTCENCGHRANSDENAAQVLAKVFWGDWLPEDPD
Q ID NO: 23)
7657|Ga0256865_1003050_2|M -suelo]
EERTLVRGLRRLPGQSREQFRKNVLLLRRHFERFNVDVSDICQWMMGLRPKDGEVTPATQPLWDFMLEP
QGDPDRMRLLAFRVATGVEHSQSGVRLPLHVQESLRHVAALTSTESARRLILRFQQLEQSHQMILLKSA
YSNANENWQRNRPLWEKEKAEWEKEHPALTPDACRKFSDIFKELGIKDKRPRICGWNRLKLPKDNCDYA
RHAPLCKFYREFQAGLRREYKKQFPDNALKYLALRKQKGHTQAWLQQFCAKDRRKSGWFPKAWMTYLQ
TLIQRYQGQLPHCVKIDNKTGCSFNPHTNDCLEYKKRILKLPESDRELETQYREWRRDYLSGPRKPSFR
PTPKIFGAGYYEADFTRSMLRLRLDDMPRGRFIEFGFKPWPSDYDIQPVSTQITSAHIHFIGTRARVGF
PSRLRISQDEIDALRRQYPRAAQDQQFLDHVRPLILDSFAGNPKQELRILTIDLGTSGGAAAAFCGVTL
VIKLDKLYDLLDREDKRSPTSGLGEGHVGRHLEALSKEAAKIAQHRTTWKNPGLRPFDERQLTSHIRWM
NAQQIIEIAERENADLILFESMRGYYPKARDKYDSAQKVRLGFFSYGAIRRKVAEKAVERGMRILTLPY
SKCGRKQENRGLKTKKAKRLFKCEHTGCGTELNSDENAARVLAGVFWGTIKLPEKAWSHT (SEQ ID
Figure imgf000049_0002
_________________________________________________________________________
Tabla 5A. Efectores y repeticiones directas de CLUST.019143 (tipo V-G) representativos
Figure imgf000049_0001
Figure imgf000050_0001
Tabla 5B. Secuencias de pre-ARNcr de CLUST.019143 (tipo V-G) de ejemplo
Figure imgf000050_0002
Figure imgf000051_0001
Ejemplo 2. Identificación de elementos de ARN transactivador
Además de una proteína efectora y una guía de ARN (por ejemplo, un ARNcr), algunos sistemas de CRISPR también incluyen un ARN pequeño adicional que activa una actividad enzimática sólida denominada ARN transactivador (ARNtracr). Tales ARNtracr incluyen normalmente una región complementaria que se hibrida con el ARNcr. El híbrido ARNcr-ARNtracr forma un complejo con un efector dando como resultado la activación de la actividad enzimática programable.
• Las secuencias de ARNtracr pueden identificarse mediante la búsqueda de secuencias genómicas que flanquean a las matrices de CRISPR en busca de motivos de secuencia corta que sean complementarios a la porción de repetición directa del ARNcr. Los métodos de búsqueda incluyen coincidencias de secuencias exactas o degeneradas para la repetición directa completa (DR) o subsecuencias de DR. Por ejemplo, una DR de n nucleótidos de longitud puede descomponerse en un conjunto de 6-10 nt kmeros solapantes. Estos kmeros pueden alinearse con secuencias que flanquean a un locus de CRISPR, y pueden identificarse regiones de homología con 1 o más alineaciones de kmero como regiones de homología con DR para la validación experimental como ARNtracr. Alternativamente, puede calcularse la energía libre de coplegamiento de ARN para d R completas o subsecuencias de DR y secuencias de kmero cortas de la secuencia genómica que flanquea a los elementos de un sistema de CRISPR. Pueden identificarse elementos de la secuencia flanqueante con estructuras de energía libre mínima baja como regiones de homología con DR para la validación experimental como ARNtracr.
• Los elementos ARNtracr aparecen con frecuencia en proximidad estrecha a genes asociados a CRISPR o una matriz de CRISPR. Como alternativa a la búsqueda de regiones de homología con DR para identificar elementos de ARNtracr, pueden aislarse secuencias no codificantes que flanquean a las proteínas asociadas a CRISPR o a la matriz de CRISPR mediante clonación o síntesis de genes para la validación experimental directa de ARNtracr.
• La validación experimental de elementos de ARNtracr puede realizarse usando secuenciación de ARN pequeño del organismo huésped para un sistema de CRISPR o secuencias sintéticas expresadas heterólogamente en especies no nativas. Puede usarse la alineación de secuencias de ARN pequeño del locus genómico de origen para identificar productos de ARN expresados que contienen regiones de homología con DR y procesamiento estereotipado típico de elementos de ARNtracr completos.
• Los candidatos completos a ARNtracr identificados por secuenciación de ARN pueden validarse in vitro o in vivo expresando el ARNcr y el efector en combinación con o sin el candidato a ARNtracr, y monitorizando la activación de la actividad enzimática del efector.
• En constructos modificados por ingeniería genética, la expresión de ARNtracr puede impulsarse por promotores que incluyen, pero no se limitan a, los promotores U6, U1 y H1 para la expresión en células de mamíferos o el promotor J23119 para la expresión en bacterias.
• En algunos casos, puede fusionarse un ARNtracr con un ARNcr y expresarse como una sola guía de ARN. • En algunos casos, el sistema CLUST.019143 (proteína efectora de CRISPR-Cas de tipo V-G) incluye un ARNtracr que incluye una secuencia de homología de repetición directa enumerada en la tabla 6.
• En algunos casos, el sistema CLUST.019143 (proteína efectora de CRISPR-Cas de tipo V-G) incluye un ARNtracr codificado por una secuencia no codificante (o un fragmento de la misma) enumerada en la tabla 7. Obsérvese que en (SEQ ID NO: 131), la secuencia de ARNtracr de Cas12g1 se indica en negrita.
Tabla 6. Regiones que contienen homología con repeticiones directas de sistemas CLUST.019143 (tipo V-G) representativos
Figure imgf000052_0002
Tabla 7. Secuencias que contienen homología con repeticiones directas de sistemas de CRISPR-Cas CLUST.019143 (tipo V-G) representativos
Figure imgf000052_0001
AACAGCGACGAAAACGCCGCACAGGTGCTGGCGAAGGTGTTCTGGGGCGACGTCGTTCTACCCGAGGATCCGGAC GATTGCTCTTGACGAAGATATCGAAGGTGGTATAGTGCCCTTGTGTCCTCGTCGTGAGTCGATAATGGCTCGGAC AAACCCCGGCGGAGCCTTCGGTGCCAACGGGAGGAACCTGAGCCCGGAGGATACAAACTCTCTAATTCGTGGTTG ATATGGCGATCAAGAATGCGGTTTCTTTCAGGCAATTGTGTCGCAACTCTTTGTCGATCCAGGGATTACGACGGG ACA (SEQ ID NO: 118)
>3300027640|Ga0209347__100375816|M CCAGACAGCGAAAATGCTGAATAATCCCGGGGACGGCATACCTAATTGGGTTCCAGATTGCCCAGCAGGCAGAAG AGAGCGTTTATCGCATTTGGGGTGCCGGCGGAGAGGGGGCGGGCCAAGGGTGTCACTGGATGTCTCCGCTGGTAC CCGGCAAAGCGTCAAACGCAATCAATCCCGGCCGAAGGCCTTCCGCT (SEQ ID NO: 119) >3300028920|Ga0272441_J0052198_2|M AGTACGCGGGCACGCGGGGGCGTGTTTAGTACGCAGGCACGCGGGGGCGTGTTTAGTACGCGGGGGCGTGATTAG TACAAAGGGGCAAGTCAGGTATACATCATTAAAGATGTCGAAACCGCAGGGGTTTCGACCTACTCGAAGAAAGAA GGTGTCGGAACGGCCTGCATCATGGGGTTTGGGAGGGGGATTGGGGGCTATTTGAATCGAAACAAAGTTGATATT GTCCCTATGCGGGGGATTGTTTGTAGTGTTGTTCGAGTAAGACCAGGTTTTCATCGGGGATGCGGCCTTTTTCAA AAGAGTCGAC (SEQ ID NO: 120)
>JRYK01000049_79|M CGAGCGCGCGCTTCAGCACGAAGCACGAGGTGCGGCTGCCGGTTGCATTGCGGCAGAATGATTGGCCCGCCTGTT CACGCTTTCCCGACCGGCAGTGGAAAACAAACGTCCCGCACGTCGCAGTTCGTGGCTTAGTTGATGCGTGCGCGT GGGCCGATTGACGGGCGCGCTCGGCTCCGCCTCGCGGCTAA (SEQ ID NO: 121)
>RIK66295.1 TTTCGACACCTGCGCACCGACTTCAAAGCACCATCGGTTGGGTGCGACCGGCCGTCGATTGACCGGTTTCGACAC CCCGCTTTGCACAGCGGCAGCAGACAAGGATGGTGCGACCGGCCGTCGATTGACCGGTTTCGACACCACTCCGCC TCGACGGTCTTAACCAGTTCTGGGTGCGACCGGCCGTCGATTGACCGGTTTCGACACCCTGGACGTGTCGGGCAA TACTTCTGTCGGAGGTGCGACCGGCCGTCGATTGACCGGTTTCGACACCTACGCCACGGCAAAGCACCTGATCAG CTCGGGT (SEQ ID NO: 122)
>RIK66295.1 TGCTCCACTGGGCGATGTATGCCTGCACCACTGGGGGTGCTGCACGCGGCGGCGCAGCGCCTACAATGGCGCCGC GGAAGGGGAGCGCGGCGCGGTCATGGAACCCACGACGATTGAGATCAGGAACGCGCGGGAGCATAACCTGCGGTC GGTGTCGCTTTCGTTGCCGCGGGGGAAGCTGATTGTCTTCACCGGGGTTTCGGGCAGCGGGAAGAGTTCGCTGGC GTTTGACACGCTCTATGCCGAGGGGCAGCGGCGGTATATCGAGTCGTTGTCGTCGTATGCCCGACAGTTCATGGG GCAGATG (SEQ ID NO: 123)
>RIK66295.1 TATGCCGAGGGGCAGCGGCGGTATATCGAGTCGTTGTCGTCGTATGCCCGACAGTTCATGGGGCAGATGGCCAAG CCGGACTGCGATCAGATCACGGGGCTTTCGCCATCGATCGCGATTCAGCAGAAGACGACGGGATGGAATCCGCGG TCGACGGTGGGGACGACGACGGCGATCTATGACTTTCTGCGCGTGCTGTACGCGCGGATCGGGACGCAGCATTGC ACGCAGTGTGGGCGGGCGATCACGGCGCAGTCTCGCGAGCAGATCGCGGCGGGGATCTTGAGCGCGTTTAATCCG CGCCGCG (SEQ ID NO: 124)
>RIK66295.1 GGCGGTATATCGAGTCGTTGTCGTCGTATGCCCGACAGTTCATGGGGCAGATGGCCAAGCCGGACTGCGATCAGA TCACGGGGCTTTCGCCATCGATCGCGATTCAGCAGAAGACGACGGGATGGAATCCGCGGTCGACGGTGGGGACGA CGACGGCGATCTATGACTTTCTGCGCGTGCTGTACGCGCGGATCGGGACGCAGCATTGCACGCAGTGTGGGCGGG CGATCACGGCGCAGTCTCGCGAGCAGATCGCGGCGGGGATCTTGAGCGCGTTTAATCCGCGCCGCGATCCCACCT ATCAGAG (SEQ ID NO: 125)
>3300006865|Ga0073934_J 0000021_236|M AGCCGACGAGAGCGCATTTGCCCTCCAAGGCTTGACTCTTTTTCCAGCCGTGGCTACGCTGTTAATGCCCTTCGA GTCGCATTGTCCTGCATACGCCCGGCGGAACTTCGGTACCAACGGGACGGACCCCGGACACGAAAGGCAAATGCT GTGTTTTTGTGGCCTGCCGGTTTGGAACGTCACGGTTTTGTGGGCGGTTTTTTTTGACGCAAGTCCTTGTCAGAA GCGAATTTGCAGACGAGAC (SEQ ID NO: 126)
>3300010938|Ga0137716_J 0003017_35|M TTCGAGTCATTTGCCTGGAATACGCCCTGCGGACGTTTTCGACCAACGGGATGGACCCCTGGCGCTGAAGGCAGA ATCGGTTTTTCCCGGGCGGTTTCGGGAGGCGAACGAGCGGTTTTTTCGAGGTGGAACTGGCGCAAGTCGTGTCCG TTCCGGGGCTTGTTTGCCAAGAG (SEQ ID NO: 127) >3300023207|Ga0255811_11223672_52|P AATTACTCTCCCCACCGATTGATAGTTGAAAAAACTTGACAGACAGCTTAATTTAAGTTATGTATAATCAGTTGC TTCGTGGTCCCTCTGGCCGGAAAAACCTCTGGCGGAGCGCAAGCACCAATAGAGAGGAACTCGGCCCAGAAGCGA GGAAACCGACAATTAGGGGTTTAATTATTGAAGGAACTTTAAAGATTTTGTGACGGACGGAATAAATTAAGTTCA AATCGCGTATGATTATATGAATGATGA (SEQ ID NO: 128) >3300023207|Ga0255811_j1223672_52|P AAGGTCGACAAAGATTTCGGTTGGTTATAAATGAACGAGGAGGGGCAGATGTGGACATCTGCCGCCCACTTGAGT CTGGGGCGATAAGCTGATTGTCGGGGGAGGTTTCACCACCGCTGGGGGGATCGATGTGAATCGTATTGCCGCCTG GGGGCCGCAATAATAAATTAAACGGCGTCAGGAAGAGGTTCCAGATGCCGCTCAATACCCATAGCACTTAGCCCT TGCCTTAACAATGAATTGTGTCTATTTTGAGGGCTGTCTTATAAATAGAAAAGATATCAAGATAAGTTGTCGAAA CCGCAGGG (SEQ ID NO: 129)
>3300023207|Ga0255811_11223672_52|P CCTGGGGGCCGCAATAATAAATTAAACGGCGTCAGGAAGAGGTTCCAGATGCCGCTCAATACCCATAGCACTTAG CCCTTGCCTTAACAATGAATTGTGTCTATTTTGAGGGCTGTCTTATAAATAGAAAAGATATCAAGATAAGTTGTC GAAACCGCAGGGGTTTCGACCTAAAAGAATTATGTCTGACGAAGAAAAAAAAGAGAAGACCAAATCCGAGATGCC GTTTCTGGATCATATCGAGGAACTGCGCTGGCGGTTGATCAAGTCCATTTTATCGGTTGCCGTGATGGCCATCCT GGCCTTTA (SEQ ID NO: 130)_____________________________________________________
Figure imgf000054_0001
Ejemplo 3: Cribado in vivo exhaustivo y escalable de sistemas de CRISPR-Cas sintéticos
Para evaluar exhaustivamente la funcionalidad de los sistemas de tipo V identificados informáticamente, se añadieron varios atributos clave al cribado de selección negativa in vivo basado en E. coli de sistemas de CRISPR-Cas sintéticos descritos previamente para el descubrimiento del subtipo de tipo VI-D (Yan et al., 2018). En particular, estas características clave fueron la inclusión de secuencias no codificantes en el sistema de cribado de CRISPR-Cas sintético, el direccionamiento de secuencias espaciadoras derivadas tanto de plásmido pACYC184 como genes esenciales de E. coli en la biblioteca de cribado de matrices de CRISPR mínimas y, por último, la inclusión de identificadores moleculares únicos (UMI) en constructos de cribado. En conjunto, esto permitió una mayor capacidad para interrogar sistemática y cuantitativamente los sistemas de CRISPR-Cas.
Como una visión general del cribado de selección negativa in vivo, en primer lugar se sintetizó un plásmido que contiene secuencias con codones optimizados para E. coli que codifican para supuestos efectores y proteínas accesorias bajo el control de promotores lac y T7 inducible por IPTG (plásmido efector, figura 4A). Para capturar las secuencias no codificantes requeridas para cada sistema, tal como el ARNtracr, se concatenaron las secuencias no codificantes que flanquean a la matriz CRISPR, el efector supuesto o los marcos de lectura abiertos accesorios, y se predijeron anti-repeticiones indicativas de elementos de ARNtracr. Las secuencias no codificantes se clonaron en pACYC184 y se expresaron mediante los promotores lac y T7 inducible por IPTG (plásmido no codificante, figura 4A). Para la matriz de CRISPR mínima, se diseñaron grupos de síntesis de bibliotecas de oligonucleótidos (OLS) que comprenden dos repeticiones directas que flanquean a secuencias espaciadoras de longitud natural dirigidas al plásmido pACYC184, genes esenciales de E. coli seleccionados y espaciadores de control negativo no dirigidos para un total de 8900 elementos en la biblioteca de matrices. Estas secuencias se colocaron bajo el control de un promotor J23119 y se clonaron en el plásmido efector tanto en la orientación directa como en la inversa para obtener una biblioteca total de -18.000 elementos de plásmido (figura 4A).
La biblioteca de plásmidos efectores de CRISPR y/o el plásmido no codificante separado se cotransformaron en E. coli electrocompetente, seguido de 11 horas de crecimiento. Durante el crecimiento, la interferencia de CRISPR-Cas programable por ARN daría como resultado la pérdida de resistencia a antibióticos basada en plásmidos o la autoselección como diana de genes esenciales, lo que conduciría al agotamiento de bacterias que contienen sistemas de CRISPR-Cas en funcionamiento. Se usaron secuenciación de última generación de elementos de matrices de CRISPR en la biblioteca de plásmidos efectores y comparación de la frecuencia de elementos individuales en las muestras previas a la transformación y posteriores al crecimiento para identificar matrices de CRISPR fuertemente agotadas que confieren actividad de interferencia. La secuenciación simultánea de ARN pequeño de las células supervivientes permitió la identificación de los elementos no codificantes requeridos para la actividad, tales como ARNcr maduro y ARNtracr (figura 4B). La canalización para el descubrimiento, la reconstrucción y la evaluación sistemáticos de los diferentes componentes de los supuestos sistemas de CRISPR-Cas es un método generalizable para la búsqueda eficiente y completa de nuevos sistemas de CRISPR-Cas con actividad de interferencia in vivo. Usando este enfoque, se identificó una actividad robusta para el subtipo V-G descubierto en este trabajo.
Síntesis de genes y clonación de bibliotecas de oligonucleótidos
Las secuencias de proteínas con codones optimizados para E. coli para proteínas accesorias de efectores[?] de CRISPR se clonaron en pET-28a(+) (EMD-Millipore) para crear el plásmido efector. Las secuencias no codificantes que flanquean a los genes Cas (incluidos 150 nt de la secuencia codificante de CDS terminal) o la matriz de CRISPR se sintetizaron (Genscript) en pACYC184 (New England Biolabs) para crear el plásmido no codificante (figura 4A). Los plásmidos mutantes efectores (por ejemplo, D513A o A513D) se clonaron mediante mutagénesis dirigida al sitio utilizando los cebadores indicados en la tabla de secuencias: en primer lugar se introdujeron cambios de secuencia en fragmentos de PCR, que luego volvieron a ensamblarse en un plásmido usando NEBuilder HiFi DNA Assembly Master Mix o NEB Gibson Assembly Master Mix (New England Biolabs) siguiendo las instrucciones del fabricante.
Para la biblioteca de espaciadores agrupados, en primer lugar se diseñó informáticamente un grupo de síntesis de biblioteca de oligonucleótidos (OLS) (Agilent) para expresar una matriz de CRISPR mínima de secuencias de “repetición-espaciador-repetición”. Los elementos de “repetición” se derivaron de la secuencia de repetición directa consenso que se encuentra en la matriz de CRISPR asociada con el efector, y el “espaciador” representa -8900 secuencias dirigidas al plásmido pACYC184 y genes esenciales de E. coli o secuencias no dirigidas de control negativo. La longitud del espaciador se determinó por la moda de las longitudes de espaciador encontradas en la matriz de CRISPR endógena. Flanqueando a la matriz de CRISPR mínima había sitios de cebado de PCR únicos que permitieron la amplificación de una biblioteca específica a partir de un grupo más grande de síntesis de oligo.
A continuación, se clonó la biblioteca de matrices de CRISPR mínimas en el plásmido efector para crear una biblioteca de plásmido efector. Se adjuntaron sitios de restricción flanqueantes, un identificador molecular único y un promotor J23119 para expresión de la matriz en la biblioteca de oligos usando PCR (NEBNext High-Fidelity 2x PCR Master Mix), y luego se usó NEB Golden Gate Assembly Master Mix (New England Biolabs) para ensamblar la biblioteca completa de plásmidos de efectores con sus matrices de direccionamiento. Esto representó la “biblioteca de entrada” para el cribado.
Cribado en E. coli in vivo
El cribado in vivo se realizó tal como se describió anteriormente (Yan et al., Mol Cell. 19 de abril de 2018; 70 (2): 327-339) con las siguientes modificaciones: se realizó el cribado usando células de E. coli electrocompetentes EXPRESS® BL21(DE3) (Lucigen) a menos que se indique lo contrario. Las células competentes se cotransformaron con el plásmido efector y/o no codificante (figura 4B). Las células se sometieron a electroporación con la “biblioteca de entrada” según los protocolos del fabricante usando un Gene Pulser Xcell (Bio-rad) con una cubeta de 1,0 mm. Las células se sembraron en placa sobre placas de bioensayo que contenían tanto cloranfenicol (Fisher) como kanamicina (Alfa Aesar) y se cultivaron durante 11 horas, después de lo cual se estimó el recuento aproximado de colonias para garantizar una representación suficiente de la biblioteca y se recogieron las células.
Las fracciones de ADN de plásmido se extrajeron de las células recogidas para crear la “biblioteca de salida” usando un kit QIAprep Spin Miniprep (Qiagen), mientras que se recogió el ARN total >17 nt lisando las células recogidas en Direct-zol (Zymo Research), seguido de extracción usando el kit de minipreparación de ARN Directzol (Zymo Research).
Para identificar parámetros específicos que dan como resultado la actividad enzimática y la muerte celular bacteriana, se usó secuenciación de última generación (NGS) para cuantificar y comparar la representación de matrices de CRISPR individuales (es decir, repetición-espaciador-repetición) en el producto de PCR de las bibliotecas de plásmidos de entrada y salida. Se definió el agotamiento en veces para cada matriz de CRISPR como el recuento de lectura de entrada normalizado dividido entre el recuento de lectura de salida normalizado (con 1 añadido para evitar la división por cero). Se consideró que una matriz estaba “fuertemente agotada” si el agotamiento en veces era mayor de 3. Al calcular el agotamiento en veces de la matriz en las réplicas biológicas, se tomó el valor máximo de agotamiento en veces para una matriz de CRISPR dada en todos los experimentos (es decir, una matriz fuertemente agotada debe estar fuertemente agotada en todas las réplicas biológicas). Se generó una matriz que incluía el agotamiento en veces de la matriz y las siguientes características para cada diana de espaciador: cadena diana, direccionamiento del transcrito, direccionamiento de ORI, motivos de secuencia diana, motivos de secuencia flanqueante y estructura secundaria diana. Se investigó el grado en que las diferentes características de esta matriz explicaban el agotamiento de la diana para sistemas de tipo V-G, produciendo de ese modo un amplio estudio de los parámetros funcionales dentro de un solo cribado. Además, las fracciones de ARN se prepararon para la preparación y secuenciación de bibliotecas de ARN pequeño tal como se describió anteriormente (Yan et al., 2018).
Ejemplo 4. Actividad de interferencia dependiente de la transcripción de Cas12g
En primer lugar se investigó la función del efector de CRSPR-Cas de subtipo V-G, Cas12g, que oscila en tamaño entre 696 aa - 853 aa. El sistema de cribado in vivo de subtipo V-G inicial, que incluía una biblioteca de plásmidos efectores Cas12g1 y un plásmido no codificante, presentaba actividad de interferencia que se dirigía específicamente a la cadena de ADN sentido sin molde de las regiones transcritas activamente de pACYC184 (figura 5A) o sustratos de genes esenciales de E. coli (figura 5B). Este patrón de actividad de interferencia es sorprendentemente similar al observado para el sistema de CRISPR-Cas de subtipo VI-D dirigido al ARN cuando se evalúa usando una estrategia de detección comparable (Yan et al., 2018). El análisis adicional de las secuencias flanqueantes diana de matrices de CRISPR fuertemente agotadas no reveló requisitos de motivo adyacente al protoespaciador (PAM) o secuencia flanqueante de protoespaciador (PFS) para la interferencia de Cas12g1 (figuras 6A-B).
Este patrón de interferencia implica o bien direccionamiento a ADN o bien direccionamiento a ARN dependiente de transcripción, lo que sería sorprendente dado que Cas12g contiene un dominio de nucleasa RuvC C-terminal altamente conservado (figura 7) previamente conocido por escindir solo ADN. Para someter a prueba el requisito del dominio RuvC para este patrón inesperado de efector dirigido por Cas12g, se mutó el residuo de aspartato conservado en el motivo RuvC-I de Cas12g1 a alanina (D513A) y se encontró que se suprimía la interferencia (figura 7, figura 8). La reversión posterior del plásmido efector dCas12g1(D513A) mutado a la secuencia de tipo natural de Cas12g1 restauró el patrón de interferencia original, demostrando el requisito de un dominio RuvC intacto para la interferencia in vivo de Cas12g1 (figura 7, figura 9). En un esfuerzo por identificar el sistema de cribado in vivo mínimo que produce el patrón de interferencia observado, se eliminó el plásmido no codificante y se observó una disminución sustancial en la actividad, lo que indica un requisito de ARNtracr para la interferencia de Cas12g1 dependiente de RuvC (figura 7, figura 10).
La secuenciación de ARN de muestras de cribados in vivo que contenían el plásmido no codificante revelaron un elemento de ARNtracr altamente expresado en la secuencia no codificante del locus de Cas12g1 que contenía una anti-repetición con 11 nt de complementariedad con la repetición directa (figura 11-13). La alineación de las lecturas de secuenciación de ARN con la biblioteca de matrices de CRISPR mostró que el pre-ARNcr de tipo V-G se procesa in vivo, produciendo una distribución de longitudes de espaciador que oscilan entre 18 - 23 nt y una repetición directa en 5' que está truncado 18 nt desde el extremo terminal (figura 11).
Habiendo identificado un supuesto sistema de CRISPR-Cas de tipo V-G mínimo, se purificó un stock recombinante del efector Cas12g1 (figura 14) y se transcribió in vitro el ARNcr maduro y el ARNtracr para reconstituir el sistema completo para el análisis in vitro del mecanismo de interferencia. Se exploró en primer lugar la biogénesis del complejo de CRISPR activado. La incubación de Cas12g1 con un pre-ARNcr que contenía una estructura de DR-espaciador-DR-espaciador-DR dio como resultado un procesamiento no observable de pre-ARNcr por parte de Cas12g1, en presencia o ausencia del ARNtracr (figuras 15A-B, tablas 8­ 9). Dado que se identificaron ARNcr maduro y ARNtracr mediante secuenciación de ARN del sistema de Cas12g1 expresado in vivo, estos hallazgos sugieren que la biogénesis del ARNcr de subtipo V-G requiere una(s) nucleasa(s) endógena(s) ausente(s) de la reacción in vitro.
Para explorar adicionalmente el mecanismo de interferencia de Cas12g, se evaluó en primer lugar la escisión de ADNmc y ADNbc en presencia de ARNcr maduro y ARNtracr. Se construyeron complejos de vigilancia de Cas12g1 que contenían el efector Cas12g1, ARNtracr y ARNcr maduros derivados de matrices de CRISPR altamente agotadas a partir del cribado in vivo. Los complejos de vigilancia de Cas12g1 no mostraron escisión de los sustratos de ADNmc o ADNbc afines a 37 °C (figura 17A, figura 18A y tablas 9-11). Dado que el locus de Cas12g1 se origina en un metagenoma de aguas termales, se usó un ensayo de fusión térmica para evaluar la estabilidad de esta proteína y sus complejos con el ARN a temperaturas superiores a 37 °C. Los resultados de fusión térmica muestran que, en ausencia de ARNcr o ARNtracr, Cas12g1 es termoestable con una temperatura de fusión (Tm) de 64 °C (figuras 16A-B). Además, cuando se acomplejó con ARNcr y ARNtracr, el complejo de vigilancia de Cas12g1 mostró una mayor termoestabilidad con una Tm de 74 °C (figuras 16A-B). Sin embargo, a pesar de esto, no se observó escisión de ADNmc o ADNbc por el complejo de vigilancia de Cas12g1 a 42 °C, 50 °C o 60 °C (figuras 17B-D, figuras 18B-D).
Dado el fuerte sesgo observado de interferencia in vivo de Cas12g hacia el direccionamiento de la cadena de ADN sin molde, se estudió el efecto de transcritos de ARN sobre la actividad del efector Cas12g1. Con este fin, se generaron sustratos de ADNmc y ARNmc con o bien secuencias sentido (que contienen la diana complementaria del espaciador de ARNcr) o bien secuencias antisentido. Se sometió a prueba la escisión de ADNmc para cada una de las cuatro combinaciones de sustrato (ADNmc sentido:ARNmc sentido; ADNmc sentido:ARNmc antisentido; ADNmc antisentido:ARNmc sentido; ADNmc antisentido:ARNmc antisentido). Para los emparejamientos sentido-antisentido de ADNmc y ARNmc, los sustratos se aparearon previamente, creando un híbrido de ADN-ARN. Se observó que, a 50 °C, el complejo de vigilancia de Cas12g1 escinde el ADNmc sentido en presencia de un transcrito de ARN sentido de manera eficiente y dependiente de la dosis (figura 19).
Entonces se investigó si esta actividad de interferencia dependía de la secuencia diana presente en el sustrato de ADNmc y se encontró que el ADNmc que no contenía secuencia diana o complementariedad con el espaciador de ARNcr (“ADNmc colateral”) se escindió de manera eficiente en fragmentos más cortos a 50 ° C en presencia de un ARNmc sentido con complementariedad de espaciador de ARNcr (figuras 23A-B, figura 33). No se observó escisión de ADNmc para ninguna otra combinación de sustrato de ADN-ARN (figuras 20-22). Estos resultados demuestran que la escisión del ADNmc por el complejo de vigilancia de Cas12g1 se activa mediante un transcrito de ARN que contiene una diana complementaria al espaciador de ARNcr, a continuación en el presente documento denominada ARN diana. La escisión de ADNmc en múltiples productos de tamaño decreciente por el complejo de Cas12g1 activado por ARN diana es indicativa de actividad de escisión de ADNmc colateral (trans) no específica.
La escisión de ADNmc colateral activada por ARN diana de Cas12g1 presenta un posible mecanismo subyacente a la interferencia in vivo observada para el sistema de CRISPR de subtipo V-G, por lo que la unión de un transcrito de ARN diana daría como resultado la escisión de cadenas de ADNmc desprotegidas en la horquilla transcripcional. Sin embargo, la escisión de ADNmc dependiente de ARN diana por el complejo de vigilancia de Cas12g1 no fue evidente a 37 °C (figuras 24-27). La falta de escisión de ADNmc in vitro robusta por el complejo de vigilancia de Cas12g1 en presencia de un transcrito de ARN diana a 37 °C está en desacuerdo con la fuerte interferencia observada en los cribados in vivo realizados a la misma temperatura, lo que sugiere que la escisión de ADNmc colateral probablemente no sea el único modo de interferencia para el sistema de subtipo V-G.
Purificación de proteínas efectoras
Los vectores efectores se transformaron en E. coli NiCo21 (DE3) (New England BioLabs) y se expresaron bajo un promotor T7. Las células transformadas se cultivaron inicialmente durante la noche en 3 ml de caldo Luria (Sigma) 50 ug/ml de kanamicina, seguido de inoculación de 1 litro de medio Terrific Broth (Sigma) 50 ug/ml de kanamicina con 1 ml de cultivo durante la noche. Las células se cultivaron a 37 °C hasta una DO600 de 1-1,5, luego se indujo expresión de proteínas con IPTG 0,2 mM. A continuación, los cultivos se cultivaron a 20 °C durante 14-18 horas más. Los cultivos se recogieron y se sedimentaron mediante centrifugación, luego se resuspendieron en 80 ml de tampón de lisis (HEPES 50 mM, pH 7,6, NaCl 0,5 M, imidazol 10 mM, 2-mercaptoetanol 14 mM y glicerol al 5 %) inhibidores de proteasa (Sigma). Las células se lisaron a través de un disruptor celular (Constant System Limited), luego se centrifugaron dos veces a 28.000xg durante 20 minutos a 4 °C para aclarar el lisado. El lisado se cargó sobre una columna HisTrap® FF de 5 ml (GE Life Sciences), luego se purificó mediante FPLC (AKTA Pure, GE Life Sciences) sobre un gradiente de imidazol de desde 10 mM hasta 250 mM. Se purificó Cas12g1 en tampón bajo en sal (HEPES-KOH 50 mM pH 7,8, KCl 500 mM, MgCb 10 mM, 2-mercaptoetanol 14 mM y glicerol al 5 %) y tampón con alto contenido de sal (HEPES-KOH 50 mM pH 7,8, NH4Cl 1 M, MgCl 10 mM2, 2-mercaptoetanol 14 mM y glicerol al 5 %), respectivamente. Después de la purificación, las fracciones se procesaron en geles de SDS-PAGE y se agruparon las fracciones que contenían proteína del tamaño apropiado y se concentraron usando unidades centrífugas Amicon Ultra-15 de 10 kD. Se dializó adicionalmente Cas12g1 en un tampón sin imidazol (HEPES-KOH 25 mM pH 7,8, NH4Cl 1 M, MgCb 10 mM, DTT 1 mM, 2-mercaptoetanol 7 mM y glicerol al 30%). La concentración de proteínas se determinó mediante el ensayo de proteínas Qubit (Thermo Fisher).
Preparación de ARNcr, ARNtracr y ARN de sustrato
Se solicitaron moldes de oligos de ADN monocatenario para ARNcr, ARNtracr y ARN de sustrato a Integrated DNA Technologies, Inc. (Coralville, lowa) (IDT). Los moldes de ARN de sustrato y pre-ARNcr se amplificaron por PCR para generar un molde de ADN de transcripción in vitro (IVT) bicatenario usando la mezcla maestra NEBNEXT Hifi 2x (New England Biolabs). Se generaron moldes ADN bicatenario para ARNcr maduro y ARNtracr apareando el cebador de T7 con los moldes seguido de extensión usando ADN polimerasa I, fragmento grande (Klenow) (New England Biolabs). El apareamiento se realizó incubando durante 5 min a 95 °C seguido de una rampa descendente de -5 °C/min hasta 4 °C. Se realizó transcripción in vitro incubando los moldes de ADNbc con ARN polimerasa de T7 a 37 °C durante 3 horas usando el kit de ARN de alto rendimiento HiScribe® T7 Quick (New England Biolabs). Después de la incubación, las muestras de IVT se trataron con Turbo DNase (Thermo Scientific) y luego se purificaron con el kit RNA Clean & Concentrator (Zymo Research). Para Cas12g1, se usaron cantidades equimolares de ARNcr maduro que contenía grupos terminales 5' hidroxilo y 5' monofosfato. El ARNcr maduro generado a partir de IVT se trató con fosfatasa alcalina intestinal de ternera (Thermo Fisher) o ARN 5'-polifosfatasa (Lucigen) durante 2 horas a 37 °C para generar 5'-hidroxilo o 5'-monofosfato, respectivamente, seguido de limpieza con el kit RNA Clean & Concentrator (Zymo Research). Las concentraciones se midieron mediante Nanodrop 2000 (Thermo Fisher). Las secuencias de pre-ARNcr, ARNtracr y ARNcr maduro usadas en la caracterización bioquímica de Cas12g se incluyen en la tabla 8, tabla 9 y tabla 10, respectivamente. Los moldes de oligonucleótidos y los cebadores para la preparación de ARNcr se incluyen en la tabla 14.
Preparación de ADN y ARN de sustrato marcado con IR-800
Los sustratos de ARN de IVT se trataron con fosfatasa alcalina intestinal de ternera (Thermo Fisher) durante 30 minutos a 37 °C para convertir el 5'-trifosfato en un grupo hidroxilo 5' terminal y se purificaron con el kit RNA Clean & Concentrator (Zymo Research). Se añadió un grupo terminal tiol al grupo hidroxilo 5' terminal de los sustratos de ADN y ARN a través del kit de etiquetado 5' EndTag (Vector Labs), luego se marcaron los sustratos con IRDye 800CW Maleimide (LI-COR Biosciences). Los sustratos se purificaron utilizando el kit DNA Clean & Concentrator o el kit RNA Clean & Concentrator (Zymo Research). Los sustratos de ADNbc marcados se generaron marcando la cadena de ADNmc complementaria no espaciadora, apareando con un cebador y luego extendiendo con ADN polimerasa I, fragmento grande (Klenow) (New England Biolabs) durante 15 minutos a 25 °C. Estos sustratos se purificaron con el kit DNA Clean & Concentrator (Zymo Research). Las concentraciones se midieron mediante Nanodrop 2000 (Thermo Fisher).
Las secuencias de sustrato de ARN y ADN usadas en la caracterización bioquímica de Cas12g se incluyen en las tablas 11-13. Los moldes de oligonucleótidos y los cebadores para la preparación de sustratos de ARN se incluyen en la tabla 15.
Ensayo de procesamiento de pre-ARNcr de Cas12g1
Se realizaron ensayos de procesamiento de pre-ARNcr para Cas12g1 a 37 °C durante 1 hora en tampón de escisión a una concentración final de pre-ARNcr de 25 nM. Para Cas12g, el procesamiento de pre-ARNcr se realizó con pre-ARNcr marcado con IR800 en 5' para distinguirlo del ARNtracr. El ARNtracr se añadió a concentraciones equimolares a Cas12g1. Las reacciones se extinguieron con la adición de 1 ug/ul de proteinasa K (Ambion) y se incubaron a 37 °C durante 15 minutos. Se añadió EDTA 50 mM a las reacciones antes de mezclar con un volumen igual de tampón de muestra 2X TBE-Urea (Invitrogen) y desnaturalizar a 65 °C durante 3 minutos. Las muestras se analizaron en geles de TBE-Urea al 15% (Invitrogen). Los geles se tiñeron durante 5 minutos con tinción de ácido nucleico SYBR Gold (Invitrogen) y se obtuvieron imágenes en Gel Doc EZ (Biorad). Se obtuvieron imágenes por primera vez de los geles que contenían pre-ARNcr marcado en el escáner Odyssey CLx (LI-COR Biosciences) antes de la tinción con SYBR.
Ensayos de escisión de la diana con Cas12g
Sustratos de ARNmc, ADNmc y ADNbc: Se realizaron ensayos de escisión de la diana con Cast2g durante 1 hora a la temperatura especificada en tampón de escisión. El complejo de vigilancia de Cas12g se formó incubando una razón molar 1:2:0,5 de Cas12g:ARNcr maduro:ARNtracr durante 10 minutos a 37 °C seguido de transferencia a hielo. Dado que se espera que el ARNcr maduro generado a partir del procesamiento de pre-ARNcr contenga una mezcla de grupos terminales 5' hidroxilo y monofosfato, se preparó ARNcr maduro para el ensayo mezclando cantidades equimolares de ARNcr maduros con grupo terminal hidroxilo y grupo terminal monofosfato. El complejo de vigilancia de Cas12g se diluyó adicionalmente en hielo manteniendo fija la razón molar de proteína con respecto a ARN. A continuación, se añadió el complejo a sustratos marcados con IR800 y se incubó durante 1 hora a la temperatura especificada. La concentración final de todos los sustratos marcados fue de 100 nM. Para los ensayos de actividad colateral, la concentración final de tanto los sustratos marcados como no marcados fue de 100 nM cada uno, a menos que se especifique lo contrario. Las reacciones se trataron con un cóctel de ARNasa (Thermo Scientific) o Turbo DNase (Thermo Scientific) para visualizar los sustratos de ADN y ARN respectivamente. Las reacciones se extinguieron añadiendo 1 ug/ul de proteinasa K (Ambion) e incubando durante 15 minutos a 37 °C, seguido de la adición de EDTA 50 mM. A continuación, las muestras se mezclaron con un volumen igual de tampón de muestra de 2X TBE-Urea y se desnaturalizaron a 65 °C durante 3 minutos para las muestras de ARN y a 95 °C durante 3 minutos para las muestras de ADN.
Las muestras se analizaron mediante electroforesis en gel desnaturalizante en gel de urea-TBE al 15% (Invitrogen). En primer lugar se obtuvieron imágenes de los geles en el escáner Odyssey CLx (LI-COR Biosciences), seguido de una tinción de 5 minutos con tinción de ácido nucleico SYBR Gold (Invitrogen) y se obtuvieron imágenes en Gel Doc EZ (Biorad). Sustratos híbridos de ARN:ADN: Los ensayos de escisión para sustratos híbridos de ARN:ADN se realizaron tal como se describió anteriormente usando ARN sin marcar y ADN marcado con 5'-IR800. Todos los sustratos híbridos de ARN:ADN se mezclaron a una razón de 1:2 de ARN:ADN y se aparearon en tampón de hibridación (Tris 50 mM, pH 8,0 y NaCl 100 mM) mediante incubación a 70 °C durante 2 minutos, seguido de una rampa descendente de 5 °C/min hasta 4 °C. La concentración final del ADN marcado fue de 100 nM. Las reacciones se trataron con un cóctel de ARNasa antes de la adición de proteinasa K.
Ensayos de fusión térmica para Cas12g
Las curvas de fusión de las proteínas efectoras se determinaron mediante fluorimetría diferencial de barrido (DSF). Todas las reacciones tuvieron lugar a una concentración de efector de 0,62 uM en tampón DSF (Tns-HCl 50 mM, pH 7,9, NaCl 100 mM, DTT 1 mM) con la adición de colorante naranja 5X SYPR0 (Sigma). Se formaron complejos binarios (efector m-ARNcr) y ternarios (efector m-ARNcr ARNtracr) a una razón de 2,5:1 de ARN a proteína. Los complejos apo y efectores se incubaron a 37 °C durante 10 minutos antes de la fusión para garantizar la formación de complejos. A continuación, las reacciones se dividieron en cuatro réplicas técnicas de 5 ul. La fusión de proteínas se realizó en el instrumento Lightcycler 480 (Roche) en un rango de temperatura de 20 °C a 80 °C, a una velocidad de 0,06 °C/s, con 10 adquisiciones/s. Se tomó la primera derivada de los datos de fluorescencia sin procesar para determinar la Tm del efector.
Ejemplo 5. Cas12g1 tiene una actividad ARNasamc dependiente de RuvC
Para evaluar actividades enzimáticas de Cas12g1 adicionales que podrían permitir la actividad de interferencia a 37 °C, se sometió a prueba si, además de la activación de la escisión de ADNmc por la unión a ARN diana, el complejo de vigilancia de Cas12g1 escinde el ARN directamente. Se demostró que los transcritos de ARN diana marcadas con colorante IR800 activan la escisión de ADNmc de Cas12g1 y se incubaron estos sustratos con el complejo de vigilancia de Cas12g1 a 37 °C y 50 °C (figuras 28A-B, figuras 29A-B, tablas 7-9). En estas condiciones, Cas12g1 mostró una escisión de ARN robusta, específica de diana y dependiente de ARNtracr a 37 °C (figuras 28A-B). La escisión del ARN por el complejo de vigilancia de Cas12g1 se mejoró adicionalmente a 50 °C, y se observó una degradación completa del sustrato de ARN diana a nucleótidos individuales a concentraciones de complejo tan bajas como 31 nM (figuras 29A-B) y escisión detectable a concentraciones de complejo tan bajas como 125 pM (figura 30A). Cas12g1 parece ser altamente específico, y no se observó escisión de ARN no diana con la dosis más alta de complejo de vigilancia sometida a prueba (250 nM), más de 1000 veces mayor que las concentraciones suficientes para observar la escisión detectable de los ARN que contienen diana (figura 30B). La alta eficiencia de la escisión de ARN diana a 37 °C sugiere que el direccionamiento del transcrito es la fuente principal de la actividad de interferencia in vivo observada por el sistema de CRISPR Cas de subtipo V-G.
Habiendo observado una escisión eficiente de transcritos diana en fragmentos pequeños o nucleótidos individuales, a continuación se investigó si la escisión del ARN de Cas12g de sustratos de ARNmc diana va acompañada de la escisión trans de transcritos de ARN colateral que no contienen similitud de secuencia con el espaciador de ARNcr. Para distinguir las especies de ARN diana y colateral, se prepararon reacciones de escisión de ARNmc con sustratos colaterales marcados con colorante IR800 mezclados con transcritos diana no marcados. Se observó una robusta escisión de ARN colateral por parte del complejo de Cas12g1 a 50 °C a concentraciones de ARN diana tan bajas como 125 pM (figura 31A), lo que demuestra que la sensibilidad de detección de ARN independiente de Cas12g1 es comparable a las variantes de Cas13 de mejor rendimiento (Gootenberg et al., 2018). Finalmente, se observó que la escisión tanto diana como colateral por Cas12g1 se inhibe por un exceso de EDTA, estableciendo la dependencia de cationes divalentes de la escisión de ARN por Cas12g1 (figura 32).
Además, se purificó la proteína dCas12g1 (D513A) con la mutación puntual de dominio RuvC que carecía de actividad de interferencia en el cribado in vivo (figura 14). El mutante dCas12g1 (D513A) no mostró escisión de ARN diana ni escisión colateral de ADNmc, lo que sugiere que se necesita un dominio de RuvC intacto para la escisión tanto de ARN como de ADNmc (figuras 35-36). Por tanto, el efector Cas12g1 compacto demuestra escisión de ARN diana y colateral, así como actividad de escisión de ADNmc colateral activado por ARN dependiente de temperatura, todo dependiente de un solo dominio RuvC intacto.
El efector Cas12g es un caso particularmente notable de evolución funcional convergente que podría ayudar a comprender el origen y la evolución de los efectores de CRISPR-Cas de Clase 2. Cas12g contiene un dominio similar a RuvC C-terminal característico de las nucleasas Cas12 y claramente es un derivado de TnpB (figura 1, figuras 2A-B). Sin embargo, la actividad de Cas12g1 difiere drásticamente de la de todos los sistemas de tipo V conocidos en su capacidad para seleccionar como diana ARN, en el modo colateral tanto dependiente de guía de ARN como independiente de la guía (figuras 37A-B). De hecho, el direccionamiento al a Rn y la consiguiente escisión de ARN colateral por parte de Cast2g son muy similares a las propiedades de los efectores Cast 3 que contienen el dominio HEPN no relacionados de los sistemas de CRISPR-Cas de tipo VI (Abudayyeh et al., 2016; East-Seletsky et al., 2016; Shmakov et al., 2015).
Aunque recientemente se ha demostrado el direccionamiento a ARN independiente de PAM para las nucleasas Cas9 de tipo II de Campylobacter jejuni (CjCas9) y Neisseria meningitidis (NmeCas9), la escisión en estos casos es dependiente de la guía y específica de sitio (Dugar et al., 2018; Rousseau et al., 2018) a diferencia de la escisión de ARN colateral observada con Cas12g1. Aunque el análisis mutacional implica al dominio HNH como la nucleasa responsable de la escisión de ARN por parte de NmeCas9 y CjCas9 (Dugar et al., 2018; Rousseau et al., 2018), los resultados presentados en el presente documento demuestran el requisito de un dominio RuvC intacto para la escisión de ARN por Cas 12g1. Hasta donde conocen los inventores, este es el primer caso notificado de escisión de ARN por el dominio RuvC, uno hasta ahora asociado solo con la escisión de ADN.
Además de la escisión de ARN colateral y seleccionado como diana, se encontró que Cas12g1 cataliza la escisión colateral de ADNmc (figura 35), pareciéndose a Cas12a en ese sentido (figuras 37A-B). En el entorno nativo, es probable que las actividades de interferencia de CLUST.019143 (tipo V-G) incluyan la escisión de ARN genómico, transcritos de ARN o ADNmc de especies invasoras. Además, Cas12g podría ser capaz de escisión de ADNbc independiente de PAM a través de la escisión de ADNmc activada por transcrito en la horquilla transcripcional, de manera algo análoga a la interferencia por sistemas de CRISPR-Cas de tipo III (figura 37C) (Samai et al., 2015). Estos modos múltiples de interferencia eficiente sugieren que Cas12g puede no ser un intermediario naciente en la evolución convergente de TnpB a efectores de CRISPR grandes, sino un estado estable a lo largo de un camino particular desde TnpB hasta sistemas de CRISPR funcionales. Estudios estructurales y bioquímicos comparativos de Cas12g, así como una mayor investigación de sistemas de subtipo V-U adicionales, son de gran interés para dilucidar adicionalmente la evolución de TnpB a efectores funcionales de tipo V.
La eficiencia y la especificidad, combinadas con el diferencial de control de temperatura de la escisión de ARN y ADNmc y la estabilidad del complejo de vigilancia termofílico de Cas12g1, presentan posibles oportunidades para una gama de aplicaciones. Quizás, lo más importante, Cas12g1 es el efector de CRISPR de edición de ARN activo más pequeño identificado hasta la fecha y, con 768 aa, es 160 aa más pequeño que la mediana de tamaño de 928 aa de las proteínas de la familia Cas13d descubiertas recientemente (Konermann et al., 2018; Yan et al., 2018). Esta compacidad de Cas12g1 tiene la ventaja de que se empaqueta fácilmente en diversos vehículos de administración. Las aplicaciones adicionales de Cas12g podrían implicar tanto la inactivación eficiente de los ARN diana como la detección mejorada de ARN y ADN (Chen et al., 2018; East-Seletsky et al., 2016; Gootenberg et al., 2017, 2018; Li et al., 2018).
Tabla 8. Pre-ARNcr usados para la bioquímica in vitro de CLUST.019143 (tipo V-G)
Figure imgf000060_0001
Tabla 9. ARNtracr usados para la bioquímica in vitro de CLUST.019143 (tipo V-G)
Figure imgf000060_0004
Tabla 10. ARNcr maduros usados para la bioquímica in vitro de CLUST.019143 (tipo V-G)
Figure imgf000060_0002
Tabla 11. Sustratos diana usados para la bioquímica in vitro de CLUST.019143 (tipo V-G)
Figure imgf000060_0003
Figure imgf000061_0001
Tabla 12. Sustratos no diana usados para la bioquímica in vitro de CLUST.019143 (tipo V-G)
Figure imgf000061_0004
Tabla 13. Sustratos colaterales usados en este estudio para la bioquímica in vitro
Figure imgf000061_0003
Tabla 14. Oligos molde de IDT y cebadores para ARNcr usados
Figure imgf000061_0002
Figure imgf000062_0001
Tabla 15. Oligos molde de IDT y cebadores para sustratos de ARNmc usados en este estudio para la bioquímica in vitro
Figure imgf000062_0002
Figure imgf000063_0001
Ejemplo 6. Los sistemas de CRISPR-Cas CLUST.019143 (tipo V-G) pueden usarse con un indicador fluorescente para la detección específica de especies de ácido nucleico
Las actividades nucleasa de las proteínas Cas12g (es decir, actividades ARNasa y ADNasa colaterales no específicas activadas por un sustrato de ARN diana complementario al espaciador de ARNcr) hacen que estos efectores sean candidatos prometedores para su uso en la detección de especies de ácidos nucleicos. Algunos de estos métodos se han descrito previamente (véase, por ejemplo, East-Seletsky et al. (2016), Gotenberg et al. (2017) y Gootenberg et al. (2018) “Multiplexed and portable nucleic acid detection platform with Cas13, Cas12a and C8m6” Science 15 febrero de 2018: eaaq0179), que describe el principio general de la detección de ARN usando Cas13a (East-Seletsky et al. (2016)), complementado con amplificación para aumentar la sensibilidad de detección y optimización de enzimas Cast 3a adicionales (Gootenberg et al. (2017)) y, más recientemente, la inclusión de dianas de ARN adicionales, enzimas ortólogas y parálogas y el activador C8m6 para permitir la detección multiplexada de ácidos nucleicos junto con un aumento en la sensibilidad de detección (Gootenberg et al. (2018)). La adición de Cas12g a este kit de herramientas proporciona un canal adicional de actividad ortogonal para la detección de ácidos nucleicos.
La actividad bioquímica in vitro de Cas 12g 1 sugiere que puede ser prometedor en aplicaciones para la detección sensible de ácidos nucleicos, dado que un ARN colateral marcado con colorante se escindió de manera eficiente a bajas concentraciones de ARN diana (figura 31A) y la actividad nucleasa de fondo se limitó con un sustrato no dirigido en una amplia gama del complejo de Cas12g1 (figura 30B) y concentraciones de sustrato (figura 31B). La adaptación de Cas12g1 hacia una aplicación de detección de ácido nucleico sensible requiere varias etapas, que incluyen, entre otras, diseñar por ingeniería genética una única guía de ARN a partir de ARNcr y ARNtracr para mejorar la actividad enzimática, optimizar el sustrato para una lectura sensible de la actividad colateral e identificar la tolerancia al apareamiento erróneo por bases entre el espaciador y el sustrato diana.
La identificación del sustrato óptimo para la detección de ácidos nucleicos puede notificarse realizando secuenciación de última generación (NGS) en los productos de escisión de la actividad colateral de Cas12g en sustratos de tanto ADNmc como ARNmc. Es posible que sea necesario titular la concentración de enzima o ajustar el tiempo de incubación con el fin de producir fragmentos de escisión que tengan todavía un tamaño suficiente para prepararlos en una biblioteca de secuenciación de última generación. Los datos de NGS revelan los sitios de escisión de enzimas y las preferencias de bases adyacentes. Se ha demostrado que los efectores individuales dentro de las familias Cas13a y Cas13b tienen diferentes preferencias de bases de dinucleótidos para la escisión del ARN, lo que produce magnitudes de escisión y razones de señal con respecto a ruido marcadamente diferentes (Gootenberg et al. (2018)). Los datos de NGS colateral permiten una mejor comprensión de las preferencias de Cas12g. Un enfoque experimental separado para identificar la preferencia de dinucleótidos de la escisión colateral de Cas12g es crear un sustrato de ARN o ADN colateral con N degenerados en posiciones secuenciales para tener un espacio de secuencia más amplio que una secuencia nucleica colateral definida. La preparación de la biblioteca y el análisis de los datos de NGS procederían de manera similar para identificar las preferencias de base para la escisión. Para verificar la preferencia, pueden introducirse sustratos colaterales que contengan ADN/ARN cortos sintetizados con un par de fluoróforo/extintor en los extremos 5' y 3' en una reacción de escisión para evaluar la razón de señal con respecto a ruido. Puede realizarse una optimización adicional en la longitud del sustrato colateral de ADN/ARN para determinar si Cas12g1 tiene una preferencia de longitud.
Habiendo identificado las preferencias de sustrato de nucleasa colateral, otro parámetro importante que determinar es la tolerancia al apareamiento erróneo del sistema de Cas12g, ya que tiene implicaciones para el diseño de guías que afecta a la capacidad de la enzima para distinguir apareamientos erróneos de un solo par de bases. La tolerancia al apareamiento erróneo puede determinarse mediante el diseño de un panel de dianas con diferentes posiciones y tipos de apareamientos erróneos (por ejemplo, inserciones/deleciones, apareamientos erróneos de un solo par de bases, apareamientos erróneos dobles adyacentes, apareamientos erróneos dobles separados, apareamientos erróneos triples y más). La tolerancia al apareamiento erróneo puede medirse evaluando la cantidad de escisión de ADN colateral para dianas que contienen cantidades variables de apareamientos erróneos. Como ejemplo, el sustrato de a Rn colateral podría ser una sonda de ARNmc corta que contenga un fluoróforo y un extintor en lados opuestos. Para las reacciones que contienen el efector Cas12g, una guía de ARN y un sustrato diana que contiene diferentes números de apareamientos erróneos, inserciones y deleciones en la secuencia diana, la activación exitosa del sistema de Cas12g mediante la selección como diana de la secuencia de ARN diana alterada dará como resultado la escisión colateral de la secuencia fluorescente. Las mediciones fluorescentes resultantes que denotan sustrato colateral escindido pueden restarse del fondo usando muestras de control negativo y normalizarse a la señal de dianas perfectamente coincidentes para estimar el impacto de las alteraciones de la diana sobre la eficiencia de la escisión colateral por Cas12g. Los mapas resultantes de tolerancia al apareamiento erróneo, inserción y deleción por parte de la enzima Cas12g sobre la longitud de la diana en relación con el PAM pueden usarse para diseñar guías de ARN óptimas para distinguir entre diferentes secuencias de ARN o genotipos para detección específica o distinción entre diferentes especies de ácido nucleico. La falta de PAM o PFS de Cas12g1 hace que posicione la secuencia diana sobre un sitio de variación genotípica para optimizar la especificidad de discriminación entre los dos genotipos dado el mapa de tolerancia a Opareamientos erróneos de Cas12g.
El proceso de optimización puede aplicar además a otros ortólogos de Cas12g para producir otros sistemas que pueden tener propiedades diferentes. Por ejemplo, las preferencias de dinucleótidos ortogonales de escisión colateral serían útiles para generar canales de detección separados.
Para aplicaciones de detección de ácidos nucleicos, las propiedades únicas de Cas 12g 1 pueden proporcionar ventajas. En algunas realizaciones, la escisión colateral doble de ADNmc y ARNmc puede servir para distinguir la escisión activada por la diana de la contaminación por nucleasas de fondo. En tal aplicación, los sustratos colaterales de ADNmc y ARNmc se marcan con fluoróforos en canales separados y ambos se introducen en una reacción de detección. Se requiere que la fluorescencia en ambos canales de ADNmc y ARNmc se considere una señal positiva, reduciendo así potencialmente el número de falsos positivos, especialmente porque la contaminación por ARNasa está muy extendida. La termoestabilidad de Cas12g1, tal como se evidencia por su alta temperatura de fusión y actividad de escisión de ADNmc/ARNmc a 50 °C (figuras 16B, 19, 29A) puede proporcionar robustez adicional en el ensayo. Se ha demostrado que las proteínas Cas termoestables son más resistentes a la inactivación en plasma (Harrington et al. (2017)), y la termoestabilidad de Cas12g1 puede permitir que se use directamente en muestras recogidas sin la necesidad de un procesamiento extenso. Además, el aumento de la termoestabilidad a menudo confiere robustez a la degradación o desnaturalización ambiental. Particularmente, dado que tales ensayos de detección de ácido nucleico tales como SHERLOCK se han diseñado en formatos más portátiles para aplicaciones en el punto de atención (como tiras de detección de papel) (Gootenberg, et al. (2018), Myhrvold et al. (2018)), una vida útil prolongada permitida por la mayor estabilidad de la proteína Cas12g1 puede proporcionar una mayor versatilidad y utilidad.
Ejemplo 7. Los sistemas de CRISPR-Cas CLUST.019143 (tipo V-G) pueden usarse para proporcionar un control activado por genotipo de la muerte o latencia celular
La hibridación de la proteína efectora de CRISPR-Cas CLUST.019143 (tipo V-G) y ARNcr con una diana de ARN complementaria al espaciador de ARNcr forma un complejo activo que puede presentar actividad ARNasa “colateral” no específica. Tal actividad ARNasa colateral puede usarse para proporcionar un control activado por genotipo de la muerte o latencia celular. La dependencia de tal actividad de la presencia de una diana de ARN específica en una célula es valiosa ya que permite la selección como diana de poblaciones celulares específicas basándose en estados transcripcionales o genotipos subyacentes específicos. Existen numerosas aplicaciones tanto en entornos eucariotas como procariotas para tal control de la muerte o latencia celular.
Para aplicaciones procariotas, se administra un sistema de CRISPR-Cas CLUST.019143 (tipo V-G) (por ejemplo, que incluye una Cas12g y una guía de ARN) (por ejemplo, in vitro o in vivo) con el fin de inducir muerte o latencia celular de poblaciones procariotas específicas (por ejemplo, poblaciones bacterianas) de un modo específica de genotipo y transcriptoma. Por ejemplo, el sistema de CRISPR-Cas CLUST.019143 (tipo V-G) incluye uno o más ARNcr que se seleccionan como diana específicamente un género, especie o cepa procariota particular. Este direccionamiento específico tiene muchos beneficios terapéuticos, ya que puede usarse para inducir la muerte o la latencia de bacterias no deseadas (por ejemplo, bacterias patógenas tales como Clostridium difficile) mientras protege el microbioma de un individuo. Además, los sistemas de CLUST.019143 (tipo V-G) proporcionados en el presente documento se usan para seleccionar como diana células procariotas que tienen genotipos o estados transcripcionales específicos. Dentro de la diversidad microbiana que coloniza a los seres humanos, solo un pequeño número de cepas bacterianas pueden inducir patogénesis. Además, incluso dentro de cepas patógenas tales como Clostridium difficile, no todos los miembros de la población bacteriana existen continuamente en estados activos que provocan enfermedades. Por tanto, el uso de direccionamiento a ARN para controlar la actividad de Cas12g basándose en el genotipo y el estado transcripcional de una célula procariota permite el control específico de qué células se seleccionan como diana sin alterar todo el microbioma.
Además, las cepas bacterianas se modifican fácilmente por ingeniería genética con circuitos genéticos o elementos de expresión controlados ambientalmente para generar interruptores genéticos de destrucción que limitan el crecimiento, la colonización y/o la propagación de las cepas bacterianas modificadas por ingeniería genética. Por ejemplo, la expresión de proteínas Cas12g, ARNcr específico o ARN diana específico se controla utilizando promotores derivados de las regiones reguladoras de genes que codifican para proteínas expresadas en respuesta a estímulos externos, tales como proteínas sensibles al frío (PcspA), proteínas de choque térmico (Hsp), sistemas inducibles químicamente (Tet, Lac, AraC). La expresión controlada de uno o más elementos del sistema de CLUST.019143 (tipo V-G) permite que el sistema funcional completo se exprese solo tras la exposición a un estímulo ambiental, lo que a su vez activa la actividad ARNasa no específica del sistema y, de ese modo, induce la muerte o latencia celular. Los interruptores de destrucción que incluyen proteínas Cas12g tales como las descritas en el presente documento pueden ser ventajosos sobre los diseños de interruptores de destrucción tradicionales, tales como los sistemas de toxina/antitoxina (por ejemplo, sistemas de toxina/antitoxina de CcdB/CcdA de tipo II), puesto que no son dependientes de las razones relativas de expresión de proteínas que pueden verse afectadas expresión con fugas de un promotor (por ejemplo, un promotor dependiente de estímulo ambiental) y, por tanto, permite un control más preciso del interruptor de destrucción.
Para evaluar la capacidad de Cas12g para inducir la latencia o muerte de células bacterianas directamente tras el reconocimiento de un ARN diana, se realizó una variación del cribado funcional in vivo, en el que se eliminó el antibiótico tetraciclina de la placa de cultivo. Eliminar la selección de tetraciclina significó que la supervivencia del huésped E. coli ya no dependía de la expresión natural exitosa de la proteína de resistencia a tetraciclina por pACYC184. Sin embargo, la biblioteca de direccionamiento todavía contenía ARNcr con espaciadores para el gen de resistencia a tetraciclina, TcR Cuando se elimina la dependencia de la supervivencia de E. coli de la expresión de TcR exitosa, se esperaría que no hubiera impacto sobre la supervivencia de E. coli si Cas12g escindiera directamente ARNm de TcR, y por tanto ningún espaciador de direccionamiento a TcR debe registrarse como un fuerte evento de agotamiento en el cribado in vivo. Sin embargo, los datos de cribado sin selección de tetraciclina todavía mostraron espaciadores fuertemente agotados en el gen de TcR (figuras 6A-B), lo que sugiere que el efecto de Cas12g dirigido al ARN solo puede mediar en una desventaja de crecimiento o muerte celular, incluso sin selección con antibióticos.
Para aplicaciones eucariotas, muchas enfermedades resultan de genotipos específicos o estados transcripcionales en las células enfermas que las distinguen de las células sanas. Los genotipos relacionados con enfermedades a menudo están contenidos en regiones del genoma que se expresan, generando transcritos que pueden seleccionarse como diana por una Cas12g usando un ARNcr que selecciona como diana específicamente el genotipo. Tal direccionamiento proporciona latencia celular o muerte celular en una población de células con mutaciones relacionadas con una enfermedad específica. Un ejemplo de una aplicación es el agotamiento dirigido de células cancerosas que contienen mutaciones específicas, tales como mutaciones impulsoras que se producen espontáneamente en el microambiente tumoral. Además, los sistemas de CRISPR-Cas CLUST.019143 (tipo V-G) descritos en el presente documento son mecanismos de interruptor de destrucción para inducir la muerte o la latencia de células eucariotas recombinantes, tales como células T que expresan receptores de antígenos quiméricos, para limitar su actividad en entornos inapropiados o cuando ya no se desean.
Además, en un contexto terapéutico, numerosos procesos patológicos a menudo implican la desregulación de rutas celulares que dan como resultado estados transcripcionales que son diferentes del estado basal normal. Puede usarse un sistema de CRISPR-Cas CLUST.019143 (tipo V-G) para inducir específicamente la muerte o la inactividad de células que tienen un transcriptoma alterado. Por ejemplo, el sistema puede usarse para inducir la muerte o la latencia de células que tienen un transcriptoma alterado temporalmente, tales como células implicadas en una respuesta antiinflamatoria durante un brote de enfermedad autoinmunitaria que se diferencian de las células normales.
En algunas realizaciones, la expresión de los sistemas de CRISPR-Cas CLUST.019143 (tipo V-G) descritos en el presente documento puede controlarse usando biología sintética para inducir o desencadenar muerte o latencia celular. Por ejemplo, la expresión de genes que codifican para cada uno de los componentes de los sistemas de CRISPR-Cas CLUST.019143 (tipo V-G) puede controlarse utilizando elementos genéticos que incluyen, pero no se limitan a, promotores que están regulados por estímulos ambientales, tales como la hipoxia (hif), actividad neuronal (fos, arc), choque térmico (HSF-1) o controles exógenos tales como luz (FixJ), esteroides (LexA), alcohol (AlcA), tetraciclina (Tet). Estos promotores se usan para controlar la expresión de los componentes del sistema de CRISPR-Cas CLUST.019143 (tipo V-G) y/o de una diana de ARN específica para activar el sistema, induciendo de ese modo muerte o latencia de las células diana en respuesta a estímulos ambientales particulares a los que responden los promotores.
Ejemplo 8. Adaptación de sistemas de proteínas efectoras de CRISPR Cas de tipo V-G para actividad eucariota y en mamíferos
Más allá de las aplicaciones bioquímicas y de diagnóstico descritas en el presente documento, los sistemas de CRISPR-Cas modificadores de ARN programables tales como CLUST.019143 (tipo V-G), por ejemplo, Cas12g, los sistemas descritos en el presente documento tienen aplicaciones importantes en células eucariotas. Las aplicaciones terapéuticas incluyen, pero no se limitan a: corrección de genotipo, inserción de un genotipo protector, ingeniería de transcriptomas (por ejemplo, modificación del corte y empalme), inactivación de ARN y modulación de la expresión génica, edición de bases, ingeniería celular, avances en investigación y desarrollo, tales como para la visualización de ARN, detección de ácido nucleico y cribado de inactivación de ARN.
Para desarrollar sistemas de CRISPR Cas CLUST.019143 (tipo V-G) para aplicaciones eucarióticas, los constructos que codifican para las proteínas efectoras de CRISPR-Cas de tipo V-G se someten en primer lugar a optimización de codones para su expresión en células de mamíferos, y se añaden etiquetas de localización específicas opcionalmente a cualquiera o ambos extremos N-terminal o C-terminal de la proteína efectora. Estas etiquetas de localización incluyen secuencias tales como secuencias de señal de localización nuclear (NLS), que localizan el efector en el núcleo para modificar los ARN nacientes, así como secuencias de señal de exportación nuclear (NES), que dirigen el efector al citoplasma con el fin de modificar ARN maduros. Estas secuencias se describieron anteriormente en la sección “Mutaciones funcionales”. Otras proteínas accesorias, tales como proteínas fluorescentes, pueden añadirse adicionalmente. Se ha demostrado que la adición de proteínas “superplegables” robustas, tales como proteína fluorescente verde superplegable (GFP), puede aumentar la actividad de enzimas CLUST.019143 (tipo V-G) en células de mamífero cuando se añaden al efector (Abudayyeh et al. (2017) Nature 550 (7675): 280-4 y Cox et al. (2017) Science 358(6366): 1019-27).
Se usa ingeniería adicional para modificar el ARNcr y/o ARNtracr para optimizar la actividad específicamente en células eucariotas y/o de mamífero. Para simplificar la expresión y la formación de complejos de ARNcr y ARNtracr dobles requeridos para la actividad de Cas12g, se diseña una sola secuencia de guía de ARN. En algunas realizaciones, el ARNcr y el ARNtracr se modifican por ingeniería genética usando una secuencia de ligador corto que conecta el extremo 3' del ARNtracr con el extremo 5' del ARNcr. Una característica clave para a conservar es la estructura secundaria global de los ARN co-plegados. Además, la longitud y la composición del ligador, así como la secuencia de la repetición directa adyacente al ligador, se optimizan para diseñar una guía de ARN individual más eficaz. Además, pueden usarse modificaciones químicas (Hendel et al. Nat Biotechnol. Septiembre de 2015; 33 (9): 985-989, Yin, et al. Nat Biotechnol. Diciembre de 2017; 35(12): 1179-1187) para mejorar la eficiencia de edición in vivo al conferir propiedades tales como una mayor resistencia a la degradación por nucleasas y una mejor formación de estructuras secundarias. En un caso, el efecto de estas modificaciones se compara en su capacidad de inactivación de ARN frente a la composición en la que el pre-ARNcr y el ARNtracr se expresan como ARN separados. Juntas, estas modificaciones diseñadas por ingeniería genética proporcionan una mayor actividad nucleasa en células eucariotas y aumentan la flexibilidad de uso en aplicaciones de edición del genoma.
La secuencia con codones optimizados que codifica para Cas12g y las proteínas accesorias y señales de localización adjuntas se clonan luego en un vector de expresión eucariota con la secuencia de inicio de la traducción eucariota 5' Kozak apropiada, promotores eucariotas y señales de poliadenilación. En una realización, la expresión del efector está impulsada por un promotor constitutivo, el promotor corto del factor de elongación 1 alfa (EFS), y se termina con una señal de poli(A) de bGH. La expresión de la guía de ARN está impulsada por U6, un promotor de polimerasa III; o si el ARNcr y el ARNtracr se expresan por separado, mediante los promotores U6 y H1 de polimerasa III, respectivamente.
Dependiendo de la aplicación y el modo de empaquetamiento, el vector de expresión eucariota puede ser una estructura principal de plásmido lentiviral, estructura principal de plásmido viral adenoasociado (VAA). En particular, el pequeño tamaño de las proteínas efectoras de c RiSPR Cas CLUST.019143 (tipo V-G), por ejemplo, proteínas Cas12g, las hace idealmente adecuadas para empaquetarse junto con su ARNcr y secuencias de control apropiadas en una sola partícula de virus adenoasociado; el límite de tamaño de empaquetamiento de 4,7 kb para VAA puede impedir el uso de efectores más grandes.
Además, la multiplexación de Cas12g con múltiples guías de ARN dirigidas a diferentes secuencias permite la manipulación de múltiples especies de ARN para aplicaciones terapéuticas que requieren la manipulación de múltiples transcritos simultáneamente.
Después de adaptar las secuencias, los vectores de administración y los métodos para uso en mamíferos, los constructos de Cas12g descritos en el presente documento se caracterizan por su rendimiento. Para una prueba eficiente de los niveles de actividad en mamíferos de diversos constructos, se usó un indicador de luciferasa doble que expresa tanto luciferasa de Gaussia (Glue) como luciferasa de Cipridinia (Clue) (Abudayyeh et al.
2017). El constructo indicador de luciferasa doble junto con los plásmidos que expresan el sistema de CRISPR-Cas CLUST.019143 (tipo V-G) y las guías de a Rn afines se administran usando transfección transitoria (por ejemplo, Lipofectamine® 2000) en líneas celulares modelo tales como células HEK 293T. La selección como diana del transcrito de Gluc y la comparación de la actividad relativa frente al control interno de la actividad de Clue permite una estimación de la eficacia de Cas12g en un contexto de mamíferos. Luego, esta actividad se corrobora en el indicador mediante la inactivación de transcritos endógenos, tales como a partir del locus genético KRAS bien caracterizado.
Además de someter a prueba diversas configuraciones de constructo y secuencias accesorias en dianas individuales, se usan enfoques basados en bibliotecas agrupadas para determinar 1) cualquier dependencia de direccionamiento de proteínas Cas12g específicas en células de mamíferos, así como 2) el efecto de las ubicaciones y combinaciones de apareamientos erróneos a lo largo del longitud del ARNcr de direccionamiento. Brevemente, la biblioteca agrupada incluye un plásmido que expresa un ARN diana que contiene diferentes secuencias flanqueantes, así como apareamientos erróneos con la guía o guías usadas en el experimento de cribado, de manera que el reconocimiento y la escisión exitosos de la diana dan como resultado el agotamiento de la secuencia de la biblioteca. Además, se usa secuenciación de ARNm para determinar los efectos de escisión de ARN fuera de la diana del sistema de CRISPR-Cas CLUST.019143 (tipo V-G).
Las posibilidades complementarias a la modificación del transcriptoma usando la actividad de escisión de ARN de Cas12g son aplicaciones diseñadas por ingeniería genética que usan proteínas Cas12g catalíticamente inactivas en las que los residuos conservados del dominio RuvC están mutados a alanina (tal como la mutación inactivante D513A para Cas12g1). Cas12g catalíticamente inactiva conserva su actividad de unión a ARN programable, aunque ya no podrá escindir ARN diana o colateral.
Además de los usos directos de dCas12g, tal como en inmunoprecipitación de ARN, etiquetado de transcritos (cuando dCas12g se fusiona con proteína fluorescente) y la modificación de la traducción a través de la alteración dirigida específica de sitio de la maquinaria de traducción nativa, pueden añadirse otros dominios sobre la proteína dCas12g para proporcionar funcionalidad adicional. Las actividades de estos dominios incluyen modificación de bases del Ar N (ADAR1, ADAR2, APOBEC), metilación del ARN (m6A metiltransferasas y desmetilasas), modificadores del corte y empalme (hnRNPA1), factores de localización (secuencia de retención KDEL, señal de direccionamiento mitocondrial, señal de direccionamiento peroxisomal), factores de modificación de la traducción (factor de iniciación de la traducción EIF4G, polimerasa GLD2 poli(A), represores transcripcionales). Además, se proporciona un control adicional mediante dominios adjuntos adicionales, tales como control activado por luz (criptocromos) y los componentes inducibles químicamente (dimerización inducible químicamente FKBP-FRB).
La optimización de la actividad de tales proteínas de fusión requiere un modo sistemático de comparación de ligadores que conectan la dCas12g con el dominio adjunto. Estos ligadores incluyen ligadores flexibles de glicinaserina (GS) en diversas combinaciones y longitudes, ligadores rígidos tales como la secuencia EAAAK que forma una hélice alfa, ligador XTEN (Schellenberger V, et al. Nat. Biotechnol. 2009;27:1186-1190), así como diferentes combinaciones de los mismos (véase la tabla 16). Luego, los diversos diseños se analizan en paralelo sobre el mismo complejo de guía de ARN/diana y lectura funcional para determinar cuál produce las propiedades deseadas.
Para adaptar Cast2g para su uso en la modificación de bases de ARN seleccionadas como diana (véase, por ejemplo, Cox DBT et al., Science 2017 10.1126/science.aaq0180), se comenzó con el ortólogo Cas12g y la combinación de NES que produjo la mayor actividad de inactivación de ARN endógeno de mamíferos y se mutaron los residuos conservados del dominio RuvC para crear una enzima catalíticamente inactiva. A continuación, se usa un ligador para crear la proteína de fusión entre Cas12g-NES y el dominio de edición de bases. Inicialmente, este dominio consistirá en el mutante ADAR2dd(E488Q/T375G) diseñado por ingeniería genética previamente para hiperactividad y mayor especificidad cuando se usa con Cas13b en REPAIRv2, pero pueden diseñarse por ingeniería genética desaminasas alternativas tales como ADAR1 y APOBEC1, entre otras, y someterse a ensayo en paralelo (talba 16). Dadas las probables diferencias estructurales entre la Cas12g más pequeña y los efectores Cas13 previamente caracterizados, diseños y longitudes de ligador alternativos pueden producir el diseño óptimo de la proteína de fusión de edición de bases.
Para evaluar la actividad de los editores de bases derivados de dCas12g, las células HEK 293T se transfectan transitoriamente con el constructo dCas12g-ADAR, un plásmido que expresa la guía de ARN y, opcionalmente, un plásmido indicador si el editor de bases se dirige al indicador y no a un locus endógeno. Las células se recogen 48 horas después de la transfección transitoria, el ARN se extrae y se somete a transcripción inversa para producir una biblioteca de ADNc que se prepara para la secuenciación de última generación. El análisis de la composición de bases de los loci de muestras que contienen los ARNcr de direccionamiento frente a los ARNcr de control negativo sin direccionamiento proporciona información sobre la eficiencia de edición, y el análisis de cambios más amplios en el transcriptoma proporcionará información sobre la actividad inespecífica.
Una ventaja particular de desarrollar un sistema de edición de bases de ARN usando Cas12g es que el tamaño pequeño, más pequeño que los efectores Cas13a - d existentes, permite un empaquetamiento más listo en VAA de dCas12g-ADAR junto con su guía de ARN y elementos de control sin necesidad de truncamientos proteicos. Este vector de VAA todo en uno permite una mayor eficacia de edición de bases in vivo en tejidos, lo que es particularmente relevante como un camino hacia las aplicaciones terapéuticas de Cas12g. En la edición de bases y otras aplicaciones, el tamaño pequeño, la falta de un PFS bioquímico y la actividad robusta de proteínas Cas12g lo convierten en una valiosa adición a la caja de herramientas de las enzimas modificadoras de ARN programables.
Tabla 16. Secuencias de aminoácidos de motivos y dominios funcionales en variantes diseñadas por ingeniería genética de proteínas efectoras de CRISPR-Cas CLUST.019143 (tipo V-G)
Figure imgf000068_0001
Figure imgf000069_0001
Otras realizaciones
Debe entenderse que aunque la invención se ha descrito junto con la descripción detallada de la misma, la descripción anterior pretende ilustrar y no limitar el alcance de la invención, que está definido por el alcance de las reivindicaciones adjuntas.

Claims (15)

REIVINDICACIONES
1. Sistema asociado a repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas (CRISPR) (Cas) diseñado por ingeniería genética que no se produce de manera natural que comprende:
una guía de ARN o un ácido nucleico que codifica para una guía de ARN, en el que la guía de ARN comprende una secuencia de repetición directa, una secuencia espaciadora capaz de hibridarse con un ácido nucleico diana, y un ARNtracr; y
una proteína efectora de CRISPR-Cas que contiene dominio de nucleasa RuvC o un ácido nucleico que codifica para la proteína efectora de CRISPR-Cas que contiene dominio de nucleasa RuvC, en el que la proteína efectora de CRISPR-Cas que contiene dominio de nucleasa RuvC es capaz de unirse a la guía de a Rn y de dirigir la secuencia de ácido nucleico diana complementaria a la secuencia espaciadora;
en el que la proteína efectora de CRISPR-Cas comprende una secuencia de aminoácidos que es al menos el 95 % idéntica a la secuencia de aminoácidos de SEQ ID NO: 6, y en el que el ácido nucleico diana es ARN.
2. Sistema según la reivindicación 1, en el que:
(a) la proteína efectora de CRISPR-Cas comprende la secuencia de aminoácidos de SEQ ID NO: 6;
(b) la secuencia espaciadora comprende de 15 a 30 nucleótidos; o
(c) la secuencia de repetición directa comprende una secuencia de nucleótidos de SEQ ID NO: 401 o SEQ ID NO: 202.
3. Sistema según la reivindicación 1 ó 2, en el que el ácido nucleico diana:
(a) es un ARN monocatenario; o
(b) se selecciona del grupo que consiste en un ARNm, un ARNt, un ARN ribosómico, un ARN no codificante, un ARNInc o un ARN nuclear.
4. Sistema según una cualquiera de las reivindicaciones 1 a 3, en el que la selección como diana del ácido nucleico diana por la proteína efectora de CRISPR-Cas y la guía de ARN da como resultado una modificación del ácido nucleico diana, en el que opcionalmente:
(a) la modificación en el ácido nucleico diana es un evento de escisión;
(b) la modificación en el ácido nucleico diana es un evento de mellado; o
(c) el ácido nucleico diana está comprendido en una célula y la modificación da como resultado toxicidad celular.
5. Sistema según una cualquiera de las reivindicaciones 1 a 4, en el que:
(a) la proteína efectora de CRISPR-Cas incluye una o más sustituciones de aminoácidos dentro del dominio RuvC, opcionalmente en el que la una o más sustituciones de aminoácidos dentro de los dominios RuvC incluyen una sustitución de alanina en un residuo de amino correspondiente a D513, E655 o D745 de SEQ ID NO: 6; o (b) el dominio RuvC está inactivado catalíticamente.
6. Sistema según una cualquiera de las reivindicaciones 1 a 5, en el que la proteína efectora de CRISPR-Cas: (a) se fusiona con un dominio de edición de bases (por ejemplo, adenosina desaminasa que actúa sobre ARN 1 (ADAR1), ADAR2, enzima de edición de ARNm de apolipoproteína B, de tipo polipéptido catalítico (APOBEC)), o citidina desaminasa inducida por activación (AID)), una ARN metiltransferasa, una ARN desmetilasa, un modificador del corte y empalme, un factor de localización o un factor de modificación de la traducción; o (b) comprende al menos una (por ejemplo, dos, tres, cuatro, cinco, seis o más) de:
(i) señal de localización nuclear (NLS); y/o
(ii) señal de exportación nuclear (NES).
7. Sistema según una cualquiera de las reivindicaciones 1 a 6, en el que la secuencia de ARNtracr:
(a) comprende una secuencia de nucleótidos proporcionada en la tabla 6;
(b) está codificada por una secuencia, o fragmento de la misma, enumerada en la tabla 7.
8. Sistema según una cualquiera de las reivindicaciones 1 a 7, en el que la secuencia de ARNtracr comprende GAUGCUUACUUAGUCAUCUGGUUGGCAAACCUCCGCGGACCUUCGGGACCAAU GGAGAGGAACCCAGCCGAGAAGCAUCGAGCCGGUAAAUGCCGGAAA (SEQ ID
NO: 250).
9. Célula que comprende el sistema o un complejo según una cualquiera de las reivindicaciones 1 a 8, en la que opcionalmente la célula es una célula eucariota o una célula procariota.
10. Método in vitro o ex vivo de selección como diana de un ácido nucleico diana que comprende poner en contacto el sistema según una cualquiera de las reivindicaciones 1 a 8 con el ácido nucleico diana en una célula, en el que el ácido nucleico diana es ARN.
11. Método según la reivindicación 10, en el que el contacto del sistema con el ácido nucleico diana da como resultado:
(a) una modificación del ácido nucleico diana;
(b) la escisión del ácido nucleico diana; o
(c) la formación de una inserción o una deleción en el ácido nucleico diana.
12. Método según la reivindicación 10 u 11, en el que el ácido nucleico diana está presente en un sitio transcripcionalmente activo.
13. Método según una cualquiera de las reivindicaciones 10 a 12, en el que el método da como resultado muerte celular.
14. Sistema según una cualquiera de las reivindicaciones 1 a 8, en el que la proteína efectora de CRISPR-Cas carece tanto de un dominio HNH como de un dominio HEPN.
15. Método in vitro o ex vivo de modificación de una molécula de ARN, comprendiendo el método poner en contacto la molécula de ARN con un sistema según una cualquiera de las reivindicaciones 1 a 8.
ES19717640T 2018-03-14 2019-03-14 Sistemas y enzimas novedosos de direccionamiento a ADN y ARN de CRISPR Active ES2953541T3 (es)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US201862642919P 2018-03-14 2018-03-14
US201862666397P 2018-05-03 2018-05-03
US201862672489P 2018-05-16 2018-05-16
US201862699498P 2018-07-17 2018-07-17
US201862729393P 2018-09-10 2018-09-10
US201862740867P 2018-10-03 2018-10-03
US201862746539P 2018-10-16 2018-10-16
US201862772043P 2018-11-27 2018-11-27
US201862775874P 2018-12-05 2018-12-05
PCT/US2019/022376 WO2019178428A1 (en) 2018-03-14 2019-03-14 Novel crispr dna and rna targeting enzymes and systems

Publications (1)

Publication Number Publication Date
ES2953541T3 true ES2953541T3 (es) 2023-11-14

Family

ID=66175481

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19717640T Active ES2953541T3 (es) 2018-03-14 2019-03-14 Sistemas y enzimas novedosos de direccionamiento a ADN y ARN de CRISPR

Country Status (8)

Country Link
US (1) US20230242891A1 (es)
EP (2) EP4253551A3 (es)
AU (1) AU2019236211A1 (es)
DK (1) DK3765616T3 (es)
ES (1) ES2953541T3 (es)
FI (1) FI3765616T3 (es)
PT (1) PT3765616T (es)
WO (1) WO2019178428A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11499151B2 (en) 2017-04-28 2022-11-15 Editas Medicine, Inc. Methods and systems for analyzing guide RNA molecules
JP2020524497A (ja) 2017-06-09 2020-08-20 エディタス・メディシン,インコーポレイテッド 操作されたcas9ヌクレアーゼ
WO2019014564A1 (en) 2017-07-14 2019-01-17 Editas Medicine, Inc. SYSTEMS AND METHODS OF TARGETED INTEGRATION AND GENOME EDITING AND DETECTION THEREOF WITH INTEGRATED PRIMING SITES
AU2019236210A1 (en) 2018-03-14 2020-09-10 Arbor Biotechnologies, Inc. Novel CRISPR DNA targeting enzymes and systems
US20210198664A1 (en) 2018-05-16 2021-07-01 Arbor Biotechnologies, Inc. Novel crispr-associated systems and components
US10934536B2 (en) 2018-12-14 2021-03-02 Pioneer Hi-Bred International, Inc. CRISPR-CAS systems for genome editing
CN110596384B (zh) * 2019-10-12 2022-08-12 南京黎明生物制品有限公司 基于Cas蛋白及gRNA复合物制备的人乳头瘤病毒6型和11型免疫检测试剂盒
CN112986551B (zh) * 2019-12-11 2022-09-27 北京聚树生物科技有限公司 一种检测混合体系内目标分子浓度的方法及试剂盒
BR112022014777A2 (pt) * 2020-01-27 2022-09-20 Sherlock Biosciences Inc Ensaios de detecção aprimorados
CN112877410B (zh) * 2020-12-30 2022-09-13 东北大学 一种优化的基于crispr介导的核酸检测系统及其检测方法
CN112725343A (zh) * 2021-01-22 2021-04-30 南京工业大学 联合金纳米探针和CRISPR-Cas的蛋白标志物检测试剂盒及检测方法
BR112023024985A2 (pt) 2021-06-01 2024-02-20 Arbor Biotechnologies Inc Sistemas de edição de genes compreendendo uma crispr nuclease e usos dos mesmos
CN113552103B (zh) * 2021-07-20 2022-12-30 济南大学 一种基于CRISPR-Cas系统的检测外泌体的荧光生物传感器
TW202321454A (zh) * 2021-07-26 2023-06-01 美商夏洛克生物科學公司 經改良之crispr-cas技術

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797368A (en) 1985-03-15 1989-01-10 The United States Of America As Represented By The Department Of Health And Human Services Adeno-associated virus as eukaryotic expression vector
US5703055A (en) 1989-03-21 1997-12-30 Wisconsin Alumni Research Foundation Generation of antibodies through lipid mediated DNA delivery
US5173414A (en) 1990-10-30 1992-12-22 Applied Immune Sciences, Inc. Production of recombinant adeno-associated virus vectors
US5587308A (en) 1992-06-02 1996-12-24 The United States Of America As Represented By The Department Of Health & Human Services Modified adeno-associated virus vector capable of expression from a novel promoter
US5593972A (en) 1993-01-26 1997-01-14 The Wistar Institute Genetic immunization
JP4772045B2 (ja) 2004-07-16 2011-09-14 アメリカ合衆国 Cmv/r核酸コンストラクトを含むaidsに対するワクチン
CA2894668A1 (en) 2012-12-12 2014-06-19 The Broad Institute, Inc. Crispr-cas systems and methods for altering expression of gene products in eukaryotic cells
RU2721275C2 (ru) 2012-12-12 2020-05-18 Те Брод Инститьют, Инк. Доставка, конструирование и оптимизация систем, способов и композиций для манипуляции с последовательностями и применения в терапии
DK3459965T3 (da) 2013-10-11 2021-02-22 Massachusetts Eye & Ear Infirmary Fremgangsmåder til forudsigelse af forfædrevirussekvenser og anvendelser deraf
CN111218447A (zh) 2013-11-07 2020-06-02 爱迪塔斯医药有限公司 使用统治型gRNA的CRISPR相关方法和组合物
EP3230452A1 (en) 2014-12-12 2017-10-18 The Broad Institute Inc. Dead guides for crispr transcription factors
WO2016106236A1 (en) * 2014-12-23 2016-06-30 The Broad Institute Inc. Rna-targeting system
CA3012631A1 (en) 2015-06-18 2016-12-22 The Broad Institute Inc. Novel crispr enzymes and systems
US9790490B2 (en) 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems
CA3024543A1 (en) 2015-10-22 2017-04-27 The Broad Institute, Inc. Type vi-b crispr enzymes and systems
WO2017091630A1 (en) * 2015-11-23 2017-06-01 The Regents Of The University Of California Tracking and manipulating cellular rna via nuclear delivery of crispr/cas9
US10337051B2 (en) 2016-06-16 2019-07-02 The Regents Of The University Of California Methods and compositions for detecting a target RNA
CA3028158A1 (en) 2016-06-17 2017-12-21 The Broad Institute, Inc. Type vi crispr orthologs and systems

Also Published As

Publication number Publication date
EP3765616A1 (en) 2021-01-20
AU2019236211A1 (en) 2020-09-17
FI3765616T3 (fi) 2023-08-29
DK3765616T3 (da) 2023-08-21
WO2019178428A1 (en) 2019-09-19
US20230242891A1 (en) 2023-08-03
EP4253551A3 (en) 2024-01-24
EP3765616B1 (en) 2023-07-19
PT3765616T (pt) 2023-08-28
EP4253551A2 (en) 2023-10-04

Similar Documents

Publication Publication Date Title
ES2953541T3 (es) Sistemas y enzimas novedosos de direccionamiento a ADN y ARN de CRISPR
ES2952978T3 (es) Sistemas y enzimas novedosos de direccionamiento a ADN de CRISPR
US11225659B2 (en) Type VI-E and type VI-F CRISPR-Cas system and uses thereof
US10392616B2 (en) CRISPR RNA targeting enzymes and systems and uses thereof
CA3093580A1 (en) Novel crispr dna and rna targeting enzymes and systems
US20230058054A1 (en) Crispr/cas system and uses thereof
US20210139890A1 (en) Novel crispr rna targeting enzymes and systems and uses thereof