ES2963187T3

ES2963187T3 - Novedosas nucleasas CRISPR-Cas no naturales para edición genómica

Info

Publication number: ES2963187T3
Application number: ES21765836T
Authority: ES
Inventors: Paul Scholz; Christian Zurek; Michael Krohn
Original assignee: BRAIN Biotech AG
Current assignee: BRAIN Biotech AG
Priority date: 2020-07-21
Filing date: 2021-07-20
Publication date: 2024-03-25
Anticipated expiration: 2041-07-20
Also published as: WO2022017633A3; EP4279597A3; EP4025691A2; FI4025691T3; US20230287372A1; EP4025691B1; CA3189525A1; EP4279597A2; IL299990B1; JP2023535064A; WO2022017633A8; PL4025691T3; BR112022026311A2; DK4025691T3; EP3943600A1; AU2021311773A1; KR20230041687A; CN116134133A; IL299990A; WO2022017633A2

Abstract

La presente invención se refiere a una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN, que es (a) una molécula de ácido nucleico que codifica la ADN endonucleasa guiada por ARN que comprende o consiste en la secuencia de aminoácidos de SEQ ID NO: 29, 1 o 3; (b) una molécula de ácido nucleico que comprende o consiste en la secuencia de nucleótidos de SEQ ID NO: 30, 2 o 4; (c) una molécula de ácido nucleico que codifica una endonucleasa de ADN guiada por ARN cuya secuencia de aminoácidos es al menos un 90 %, preferiblemente al menos un 92 % y lo más preferiblemente al menos un 95 % idéntica a la secuencia de aminoácidos de (a); (d) una molécula de ácido nucleico que comprende o consiste en una secuencia de nucleótidos que es al menos un 90 %, preferiblemente al menos un 92 % y más preferiblemente al menos un 95 % idéntica a la secuencia de nucleótidos de (b); (e) una molécula de ácido nucleico que está degenerada con respecto a la molécula de ácido nucleico de (d); o (f) una molécula de ácido nucleico correspondiente a la molécula de ácido nucleico de cualquiera de (a) a (d) en la que T se reemplaza por U. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Novedosas nucleasas CRISPR-Cas no naturales para edición genómica

La presente invención se define mediante las reivindicaciones y según esto se refiere a una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN, que es (a) una molécula de ácido nucleico que codifica la ADN endonucleasa guiada por ARN que comprende o consiste en la secuencia de aminoácidos de SEQ ID NO: 29, 1 o 3; (b) una molécula de ácido nucleico que comprende o consiste en la secuencia de nucleótidos de SEQ ID NO: 30, 2 o 4; (c) una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN cuya secuencia de aminoácidos es al menos el 95% idéntica a la secuencia de aminoácidos de (a); (d) una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN que comprende o consiste en una secuencia de nucleótidos que es al menos el 95% idéntica a la secuencia de nucleótidos de (b); o (e) la molécula de ácido nucleico de cualquiera de (a) a (d) en donde T se sustituye por U.

Los sistemas CRISPR-Cas son sistemas de inmunidad adaptativa extendidos de procariotas contra ácidos nucleicos exógenos invasores. Hasta ahora, se han identificado más de 30 sistemas CRISPR-Cas diferentes que se diferencian en la arquitectura de sus loci, número, e identidad de sus genes que codifican las proteínas Cas (asociadas a CRISPR). Por ejemplo, el documento WO 2018/191715 describe polipéptidos con actividad CRISPR de tipo V y usos de los mismos.

La firma típica de los sistemas CRISPR en genomas procariotas es la presencia de cortas (30-45 pb) secuencias repetitivas (repeticiones) que están intercaladas por secuencias variables (espaciadores) de longitudes similares. Las proteínas Cas se localizan o bien antes o después del grupo repetición-espaciador. Según su composición génica y diferencias mecanicistas, los subtipos se clasifican en dos clases de CRISPR (clase 1 y 2). Una de sus diferencias principales es que los sistemas CRISPR de clase 1 necesitan un complejo de múltiples proteínas Cas para degradar el ADN, mientras las proteínas Cas de clase 2 son nucleasas multidominio grandes individuales. La especificidad de secuencia de las proteínas Cas de clase 2 sencillamente se puede modificar por CRISPR ARN (crARN) sintéticos con el fin de introducir roturas de ADN bicatenario dirigidas. Los miembros más prominentes de tales proteínas Cas de clase 2 son Cas9, Cpf1 (Cas12a) y Cms1, que se aprovechan para edición genómica y se aplican con éxito en muchos organismos eucariotas incluyendo hongos, plantas y células de mamífero. Mientras Cas9 y sus ortólogos son nucleasas CRISPR de clase 2 tipo II, Cpf1 (documento WO2016/2055711 BROAD Inst.; WO2017/141173 Benson Hill) y Cms1 (documento WO2019/030695 Benson Hill) pertenecen a las nucleasas de clase 2 tipo V. Las nucleasas CRISPR Cms1 y Cpf1 son una clase de nucleasas CRISPR que tienen ciertas propiedades deseables comparadas con otras nucleasas CRISPR tal como las nucleasas de tipo II. Por ejemplo, al contrario que las nucleasas Cas9, Cms1 y Cpf1 no requieren un crARN transactivador (tracrARN), que es parcialmente complementario al crARN precursor (pre-crARN) (Deltcheva et al. (2011), Nature, 471(7340):602-607). El emparejamiento de bases de tracrARN y el precrARN forma un dúplex ARN:ARN unido a Cas9, que es procesado por RNasa III y otras nucleasas no identificadas. Este dúplex tracrARN:crARN maduro media el reconocimiento del ADN diana y el corte por Cas9. Al contrario, las nucleasas de tipo V pueden procesar el pre-crARN sin la necesidad de tracrARN o nucleasas celulares (como RNasa III), lo que simplifica significativamente la aplicación de las nucleasas de tipo V para edición genómica (multiplex).

Varias proteínas nuevas de clase 2, como C2c1 (Cas12b), C2c2 (Cas13a) y C2c3 (Cas12c) se han identificado en los genomas de bacterias cultivadas o conjuntos de datos metagenómicos disponibles públicos, por ejemplo, metagenoma del intestino (Shmakov et al. (2015), Mol Cell,60(3):385-97). Según la reciente clasificación de los sistemas CRISPR-Cas, la clase 2 comprende 3 tipos y 17 subtipos (Makarova et al. (2020), Nat Rev Microbiol, 18(2):67-83).

Además, en una publicación reciente se descubrieron dos nuevas proteínas de clase 2 (CasX (Cas12a) y CasY (Cas12d)) en procariotas no cultivados por secuenciación metagenómica (Burstein et al. (2017), Nature, 542:237-241), lo que indica la presencia de proteínas Cas inexploradas de organismos que no se cultivan y/o no identificados aún.

Como se ha discutido, los sistemas CRISPR-Cas conocidos muestran ciertas diferencias con respecto a su modo de acción. Estas diferencias moleculares no solo aumentan las posibilidades de usar el sistema CRISPR-Cas para edición genómica en una amplia gama de antecedentes genéticos diferentes, sino también para evitar problemas de nucleasas Cas particulares cuando se aplican en ciertos organismos, por ejemplo, respuesta inmunitaria preexistente a Cas9 en seres humanos (Charlesworth et al. (2019), Nat Med, 25(2):249-254). Por tanto, la identificación de nucleasas Cas de especies bacterianas con menos contacto directo con eucariotas superiores o con un origen no nativo es de particular importancia. Se puede asumir que los sistemas CRISPR-Cas con característica aun desconocidas existen en la naturaleza o se pueden diseñar por ingeniería de proteínas. Por tanto, aunque ya se conocen varios sistemas CRISPR-Cas diferentes del estado de la técnica hay una necesidad en curso para identificar más ADN endonucleasas guiadas por ARN.

Según esto, la presente invención se refiere en un primer aspecto a una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN, que es (a) una molécula de ácido nucleico que codifica la ADN endonucleasa guiada por ARN que comprende o consiste en la secuencia de aminoácidos de SEQ ID NO: 29, 1 o 3; (b) una molécula de ácido nucleico que comprende o consiste en la secuencia de nucleótidos de SEQ ID NO: 30, 2 o 4; (c) una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN cuya secuencia de aminoácidos es al menos el 95% idéntica a la secuencia de aminoácidos de (a); (d) una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN que comprende o consiste en una secuencia de nucleótidos que es al menos el 95% idéntica a la secuencia de nucleótidos de (b); o (e) la molécula de ácido nucleico de cualquiera de (a) a (d) en donde T se sustituye por U.

Las SEQ ID NO 1, 3 y 29 son las secuencias de aminoácidos de las novedosas endonucleasas CRISPR-Cas BEC85, BEC67 y BEC10, respectivamente, en donde BEC es una abreviatura de Cas manipulada de BRAIN. Entre las secuencias de aminoácidos de SEQ ID NO 1, 3 y 29, SEQ ID NO: 29 y, por tanto, la secuencia de aminoácidos de BEC10, es preferida. Las novedosas endonucleasas CRISPR-Cas BEC85, BEC67 y BEC10 están codificadas por las secuencias de nucleótidos de SEQ ID NO: 2, 4 y 30, respectivamente. Entre las secuencias de nucleótidos de las SEQ ID NO 2, 4 y 30, SEQ ID NO: 30 y, por tanto, la secuencia de nucleótidos de BEC10 es preferida. Como se discutirá en más detalla en el presente documento posteriormente, las novedosas endonucleasas CRISPR-Cas BEC85, BEC67 y BEC10 no se producen en la naturaleza, sino que se han preparado por ingeniería de proteínas.

Según la presente invención el término “molécula de ácido nucleico” define una cadena molecular lineal de nucleótidos. Las moléculas de ácido nucleico según la presente invención consisten en al menos 3327 nucleótidos. El grupo de moléculas designadas en el presente documento “moléculas de ácido nucleico” también comprenden genes completos. El término “molécula de ácido nucleico” se usa de forma intercambiable en el presente documento con el término “polinucleótido”.

El término “molécula de ácido nucleico” según la presente invención incluye ADN, tal como ADNc o ADN genómico bi o monocatenario y ARN. A este respecto, “ADN” (ácido desoxirribonucleico) significa cualquier cadena o secuencia de los bloques fundamentales adenina (A), guanina (G), citosina (C) y timina (T), llamados bases nucleotídicas, que se unen entre sí en un esqueleto de azúcar desoxirribosa. El ADN puede tener una hebra de bases de nucleótidos, o dos hebras complementarias que pueden formar una estructura de doble hélice. “ARN” (ácido ribonucleico) significa cualquier cadena o secuencia de los bloques fundamentales adenina (A), guanina (G), citosina (C) y uracilo (U), llamadas bases nucleotídicas, que se unen entre sí en un esqueleto de azúcar ribosa. El ARN típicamente tiene una hebra de bases nucleotídicas. También se incluyen moléculas híbridas mono- o bicatenarias, es decir, ADN-ADN, ADN-ARN y ARN-ARN. La molécula de ácido nucleico también se puede modificar por muchos medios conocidos en la técnica. Los ejemplos no limitantes de tales modificaciones incluyen metilación, “caperuzas”, sustitución de uno o más nucleótidos naturales con un análogo, y modificaciones internucleotídicas tal como, por ejemplo, esas con enlaces no cargados (por ejemplo, metilfosfonatos, fosfotriésteres, fosforamidatos, carbamatos, etc.) y con enlaces cargados (por ejemplo, fosforotioatos, fosforoditioatos, etc.). Los polinucleótidos pueden contener una o más fracciones adicionales covalentemente unidas, tal como, por ejemplo, proteínas (por ejemplo, nucleasas, toxinas, anticuerpos, péptidos señal, poli-L-lisina, etc.), intercaladores (por ejemplo, acridina, psoraleno, etc.), quelantes (por ejemplo, metales, metales radioactivos, hierro, metales oxidantes, etc.), y alquilantes. Los polinucleótidos se pueden derivatizar por formación de un enlace metil o etil fosfotriéster o un alquil fosforamidato. También se incluyen moléculas que mimetizan ácidos nucleicos conocidas en la técnica tal como derivados sintéticos o semisintéticos de ADN o ARN y polímeros mixtos. Tales moléculas que mimetizan ácidos nucleicos o derivados de ácidos nucleicos según la invención incluyen ácido nucleico con fosforotioato, ácido nucleico con fosforamidato, 2'-O-metoximetil ácido ribonucleico, ácido morfolinonucleico, ácido hexitol nucleico (AHN), ácido péptido nucleico (APN) y ácido nucleico bloqueado (ANB) (véase, Braasch y Corey, Chem Biol 2001, 8: 1). El ANB es un derivado de ARN en el que el anillo de ribosa está constreñido por un enlace metileno entre el oxígeno en 2' y el carbono en 4'. También se incluyen ácidos nucleicos que contienen bases modificadas, por ejemplo, tiouracilo, tioguanina y fluorouracilo. Una molécula de ácido nucleico típicamente porta información genética, incluyendo la información usada por la maquinaria celular para hacer proteínas y/o polipéptidos. La molécula de ácido nucleico de la invención puede además comprender promotores, potenciadores, elementos de respuesta, secuencias señal, secuencias de poliadenilación, intrones, regiones no codificantes 5' y 3', y similares.

El término “polipéptido” como se usa en el presente documento de forma intercambiable con el término “proteína” describe cadenas moleculares lineales de aminoácidos, incluyendo proteínas de cadena única o sus fragmentos. Los polipéptidos/proteínas según la presente invención contienen al menos 1108 aminoácidos. Los polipéptidos pueden además formar oligómeros que consisten en al menos dos moléculas idénticas o diferentes. Las estructuras de orden superior correspondientes de tales multímeros, correspondientemente, se denominan homo- o heterodímeros, homoo heterotrímeros, etc. Los polipéptidos de la invención pueden formar heteromultímeros u homomultímeros, tal como heterodímeros u homodímeros. Además, peptidomiméticos de tales proteínas/polipéptidos donde aminoácido(s) y/o enlace(s) peptídico(s) se han sustituido por análogos funcionales también están abarcados por la invención. Tales análogos funcionales incluyen todos los aminoácidos conocidos diferentes de los 20 aminoácidos codificados por genes, tal como selenocisteína. Los términos “polipéptido” y “proteína” también se refieren a polipéptidos y proteínas naturalmente modificados donde la modificación se efectúa, por ejemplo, por glucosilación, acetilación, fosforilación, ubiquitinación y modificaciones similares que se conocen bien en la técnica.

El término “ADN endonucleasa guiada por ARN” o “endonucleasa CRISPR(-Cas)” describe una enzima que tiene la capacidad de cortar el enlace fosfodiéster en una hebra de desoxirribonucleótidos (ADN) produciendo mediante ello una rotura bicatenaria (DSB). BEC85, BEC67 y BEC10 se clasifican como novedosas endonucleasas CRISPR de clase 2 tipo V que se sabe introducen un corte escalonado con un saliente 5'. Por tanto, una ADN endonucleasa guiada por ARN comprende un dominio endonucleasa, en particular un dominio RuvC. Los dominios RuvC de BEC85, BEC67 y BEC10 comprenden cada uno tres motivos RuvC divididos (RuvC I-III; SEQ ID NO: 5 a 7). Una ADN endonucleasa guiada por a Rn también comprende un dominio que es capaz de unirse a un crARN, también conocido como ARN guía (ARNg; también se designa ARN que se dirige al ADN en el presente documento).

El sitio de corte de la ADN endonucleasa guiada por ARN está guiado por un ARN guía. El ARNg confiere la especificidad de la secuencia diana a la ADN endonucleasa guiada por ARN. Tales ARNg son secuencias de ARN cortas no codificantes que se unen a las secuencias de ADN diana complementarias. El ARNg primero se une a la ADN endonucleasa guiada por ARN mediante un dominio de unión que puede interaccionar con la ADN endonucleasa guiada por ARN. El dominio de unión que puede interaccionar con la<a>D<n>endonucleasa guiada por ARN típicamente comprende una región con una estructura de tallo-bucle. Este tallo-bucle preferiblemente comprende la secuencia UCUACN<3-5>GUAGAU (SEQ ID NO: 8), con el emparejamiento de bases “u CuAC” y “GUAGA” para formar el tallo del tallo-bucle. N<3-5>indica que cualquier base puede estar presente en esta localización, y 3, 4 o 5 nucleótidos pueden estar incluidos en esta localización. El tallo-bucle lo más preferiblemente comprende la secuencia de repetición directa de tallo bucle de BEC85 (SEQ ID NO: 9), BEC67 (SEQ ID NO: 10) y BEC10 (SEQ ID NO: 10), respectivamente, pero en la forma de ARN (es decir, en donde T se sustituye por U). La secuencia ARNg guía el complejo (conocido como complejo ribonucleoproteína (RNP) CRISPR del ARNg y la ADN endonucleasa guiada por ARN) mediante emparejamiento a una localización específica en una hebra de ADN, donde la ADN endonucleasa guiada por ARN realiza su actividad endonucleasa cortando la hebra de ADN en el sitio diana. El sitio diana genómico del ARNg puede ser cualquier secuencia de ADN de aproximadamente 20 (típicamente de 17 a 26) nucleótidos, siempre que cumpla dos condiciones: (i) la secuencia es única comparada con el resto del genoma, y (ii) la diana está presente inmediatamente adyacente a un motivo adyacente de protoespaciador (PAM).

El sitio de corte de la ADN endonucleasa guiada por ARN, por tanto, se define además por un PAM. El PAM es una secuencia de ADN cota (habitualmente 2-6 pares de bases de longitud) que sigue a la región de ADN objetivo para corte por el sistema CRISPR. La secuencia exacta depende de qué endonucleasa CRISPR se usa. Las endonucleasas CRISPR y sus respectivas secuencias PAM se conocen en la técnica (véase, https://www.addgene.org/crispr/guide/#pam-table). Por ejemplo, el PAM reconocido por la primera ADN endonucleasa guiada por ARN identificada Cas9 es 5'-NGG-3' (donde “N” puede ser cualquier base nucleotídica). El PAM se requiere para que una ADN endonucleasa guiada por ARN corte. En Cas9 se encuentra aproximadamente 2-6 nucleótidos después de la secuencia de ADN a la que se dirige el ARN guía y 3-6 nucleótidos después del sitio de corte. En sistemas de tipo V (incluyendo BEC85, BEC67 y BEC10) el PAM está localizado antes de ambos, la secuencia diana y el sitio de corte. El complejo de la ADN endonucleasa guiada por ARN y el ARN guía comprende un llamado dominio de interacción con PAM (Andres et al. (2014), Nature, 513(7519):569-573). Por tanto, las localizaciones genómicas que pueden ser objetivo para edición por una ADN endonucleasa guiada por ARN están limitadas por la presencia y localización de la secuencia PAM específica de nucleasa. Como BEC85, BEC67 y BEC10 pertenecen al grupo de nucleasas CRISPR de clase 2 tipo V se predice un sitio PAM rico en T y se mostró que un sitio PAM TTTAera funcional (véase los ejemplos).

El término “porcentaje (%) de identidad de secuencia” describe el número de coincidencias (“aciertos”) de nucleótidos/aminoácidos idénticos de dos o más secuencias de ácido nucleico o aminoácidos alineadas en comparación con el número de nucleótidos o residuos de aminoácidos que constituyen la longitud total de las secuencias molde de ácido nucleico o aminoácidos. En otros términos, usando un alineamiento, para dos o más secuencias o subsecuencias el porcentaje de residuos de aminoácidos o nucleótidos que son iguales (por ejemplo, el 70% de identidad) se puede determinar, cuando las (sub)secuencias se comparan y alinean para correspondencia máxima sobre una ventana de comparación, o sobre una región designada medida usando un algoritmo de comparación de secuencias como se sabe en la técnica, o cuando se alinean manualmente y se inspeccionan visualmente. Esta definición también aplica al complemento de cualquier secuencia que se va a alinear.

El análisis de secuencias de aminoácidos, así como de nucleótidos y los alineamientos en relación con la presente invención preferiblemente se llevan a cabo usando el algoritmo BLAST del NCBI (Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, y David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402). El experto en la materia es consciente de programas adecuados adicionales para alinear secuencias de ácido nucleico.

Como se ha definido en el presente documento anteriormente, la invención prevé una identidad de una secuencia de aminoácidos y una secuencia de nucleótidos de al menos el 95%. Además, la invención prevé con preferencia creciente una identidad de al menos el 96%, al menos el 97%, al menos el 98%, al menos el 99%, al menos el 99,8%, y al menos el 99,9%.

Con respecto a estas secuencias de aminoácidos y las secuencias de aminoácidos que están codificadas por estas secuencias de nucleótidos se prefiere que mantengan o esencialmente mantengan la actividad ADN endonucleasa guiada por ARN de SEQ ID NO: 1, 3 y 29 de la invención. Por tanto, lo que se mantiene o esencialmente mantiene es la capacidad de unirse al ARNg para formar un complejo que sea capaz de unirse al sitio diana de ADN de interés, donde la actividad endonucleasa induce una DSB.

El mantenimiento o esencialmente mantenimiento de la actividad ADN endonucleasa guiada por ARN se puede analizar en un experimento de edición genómica por CRISPR-Cas, por ejemplo, como se ilustra en el ejemplo 3-5. Se prefiere que las secuencias de aminoácidos comprendan y las secuencias de nucleótidos codifiquen un dominio RuvC como se muestra en SEQ ID NO: 5 a 7. Como se ha mencionado, el dominio RuvC es un dominio endonucleasa.

Como se puede tomar de los ejemplos adjuntos las novedosas nucleasas CRISPR BEC85, BEC67 y BEC10 de la presente invención se han generado usando ingeniería de proteínas y un enfoque basadoin silico.Por tanto, las nucleasas Cas de la presente invención no se aislaron sencillamente de una especie bacteriana, sino que son de origen no nativo. En más detalle, se realizó un cribado de numerosas secuencias de nucleasas manipuladas y las actividades de las secuencias identificadas se optimizaron usando ingeniería de proteínas. Hasta donde saben los inventores, esta es la primera vez que un novedoso tipo de nucleasa Cas se ha desarrollado que no está directamente relacionada con una secuencia encontrada en la naturaleza.

Además, los resultados experimentales con las novedosas nucleasas CRISPR BEC85, BEC67 y BEC10 en los ejemplos adjuntos de la presente solicitud sorprendentemente mostraron un mecanismo molecular diferente de las nucleasas CRISPR de la familia BEC en comparación con las clásicas nucleasas CRISPR Cas. Por ejemplo, en comparación con la nucleasa Cas9, que ayuda a la recombinación homóloga introduciendo una rotura bicatenaria dirigida por ARN, la edición mediada por BEC85, BEC67 y BEC10 produce una fuerte reducción de clones global en relación con un enriquecimiento significativo de células de logran con éxito la recombinación homóloga. Por esta razón, las novedosas nucleasas CRISPR de tipo BEC agrandan más la posibilidad de usar la tecnología CRISPR para la edición genómica eficaz.

Como una prueba de principio, el ejemplo 3 muestra que BEC85, BEC67 y BEC10 son endonucleasas CRISPR-Cas activas que se pueden usar con éxito para la edición genómica. En el ejemplo 3 el gen Ade2 deSaccharomyces cerevisiaese inactivó usando BEC85, BEC67 o BEC10, un ARNg y un molde de reparación dirigido por homología.

Igual que las endonucleasas CRISPR de tipo V Cms1 y Cpf1, BEC85, BEC67 y BEC10 no requieren un crARN transactivador (tracrARN). Además, el sistema CRISPR que contiene BEC85,<b>E<c>67 y BEC10 identificado en la presente solicitud contiene secuencias de repetición de CRISPR con un ARN de tallo bucle en el extremo 3' de la repetición que está conservado en los crARN de las familias de proteínas de Cpf1 y Cms1 y los “vecinos más próximos” de BEC85, BEC67 y BEC10 entre todas las endonucleasas CRISPR-Cas conocidas son proteínas Cas de tipo CMS del documento WO 2017/1411736 y en particular las proteínas Cas de tipo CMS SuCms1 (Begemann et al. (2017), bioRxiv) y SeqID63 (documento WO 2019/030695). De forma interesante, el perfil de actividad de las nucleasas CRISPR CMS descrito en los documentos WO 2017/141173, WO 2019/030695 y Begemann et al. (2017), bioRxiv es completamente diferente comparado con el perfil de actividad de las nucleasas CRISPR de la familia BEC. El ejemplo 3 muestra que la actividad endonucleasa de BEC85, BEC67 y BEC10 se basa en un novedoso mecanismo molecular que no se ha descrito antes. En más detalle, en el ejemplo 3 se proporcionan resultados con la endonucleasa CRISPR del estado de la técnica SpCas9 y la novedosa endonucleasa CRISPR de la invención BEC85, BEC67 y BEC10. Los resultados sorprendentemente revelaron un mecanismo de edición genómica molecular completamente diferente de las tres nucleasas CRISPR de tipo BEC en comparación con la nucleasa CRISPR Cas clásica SpCas9. Mientras SpCas9 ayuda a la recombinación homóloga introduciendo una rotura bicatenaria dirigida por ARN, la edición mediada por BEC85, BEC67 y BEC10 produce una fuerte reducción de clones global en relación con un enriquecimiento significativo de células que lograron con éxito la recombinación homóloga. El ejemplo 3 demuestra la capacidad de las nucleasas CRISPR de tipo BEC de funcionar como una novedosa herramienta de edición genómica por recombinación dirigida por homología muy eficaz, dirigida a sitio.

Por esta razón, BEC85, BEC67 y BEC10 se pueden clasificar como novedosas nucleasas de clase 2 de tipo V no naturales con identidad de secuencia global no significativa a la colección conocida de endonucleasas CRISPR-Cas de clase 1 y clase 2 y con identidad de secuencia global baja a endonucleasas de tipo Cms1 individuales.

BEC85, BEC67 y BEC10 son novedosas endonucleasas CRISPR-Cas que son significativamente distintas de la colección conocida de endonucleasas CRISPR-Cas y que muestran un novedoso mecanismo de actividad, BEC85, BEC67 y BEC10 expanden la colección conocida de endonucleasas CRISPR-Cas aplicable para edición genómica, regulación génica y enriquecimiento/purificación de ácidos nucleicos en diferentes sectores biotecnológicos y farmacéuticos. Los resultados descritos en el ejemplo 3 fuertemente indican que las nucleasas CRISPR de tipo BEC son no solo un tipo novedoso de proteínas con arquitecturas de locus distintas, sino también muestran un nuevo mecanismo de edición genómica molecular.

Además, el ejemplo 4 demuestra que la edición genómica usando las novedosas nucleasas de tipo familia BEC de la invención proporcionan números de reducción de clones significativamente mayores y proporciones de edición significativamente superiores en comparación con las secuencias de sus vecinos próximos SuCms1 (Begemann et al. (2017), bioRxiv) y SeqID63 (documento WO 2019/030695). Los resultados en el ejemplo 4 además demuestran la superioridad general de las nucleasas de tipo BEC para edición genómica en comparación con las nucleasas CRISPR Cas previamente conocidas.

Aún más, el ejemplo 5 demuestra que las novedosas nucleasas de tipo familia BEC de la invención muestran actividad fuerte a niveles de temperatura desde 21°C a 37°C y en particular una eficaz de edición genómica superior y tasa de reducción de colonias en comparación con las secuencias vecinas próximas SuCms1 y SeqID63. Por ejemplo, la eficacia de edición genómica de la nucleasa SuCmsl significativamente disminuye a 21°C a niveles comparables al control negativo (0,3%) mientras la eficacia de edición de BEC10 permanece a un nivel alto (65%) incluso a la temperatura baja relativa de 21°C. La alta actividad en un intervalo de temperatura de 21°C a 37°C es de gran interés para aplicaciones biotecnológicas, agrícolas y farmacéuticas porque en este intervalo de temperatura se cultivan varios tipos de células (por ejemplo, varias plantas y células vegetales “ 21°C, varias células de levaduras y fúngicas “ 30°C, varios organismos procariotas y líneas celulares de mamíferos »37°C). Las novedosas nucleasas de tipo familia BEC, por tanto, permiten ventajosamente el diseño de sistemas CRISPR universalmente aplicables.

Según una forma de realización preferida del primer aspecto de la invención la molécula de ácido nucleico está operativamente unida a un promotor que es nativo o heterólogo para la molécula de ácido nucleico.

Un promotor es una región de ADN que produce la iniciación de la transcripción de un gen particular. Los promotores en general están localizados cerca de los sitios de inicio de la transcripción de genes, antes en el ADN (hacia la región 5' de la hebra sentido). Los promotores típicamente tienen 100-1000 pares de bases de longitud. Para que se produzca la transcripción, la enzima que sintetiza ARN, conocida como ARN polimerasa, debe unirse al ADN cerca de un gen. Los promotores contienen secuencias de ADN específicas tal como elementos de respuesta que proporcionan un sitio de unión inicial seguro para la ARN polimerasa y para proteínas llamadas factores de transcripción que reclutan ARN polimerasa. Por tanto, la unión de la ARN polimerasa y factores de transcripción al sitio del promotor asegura la transcripción del gen.

En este sentido el término “operativamente unido” define que el promotor está unido al gen de la misma hebra de ADN, de modo que tras la unión de la ARN polimerasa y factores de transcripción la transcripción del gen se inicia. En general, cada gen está operativamente unido en su medio natural del genoma de un organismo vivo a un promotor. Este promotor se designa “promotor natural” o “promotor de tipo salvaje” en el presente documento. Un promotor heterólogo es distinto del promotor natural o promotor de tipo salvaje. Por tanto, una molécula de ácido nucleico que está operativamente unida a un promotor que es heterólogo a la molécula de ácido nucleico no se produce en la naturaleza.

Los promotores heterólogos que se pueden usar para expresar un gen deseado se conocen en la técnica y se pueden, por ejemplo, obtener de la e Pd (base de datos de promotores eucariotas) o EDPnew (https://epd.epfl.ch//index.php). En esta base de datos se pueden encontrar promotores eucariotas incluyendo promotores animales, vegetales y de levadura.

El promotor puede, por ejemplo, ser un promotor constitutivamente activo, inducible, específico de tejido, o específico de estadio de desarrollo. Usando tal promotor se puede regular el momento y sitio de expresión deseado.

El promotorAOX1oGAL1en levadura o el promotor de CMV (citomegalovirus), SV40, RSV (virus del sarcoma de Rous), promotores de beta-actina de pollo, promotor CAG (una combinación del promotor de beta actina de pollo y potenciador inmediato temprano de citomegalovirus), el promotor gai10, el promotor del factor de elongación humano 1a, el promotor de CaM quinasa, y el promotor poliédrico del virus de la polihedrosis nuclear múltiple de Autographa californica (AcMNPV) son ejemplos de promotores constitutivamente activos.

Los ejemplos de promotores inducibles son el promotor Adhl que inducible por hipoxia o agresión de frío, el promotor Hsp70 que el inducible por agresión de calor, el promotor PPDK y el promotor de pepcarboxilasa que son ambos inducibles por luz. También son útiles promotores que son químicamente inducibles, tal como el promotor In2-2 que se induce por protector (documento US 5.364.780), el promotor ERE que se induce por estrógenos, y el promotor Axigl que se induce por auxinas y específico de tapetum, pero también activo en callos (documento WO03060123).

Un promotor específico de tejido es un promotor que inicia la transcripción solo en ciertos tejidos. Un promotor específico de estadio de desarrollo es un promotor que inicia la transcripción solo en un cierto estadio de desarrollo.

En los ejemplos en el presente documento posteriormente se han usado un promotor Tpi1 (SEQ ID NO: 12) y un SNR52 (S<e>Q ID NO: 18). Por tanto, el uso de un promotor Tpi1 y un SNR52 son preferidos.

Según una forma de realización preferida adicional del primer aspecto de la invención la molécula de ácido nucleico está unida a una secuencia de ácido nucleico que codifica una señal de localización nuclear (NLS).

Se proporcionarán más detalles sobre la NLS en el presente documento posteriormente.

Según otra forma de realización preferida del primer aspecto de la invención dicha molécula de ácido nucleico tiene codones optimizados para la expresión en una célula eucariota, preferiblemente una célula de levadura, vegetal o animal.

Como se ha discutido, BEC85, BEC67 y BEC10 se generaron por ingeniería de proteínas y son nucleasas CRISPR no naturales.

Los genes que codifican los polipéptidos BEC85, BEC67 y BEC10, pueden tener codones optimizados para expresión en la célula diana, y pueden opcionalmente incluir una secuencia que codifica una NLS y/o una etiqueta peptídica, tal como una etiqueta de purificación. Se proporcionarán detalles adicionales sobre la etiqueta en el presente documento posteriormente.

La optimización de codones es un proceso usado para mejorar la expresión génica y aumentar la eficacia de traducción de un gen de interés acomodando un sesgo de codones de la célula huésped. Un “gen con codones optimizados” es, por tanto, un gen que tiene su frecuencia de uso de codones diseñado para mimetizar la frecuencia de uso de codones preferidos de la célula huésped. Las moléculas de ácido nucleico pueden tener codones optimizados, sea por completo o en parte. Puesto que cualquier aminoácido (excepto para metionina y triptófano) está codificado por un número de codones, la secuencia de la molécula de ácido nucleico se puede cambiar sin cambiar el aminoácido codificado. La optimización de codones es cuando uno o más codones se alteran a nivel de ácido nucleico de modo que los aminoácidos no se cambian, pero la expresión en un organismo huésped particular se aumenta. Los expertos en la materia reconocerán que las tablas de codones y otras referencias que proporcionan información de preferencia para una amplia gama de organismos están disponibles en la técnica (véase, por ejemplo, Zhang et al. (1991) Gene 105:61-72; Murray et al. (1989) Nucl. Acids Res. 17:477-508). La metodología para optimizar una secuencia de nucleótidos para expresión se proporciona, por ejemplo, en la patente en EE UU No. 6.015.891. En la técnica están disponibles programas para la optimización de codones (por ejemplo, OPTIMIZER en genomes.urv.es/OPTIMIZER; OptimumGene.TM. de GenScript en: www.genscript.com/codon_opt.html).

La célula eucariota es preferiblemente una célula de levadura y según esto la optimización de codones es preferiblemente una optimización para la expresión en células de levadura. Las células de levadura son de interés comercial particular puesto que son uno de los huéspedes eucariotas más comúnmente usados para la producción industrial de proteínas recombinantes.

En otra forma de realización la célula eucariota es una célula de mamífero y según esto la optimización de codones preferiblemente es una optimización para la expresión en células de mamífero. También las células de mamífero, preferiblemente células CHO y HEK293, son de interés comercial particular ya que son huéspedes comúnmente usados para la producción industrial de agentes terapéuticos de proteínas recombinantes.

Se proporcionarán detalles adicionales sobre células eucariotas adecuadas, incluyendo células vegetales y animales, en el presente documento posteriormente.

En el ejemplo 2, se describe que las secuencias de nucleótidos que codifican BEC85, BEC67 y BEC10 tienen codones optimizados para la expresión en levadura (en particularSaccharomyces cerevisiae)o bacterias(E. coli).

La presente invención se refiere en un segundo aspecto a un vector que codifica la molécula de ácido nucleico del primer aspecto.

Las definiciones y formas de realización preferidas como se describen en el presente documento aplican,mutatis mutandisal segundo aspecto, si son aplicables.

Un vector según esta invención es en general y preferiblemente capaz de dirigir la replicación, y/o la expresión de la molécula de ácido nucleico de la invención y/o la expresión del polipéptido codificado por la misma.

Preferiblemente, el vector es un plásmido, cósmido, virus, bacteriófago u otro vector usado convencionalmente, por ejemplo, en ingeniería genética.

Los plásmidos y vectores ejemplares se enumeran, por ejemplo, en Studier y colaboradores (Studier, W.F.; Rosenberg A.H.; Dunn J.J.; Dubendroff J.W., 1990, Use of the T7 RNA polymerase to direct expression of cloned genes, Methods Enzymol. 185, 61-89) o los folletos suministrados por las empresas Novagen, Promega, New England Biolabs, Clontech y Gibco BRL. Otros plásmidos y vectores preferidos se pueden encontrar en: Glover, D.M., 1985, DNA cloning: a practical approach, Vol. 1-111, IRL Press Ltd., Oxford; Rodriguez, R.L. y Denhardt, D.T (eds), 1988, Vectors: a survey of molecular cloning vectors and their uses, 179-204, Butterworth, Stoneham; Goedeel, D.V., 1990, Systems for heterologous gene expression, Methods Enzymol. 185, 3-7; Sambrook, J.; Russell, D. W., 2001, Molecular cloning: a laboratory manual, 3a ed., Cold Spring Harbor Laboratory Press, Nueva York.

Los vectores particularmente preferidos son vectores que se pueden usar para edición genómica por CRISPR, en particular vectores que solo expresan la molécula de ácido nucleico de la invención que codifica la ADN endonucleasa guiada por ARN o vectores que expresan tanto la molécula de ácido nucleico de la invención que codifica la ADN endonucleasa guiada por ARN como el ARN guía (los llamados “vectores todo en uno”). En el primer caso, se debe emplear un segundo vector para la expresión del ARN guía. Los vectores de edición genómica por CRISPR están comercialmente disponibles, por ejemplo, de OriGene, Vector Builder o ThermoFisher.

La molécula de ácido nucleico de la presente invención a que se hace referencia anteriormente también se puede insertar en vectores de modo que se genera una fusión de traducción con otra molécula de ácido nucleico. Para este fin, se puede aplicar PCR de extensión por solapamiento (por ejemplo, Wurch, T., Lestienne, F., y Pauwels, P.J., A modified overlap extension PCR method to create chimeric genes in the absence of restriction enzymes, Biotechn. Techn. 12, 9, Sept. 1998, 653-657). Los productos que surgen de la misma se denominan proteínas de fusión y se describirán además posteriormente. Las otras moléculas de ácido nucleico pueden codificar una proteína que puede, por ejemplo, aumentar la solubilidad y/o facilitar la purificación de la proteína codificada por la molécula de ácido nucleico de la invención. Los ejemplos no limitantes incluyen pET32, pET41, pET43. Los vectores también pueden contener un ácido nucleico expresable adicional que codifica una o más chaperonas para facilitar el plegamiento proteico correcto. Los huéspedes de expresión bacterianos adecuados comprenden, por ejemplo, cepas derivadas de BL21 (tal como BL21(DE3), BL21(DE3)PlysS, BL21(DE3)RIL, BL21(DE3)PRARE) o Rosetta®.

Para técnicas de modificación de vectores, véase J.F. Sambrook y D.W. Russell, ed., Cold Spring Harbor Laboratory Press, 2001, ISBN-10 0-87969-577-3. En general, los vectores pueden contener uno o más orígenes de replicación (ori) y sistemas de herencia para clonación o expresión, uno o más marcadores para selección en el huésped, por ejemplo, resistencia a antibióticos, y uno o más casetes de expresión. Los orígenes de replicación adecuados incluyen, por ejemplo, los orígenes de replicación Col E1, el vírico de SV40 y el M13.

Las secuencias codificantes insertadas en el vector pueden, por ejemplo, sintetizarse por métodos estándar o aislarse de fuentes naturales. La ligación de las secuencias codificantes a elementos reguladores transcripcionales y/o las otras secuencias que codifican aminoácidos se puede llevar a cabo usando métodos establecidos. Los elementos reguladores transcripcionales (partes de un casete de expresión) que aseguran la expresión en células procariotas o eucariotas los conocen bien los expertos en la materia. Estos elementos comprenden secuencias reguladoras que aseguran la iniciación de la transcripción (por ejemplo, codón de inicio de la traducción, secuencias de terminación transcripcional, promotores, potenciadores, y/o aislantes), sitios de entrada interna al ribosoma (IRES) (Owenset al.,(2001), PNAS. 98 (4) 1471-1476) y opcionalmente señales de poli-A que aseguran la terminación de la transcripción y la estabilización del transcrito. Los elementos reguladores adicionales pueden incluir potenciadores transcripcionales, así como traduccionales, y/o regiones promotoras naturalmente asociadas o heterólogas. Los elementos reguladores pueden ser nativos a la endonucleasa de la invención o elementos reguladores heterólogos. Preferiblemente, la molécula de ácido nucleico de la invención está operativamente unida a tales secuencias de control de la expresión que permiten la expresión en células procariotas o eucariotas. El vector puede además comprender secuencias de nucleótidos que codifican señales de secreción como elementos reguladores adicionales. Tales secuencias las conoce el experto en la materia. Además, dependiendo del sistema de expresión usado, se pueden añadir secuencias líder capaces de dirigir el polipéptido expresado a un compartimento celular a la secuencia codificante de la molécula de ácido nucleico de la invención. Tales secuencias líder se conocen bien en la técnica. Los vectores específicamente diseñados permiten el transporte de ADN entre diferentes huéspedes, tal como bacteriascélulas fúngicas o bacterias-células animales.

Además, se pueden usar sistemas de baculovirus o sistemas basados en el virus vaccinia o el virus del bosque de Semliki como vectores en sistemas de expresión eucariotas para las moléculas de ácido nucleico de la invención. Los vectores de expresión derivados de virus tal como retrovirus, virus vaccinia, virus adenoasociados, herpes virus, o virus del papiloma bovino, se pueden usar para la administración de los ácidos nucleicos o el vector a poblaciones de células objetivo. Se pueden usar métodos que conocen bien los expertos en la materia para construir vectores víricos recombinantes; véase, por ejemplo, las técnicas descritas en J.F. Sambrook y D.W. Russell, ed., Cold Spring Harbor Laboratory Press, 2001.

Los ejemplos para elementos reguladores que permiten la expresión en células huésped eucariotas son promotores, incluyendo los promotores como se describen en el presente documento anteriormente. Además de elementos que son responsables para el inicio de la transcripción tales elementos reguladores también pueden comprender señales de terminación de la transcripción, tal como el sitio poli-A de SV40 o el sitio poli-A de tk o las señales de poliadenilación de SV40, lacZ y AcMNPV poliédrico, después del ácido nucleico.

La cotransfección con un marcador seleccionable tal como genes de resistencia a kanamicina o ampicilina para cultivar enE. coliy otras bacterias permite la identificación y el aislamiento de las células transfectadas. Los marcadores seleccionables para cultivo de células de mamífero son los genes dhfr, gpt, resistencia a neomicia, higromicina. El ácido nucleico transfectado también se puede amplificar para expresar grandes cantidades del (poli)péptido codificado. El marcador DHFR (dihidrofolato reductasa) es útil para desarrollar líneas celulares que portan varios cientos o incluso varios miles de copias del gen de interés. Otro marcador de selección útil es la enzima glutamina sintasa (GS). Usando tales marcadores, las células se hacen crecer en medio selectivo y las células con la mayor resistencia se seleccionan.

Sin embargo, las moléculas de ácido nucleico de la invención como se describen en el presente documento anteriormente también se pueden diseñar para la introducción directa o para la introducción a través de liposomas, vectores fagos o vectores víricos (por ejemplo, adenovíricos o retrovíricos) en la célula.

La presente invención se refiere en un tercer aspecto a una célula huésped que comprende la molécula de ácido nucleico del primer aspecto o que está transformada, transducida o transfectada con el vector del segundo aspecto.

Las definiciones y formas de realización preferidas como se describen en el presente documento anteriormente aplicanmutatis mutandisal tercer aspecto, si son aplicables.

Se pueden producir grandes cantidades de ADN endonucleasa guiada por ARN por dicha célula huésped, en donde la secuencia de nucleótidos aislada que codifica la ADN endonucleasa guiada por ARN se inserta en un vector apropiado o vector de expresión antes de la inserción en le huésped. El vector o vector de expresión se introduce en una célula huésped apropiada, que preferiblemente se puede hacer crecer en grandes cantidades, y la ADN endonucleasa guiada por ARN se purifica de las células huésped o el medio de cultivo.

Las células huésped también se pueden usar para suministrar la ADN endonucleasa guiada por ARN de la invención sin requerir purificación de la ADN endonucleasa guiada por ARN (véase, Yuan, Y.; Wang, S.; Song, Z.; y Gao, R., Immobilization of an L-aminoacylase-producing strainof Aspergillus oryzaeinto gelatin pellets and its application in the resolution of D,L-methionine, Biotechnol Appl. Biochem. (2002). 35:107-113). La ADN endonucleasa guiada por ARN de la invención puede ser secretada por las células huésped. Los expertos en el campo de biología molecular entenderán que cualquiera de una amplia variedad de sistemas de expresión se puede usar para proporcionar la ADN endonucleasa guiada por ARN. La célula huésped precisa usada no es crítica para la invención, siempre que las células huésped produzcan la ADN endonucleasa guiada por ARN cuando se hacen crecer en condiciones de crecimiento adecuadas.

Las células huésped en las que los vectores que contienen la molécula de ácido nucleico de la invención se pueden clonar se usan para replicar y aislar una cantidad suficiente de enzima recombinante. Los métodos usados para este fin los conoce bien el experto en la materia (Sambrook y D.W. Russell, ed., Cold Spring Harbor Laboratory Press, 2001).

La expresión de la ADN endonucleasa guiada por ARN puede no solo usarse para producir la ADN endonucleasa guiada por ARN en una célula huésped, sino su expresión también se puede usar para editar el genoma de la célula huésped. En tal caso la célula huésped también comprende un ARN guía. Los vectores que se pueden usar para edición genómica por CRISPR se han discutido en el presente documento anteriormente.

Según un aspecto preferido del tercer aspecto de la invención la célula huésped es una célula eucariota o una célula procariota y es preferiblemente una célula vegetal, de levadura o animal.

La célula huésped puede ser una célula eucariota, y puede ser, por ejemplo, la célula de un hongo, alga, planta, o animal, en donde el animal puede ser un ave, reptil, anfibio, pez, cefalópodo, crustáceo, insecto, arácnido, marsupial o mamífero. El gen que codifica BEC85, BEC67 o BEC10 que es no nativo con respecto a la célula huésped puede estar operativamente unido a un elemento regulador, tal como un promotor. El promotor puede ser nativo para el organismo huésped o puede ser un promotor de otra especie. Una construcción para expresar BEC85, BEC67 o BEC10 en una célula huésped heteróloga, tal como una célula eucariota, puede opcionalmente además incluir un terminador transcripcional. El gen que codifica BEC85, BEC67 o BEC10 puede opcionalmente tener codones optimizados para la especie huésped, puede opcionalmente incluir uno o más intrones, y puede opcionalmente incluir una o más secuencias de etiquetas peptídicas, una o más secuencia de localización nuclear (NLS) y/o uno o más enlazadores o sitios de corte manipulados (por ejemplo, una secuencia 2a). En varias formas de realización una célula huésped puede incluir cualquiera de los sistemas CRISPR BEC85, BEC67 o BEC10 manipulados divulgados anteriormente, donde la secuencia de ácido nucleico que codifica el efector está presente en la célula antes de la introducción de un ARN guía. En otras formas de realización, la célula que se manipula para incluir un gen para expresar un polipéptido BEC85, BEC67 o BEC10 puede además incluir un polinucleótido que codifica un ARN guía (por ejemplo, un a Rn guía) que está operativamente unido a un elemento regulador.

La célula u organismo puede ser una célula procariota. Las células huésped procariotas adecuadas comprenden, por ejemplo, bacterias de la especie Escherichia, tal como cepas derivadas deE. coliBL21 (por ejemplo, BL21(DE3), BL21(DE3)PlysS, BL21(DE3)RIL, BL21(DE3)PRARE, BL21 codon plus, BL21(DE3) codon plus), Rosetta®, XL1 Blue, NM522, JM101, JM109, JM105, RR1, DH5a, TOP 10, HB101 o MM294. Células huésped bacterianas adecuadas adicionales son, pero no están limitadas a,Streptomyces, Pseudomonas,tal comoPseudomonas putida, Corynebacterium,tal comoC. glutamicum, Lactobacillus,tal comoL. salivarius, Salmonella,oBacillustal comoBacillus subtilis.

En general, una célula huésped eucariota es preferida sobre una célula huésped procariota.

La célula eucariota puede ser células de levadura, hongo, ameba, insecto, vertebrado (por ejemplo, de mamífero) o vegetal.

Las células de levadura pueden ser, por ejemplo,Saccharomyces cerevisiae, Ogataea angusta, Kluyveromyces sp.tal comoK. marxianusoK. lactisoPichia sp.tal como Ppastoris, Yarrowia sp.tal comoYarroawia lipolytica, Candidasp.,células de insecto tal comoDrosophilaS2 o células Sf9 deSpodoptera,células vegetales, o células fúngicas, preferiblemente de la familiaTrichocomaceae,más preferiblemente del géneroAspergillus, PenicilliumoTrichoderma,o de la familiaUstilaginaceae,preferiblementeUstilago sp..

Las células huésped vegetales que se pueden usar incluyen monocots y dicots (es decir, monocotiledóneas y dicotiledóneas, respectivamente), tal como células de plantas de cultivo y células de tabaco.

Las células huésped de mamífero que se podrían usar incluyen células Hela, HEK293, H9 y Jurkat humanas, células NIH3T3 y C127 de ratón, COS 1, COS 7 y CV1, células QC1-3 de codorniz, células L de ratón, células de melanoma de Bowes, células HaCaT, BHK, HT29, A431, A549, U205, MDCK, HepG2, CaCo-2 y células de ovario de hámster chino (CHO).

La presente invención se refiere en un cuarto aspecto a una planta, semilla o una parte de una planta, dicha parte de una planta no es una célula vegetal única, o un animal que comprende la molécula de ácido nucleico del primer aspecto o que se ha transformado, transducido o transfectado con el vector del segundo aspecto.

Las definiciones y formas de realización preferidas como se describen en el presente documento anteriormente aplicanmutatis mutandisal cuarto aspecto, si son aplicables.

El animal es preferiblemente un mamífero y lo más preferiblemente un mamífero no humano. El mamífero puede ser, por ejemplo, un ratón, rata, hámster, gato, perro, caballo, cerdo, ganado, mono, simio, etc.

Mediante la expresión de la molécula de ácido nucleico del primer aspecto en una planta, semilla o una parte de una planta o un animal junto con un ARN guía el genoma del huésped se puede editar. El genoma se puede editar, por ejemplo, con el fin de introducir una mutación génica dirigida, para terapia génica, para crear una reorganización cromosómica, para estudiar la función génica, para la producción de un organismo transgénico, para marcaje génico endógeno o para la adición de un transgén dirigida.

La presente invención se refiere en un quinto aspecto a un método de producir una ADN endonucleasa guiada por ARN que comprende cultivar la célula huésped del tercer aspecto y aislar la ADN endonucleasa guiada por ARN producida.

Las definiciones y formas de realización preferidas como se describen en el presente documento anteriormente aplicanmutatis mutandisal quinto aspecto, si son aplicables.

Las condiciones adecuadas para cultivar un huésped procariota o eucariota las conoce bien el experto en la materia. En general, las condiciones adecuadas para cultivar bacterias son hacerlas crecer con aeración en medio de Luria Bertani (LB). Para aumentar el rendimiento y la solubilidad del producto de expresión, el medio se puede tamponar o suplementar con aditivos adecuados que se sabe que aumentan o facilitan ambos.E. colise puede cultivar desde 4 hasta aproximadamente 37°C, la temperatura exacta o la secuencia de temperaturas depende de la molécula que se va a sobreexpresar.

En general,Aspergillus sp.se puede hacer crecer en agar dextrosa de Sabouraud, o agar dextrosa de patata a desde aproximadamente 10°C hasta aproximadamente 40°C, y preferiblemente a aproximadamente 25°C. Las condiciones adecuadas para los cultivos de levadura se conocen, por ejemplo, de Guthrie y Fink, "Guide to Yeast Genetics y Molecular Cell Biology" (2002); Academic Press Inc. El experto en la materia también es consciente de todas estas condiciones y puede además adaptar estas condiciones a las necesidades de una especie huésped particular y los requisitos del polipéptido expresado. En caso de que un promotor inducible controle el ácido nucleico de la invención en el vector presente en la célula huésped, la expresión del polipéptido se puede inducir por adición de un agente inductor apropiado. Los protocolos y estrategias de expresión adecuados los conoce el experto en la materia.

Dependiendo del tipo celular y sus requisitos específicos, el cultivo de células de mamífero se puede, por ejemplo, llevar a cabo en medio RPMI o DMEM que contiene FST al 10% (v/v), L-glutamina 2 mM y penicilina/estreptomicina 100 U/ml. Las células se pueden mantener a 37°C en CO2 al 5%, atmósfera saturada de agua. Los protocolos de expresión adecuados para células eucariotas los conoce bien el experto en la materia y se pueden recuperar, por ejemplo, de Sambrook, 2001.

Los métodos para el aislamiento de la ADN endonucleasa guiada por ARN se conocen bien en la técnica y comprenden, sin limitación, etapas de método tal como cromatografía de intercambio iónico, cromatografía de filtración en gel (cromatografía de exclusión molecular), cromatografía de afinidad, cromatografía líquida de alta presión (HPLC), HPLC de fase inversa, electroforesis en gel en disco o inmunoprecipitación, véase, por ejemplo, en Sambrook, 2001.

La etapa de aislamiento de proteínas preferiblemente es una etapa de purificación de proteínas. La purificación de proteínas según la invención especifica un proceso o una serie de procesos destinados a aislar adicionalmente el polipéptido de la invención de una mezcla compleja, preferiblemente a homogeneidad. Las etapas de purificación, por ejemplo, explotan diferencias en tamaño, propiedades fisicoquímicas y afinidad de unión de las proteínas. Por ejemplo, las proteínas se pueden purificar según sus puntos isoeléctricos corriéndolas a través de un gel de pH graduado o una columna de intercambio iónico. Además, las proteínas se pueden separar según su tamaño o peso molecular mediante cromatografía de exclusión molecular o por análisis de<s>DS-PAGE (electroforesis en gel de poliacrilamida con dodecil sulfato de sodio). En la técnica, las proteínas con frecuencia se purifican usando 2D-PAGE y después se analizan adicionalmente por huellas de masa de péptidos para establecer la identidad de la proteína. Esto es útil para fines científicos y los límites de detección para proteínas son muy bajos y cantidades de nanogramos de proteína son suficientes para su análisis. Las proteínas también se pueden purificar por polaridad/hidrofobicidad mediante cromatografía líquida de alto rendimiento o cromatografía de fase inversa. Por tanto, los métodos para la purificación de proteínas los conoce bien el experto en la materia.

La presente invención se refiere en un sexto aspecto a una ADN endonucleasa guiada por ARN codificada por la molécula de ácido nucleico del primer aspecto.

Las definiciones y formas de realización preferidas como se describen en el presente documento anteriormente aplicanmutatis mutandisal sexto aspecto, si son aplicables.

Las secuencias de aminoácidos de SEQ ID NO: 1, 3 y 29 son ejemplos particularmente preferidos de la ADN endonucleasa guiada por ARN de la invención. Lo más preferido es una ADN endonucleasa guiada por ARN que comprende o consiste en la secuencia de aminoácidos de SEQ ID NO: 29.

La ADN endonucleasa guiada por ARN del sexto aspecto de la invención también puede ser una proteína de fusión, en donde la secuencia de aminoácidos de la ADN endonucleasa guiada por ARN se fusiona a un compañero de fusión. La fusión puede ser una fusión directa o una fusión a través de un enlazador. El enlazador es preferiblemente un péptido, tal como un enlazador GS.

El compañero de fusión puede estar localizado en el extremo N, el extremo C, en ambos extremos, o en una localización interna del polipéptido de la ADN endonucleasa guiada por ARN, preferiblemente en el extremo N o C.

El compañero de fusión es preferiblemente una señal de localización nuclear (NLS), un dominio de penetración celular, una señal de direccionamiento a plasto, un péptido señal de direccionamiento mitocondrial, un péptido señal de direccionamiento tanto a plastos como a mitocondrias, un dominio marcador, una etiqueta (tal como una etiqueta de purificación), una enzima modificadora de ADN o un dominio de transactivación.

Las enzimas modificadoras de ADN pueden modificar el ADN por fosforilación, desfosforilación de ADN que se hace romo, en donde hacer romo se refiere a la digestión de salientes monocatenarios. Los ejemplos no limitantes de enzimas de desfosforilación son la fosfatasa alcalina de gamba (rSAP), fosfatasa Quick CIP y fosfatasa antártica. Los ejemplos no limitantes de enzimas de fosforilación son polinucleótido quinasas, tal como T4 PNK. Los ejemplos no limitantes de enzimas que hacen extremos romos son el fragmento grande de la ADN polimerasa I (Klenow), ADN polimerasa de T4 o nucleasa de soja verde.

Los dominios de transactivación (o dominio transactivadores (TAD)) son dominios andamiaje de factores de transcripción que contienen sitios de unión para otras proteínas tal como correguladores de transcripción. Los ejemplos no limitantes son dominios de transactivación de nueve aminoácidos (9aaTAD) y TAD ricos den glutamina (Q).

En general, una NLS comprende un tramo de aminoácidos básicos. Las señales de localización nuclear se conocen en la técnica. La NLS puede estar en el extremo N, el extremo C o ambos del polipéptido de la ADN endonucleasa guiada por ARN según la invención. Por ejemplo, el polipéptido de la ADN endonucleasa guiada por ARN según la invención puede comprenden aproximadamente o más de aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10, o más NLS en o cerca del extremo amino, aproximadamente o más de aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10, o más NLS en o cerca del extremo carboxi, o una combinación de estos (por ejemplo, cero o al menos una o más NLS en el extremo amino y cero o una más NLS en el extremo carboxi). Cuando está presente más de una NLS, cada una se puede seleccionar independientemente de las otras, de modo que una única NLS puede estar presente en más de una copia y/o en combinación con una o más otras NLS presentes en una o más copias. En algunas formas de realización, una NLS se considera cerca del extremo N o C cuando el aminoácido más cercano de la NLS está a aproximadamente 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50 o más aminoácidos a lo largo de la cadena polipeptídica desde el extremo N o C. La secuencia del polipéptido de la ADN endonucleasa guiada por ARN y la NLS pueden, en algunas formas de realización, fusionarse con un enlazador entre 1 hasta aproximadamente 20 aminoácidos de longitud.

Los ejemplos no limitantes de NLS incluyen una secuencia de NLS derivada de: la NLS del antígeno T grande de SV40; la NLS de nucleoplasmina (por ejemplo, la NLS bipartita de nucleoplasmina); la NLS de c-myc; la NLS de hRNPAI M9; el dominio IBB de importina-alfa; las secuencias de NLS de la proteína T de mioma; la proteína p53; la proteína c-abl IV, o NS 1 del virus de la gripe; la NLS del antígeno delta del virus de la hepatitis, la proteína Mxl; la poli(ADP-ribosa) polimerasa; y los receptores de hormonas esteroides (humanos) glucocorticoide. En general, la una o más NLS son de suficiente potencia para dirigir la acumulación del polipéptido de la ADN endonucleasa guiada por ARN según la invención en una cantidad detectable en el núcleo de una célula eucariota de la invención.

Las señales de localización a plastos, mitocondriales, y péptido señal de direccionamiento dual también se conocen en la técnica (véase, por ejemplo, Nassoury y Morse (2005) Biochim Biophys Acta 1743:5-19; Kunze y Berger (2015) Front Physiol 6:259; Herrmann y Neupert (2003) IUBMB Life 55:219-225; Soil (2002) Curr Opin Plant Biol 5:529-535; Carrie y Small (2013) Biochim Biophys Acta 1833:253-259; Carrie et al. (2009) FEBS J 276: 1187-1195; Silva-Filho (2003) Curr Opin Plant Biol 6:589-595; Peeters y Small (2001) Biochim Biophys Acta 1541:54-63; Murcha et al. (2014) Exp Bot 65:6301-6335; Mackenzie (2005) Trends Cell Biol 15:548-554; Glaser et al. (1998) Plant Mol Biol 38:311-338).

Los ejemplos no limitantes de dominios marcadores incluyen proteínas fluorescentes, etiquetas de purificación, y etiquetas epítopos. En ciertas formas de realización, el dominio marcador puede ser una proteína fluorescente. Los ejemplos no limitantes de proteínas fluorescentes adecuadas incluyen proteínas fluorescentes verdes (por ejemplo, GFP, GFP-2, tagGFP, turboGFP, EGFP, Emerald, Azami Green, Monomeric Azami Green, CopGFP, AceGFP, ZsGreenl), proteínas fluorescentes amarillas (por ejemplo, YFP, EYFP, Citrine, Venus, YPet, PhiYFP, ZsYellowl), proteínas fluorescentes azules (por ejemplo, EBFP, EBFP2, Azurite, mKalamal, GFPuv, Sapphire, T-sapphire), proteínas fluorescentes cian (por ejemplo, ECFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan), proteínas fluorescentes rojas (mKate, mKate2, mPlum, monómero DsRed, mCherry, mRFPI, DsRed- Express, DsRed2, DsRed-Monómero, HcRed-Tandem, HcRedl, AsRed2, eqFP611, mRasberry, mStrawberry, Jred), y proteínas fluorescentes naranjas (mOrange, mKO, Kusabira-Orange).

Una etiqueta es una secuencia de aminoácidos corta que permite la identificación del polipéptido de la ADN endonucleasa guiada por ARN según la invención en una mezcla de polipéptidos. Por tanto, la etiqueta es preferiblemente una etiqueta de purificación. Los ejemplos no limitantes de una etiqueta de purificación son una etiqueta His (por ejemplo, etiqueta His-6), una etiqueta GST, etiqueta DHFR y una etiqueta CBP. Se puede encontrar una revisión de etiquetas de purificación conocidas en Kimple et al. (2015), Curr Protoc Protein Sci. 2013; 73: Unidad-9.9.

La presente invención se refiere en un séptimo aspecto a una composición que comprende la molécula de ácido nucleico del primer aspecto, el vector del segundo aspecto, la célula huésped del tercer aspecto, la planta, semilla, parte de una célula o animal del cuarto aspecto, la ADN endonucleasa guiada por ARN del sexto aspecto o una combinación de las mismas.

Las definiciones y formas de realización preferidas como se describen en el presente documento anteriormente aplicanmutatis mutandisal séptimo aspecto, si son aplicables.

El término “composición” como se usa en el presente documento se refiere a una composición que comprende al menos uno de la molécula de ácido nucleico del primer aspecto, el vector del segundo aspecto, la célula huésped del tercer aspecto, la planta, semilla, parte de una célula o animal del cuarto aspecto, la ADN endonucleasa guiada por ARN del sexto aspecto o una combinación de las mismas que también se denominan colectivamente en lo siguiente compuestos.

Según una forma de realización preferida del séptimo aspecto la composición es una composición farmacéutica.

Según la presente invención, el término “composición farmacéutica” se refiere a una composición para administración a un paciente, preferiblemente un paciente humano. La composición farmacéutica de la invención comprende al menos uno de los compuestos enumerados anteriormente. Puede, opcionalmente, comprender moléculas adicionales capaces de alterar las características de los compuestos de la invención mediante ello, por ejemplo, estabilizando, modulando y/o activando su función. La composición puede estar en forma sólida, líquida o gaseosa y puede estar, entre otras, en forma de (un) polvo(s), (un) comprimido(s), (una) solución(es), o (un) aerosol(es). La composición farmacéutica de la presente invención puede, opcional y adicionalmente, comprender un soporte farmacéuticamente aceptable. Los ejemplos de soportes farmacéuticos adecuados se conocen bien en la técnica e incluyen soluciones salinas tamponadas con fosfato, agua, emulsiones, tal como emulsiones de aceite en agua, varios tipos de agentes humectantes, soluciones estériles, solventes orgánicos incluyendo DMSO, etc. Las composiciones que comprenden tales soportes se pueden formular por métodos convencionales. Estas composiciones farmacéuticas se pueden administrar al sujeto a una dosis adecuada. La pauta de dosis la determinara el médico y los factores clínicos. Como se sabe bien en las técnicas médicas, las dosis para cualquier paciente dependen de muchos factores, incluyendo el tamaño del paciente, área de superficie corporal, edad, el compuesto particular que se va a administrar, sexo, tiempo y ruta de administración, salud general, y otros fármacos que se administran al mismo tiempo. La cantidad terapéuticamente eficaz para una situación determinada se determinará fácilmente por experimentación rutinaria y está dentro de las habilidades y juicio del clínico o médico habitual. En general, la pauta como una administración regular de la composición farmacéutica debe estar en el intervalo de 1 |jg a 5 g del compuesto activo al día. Sin embargo, una dosis más preferida podría estar en el intervalo de 0,01 mg a 100 mg, incluso más preferiblemente de 0,01 mg a 50 mg y lo más preferiblemente de 0,01 mg a 10 mg al día. La duración del tratamiento necesaria observar cambios y el intervalo después del tratamiento para que se produzcan respuestas varía dependiendo del efecto deseado. Las cantidades particulares se pueden determinar por pruebas convencionales que las conoce bien el experto en la materia.

La composición farmacéutica se puede usar, por ejemplo, para tratar o prevenir una enfermedad patogénica, tal como una enfermedad vírica o bacteriana. Por ejemplo, la ADN endonucleasa guiada por ARN del sexto aspecto se puede usar junto con ARNg que se dirige al genoma del patógeno modificando de esta manera el genoma del patógeno, de modo que la enfermedad producida por el patógeno se previene o trata.

La composición farmacéutica también se puede usar, por ejemplo, para tratar o prevenir un desequilibrio del microbioma. Un desequilibrio del microbioma se puede producir, por ejemplo, debido a un sobreuso de antibióticos, que puede producir un crecimiento excesivo de bacterias y levaduras patógenas.

La presente invención también se refiere a una composición diagnóstica que comprende la ADN endonucleasa guiada por ARN de la reivindicación 11 y una hebra de ADN monocatenario que está unida a un marcador, de modo que cuando el polipéptido de la ADN endonucleasa guiada por ARN corta el ADN monocatenario, activa el indicador, lo que produce fluorescencia o que cambie de color.

Una “composición diagnóstica” se refiere a una composición que es adecuada para detectar una enfermedad en un sujeto, tanto enfermedad infecciosa como no infecciosa. La composición diagnóstica puede, en particular, comprender una porción marcadora como se describe en el presente documento anteriormente en relación con la proteína de fusión de la invención que se une a hebras de ADNmc, de modo que cuando el polipéptido de la ADN endonucleasa guiada por ARN según la invención corta el ADNmc, activa el indicador, lo que produce que fluoresca o cambie de color, permitiendo así la detección visual del marcador nucleico de enfermedad específico. La composición diagnóstica se puede aplicar a una muestra de fluido corporal, tal como sangre, orina, o saliva.

La presente invención se refiere en un octavo aspecto a la molécula de ácido nucleico del primer aspecto, el vector del segundo aspecto, la célula huésped del tercer aspecto, la planta, semilla, parte de una célula o animal del cuarto aspecto, la ADN endonucleasa guiada por ARN del sexto aspecto o una combinación de las mismas para su uso en el tratamiento de una enfermedad en un sujeto o una planta modificando una secuencia de nucleótidos en un sitio diana en el genoma del sujeto o planta.

Las definiciones y formas de realización preferidas como se describen en el presente documento anteriormente aplicanmutatis mutandisal octavo aspecto, si son aplicables.

La modificación de una secuencia de nucleótidos en un sitio diana en el genoma del sujeto o planta es según la invención una edición genómica mediante la tecnología CRISPR y en particular mediante las novedosas ADN endonucleasas guiadas por ARN proporcionadas en el presente documento que se va a usar en combinación con un ARNg apropiado y opcionalmente un sustrato de reparación como se describe en el presente documento posteriormente con el fin de determinar el lado diana de la modificación del genoma.

La edición genómica (también conocida como ingeniería genómica) es un tipo de ingeniería genética en la que un sitio diana, preferiblemente un gen de interés se inserta, deleciona, modifica o sustituye en el genoma de la célula. El sitio diana, preferiblemente el gen de interés puede estar en el genoma, pero también puede estar en el ADN mitocondrial (células animales) o ADN de cloroplastos (células vegetales). La edición genómica puede producir una mutación de pérdida de función o una mutación de ganancia de función en el genoma de la célula. Una mutación de pérdida de función (también llamada mutación inactivadora) produce que el gen de interés tenga menor o ninguna función (se inactiva parcial o totalmente). Cuando el alelo tiene una pérdida de función completa (inactivado totalmente) esto también se llama en el presente documento una inactivación (génica). Una inactivación génica se puede lograr insertando, delecionando, modificando o sustituyendo uno o más nucleótidos de un gen. Una mutación de ganancia de función (también denominada mutación activadora) puede cambiar el gen de interés de modo que su efecto se vuelve más fuerte (activación aumentada) o incluso se reemplaza por una función diferente (por ejemplo, anómala). Una mutación de ganancia de función también puede introducir una nueva función o efecto en una célula que la célula no tenía antes. En este contexto el nuevo gen se puede añadir al genoma de la célula (inserción) o puede sustituir un gen en el genoma. Una mutación de ganancia de función que introduce tal nueva función o efecto también se llama inserción génica. La edición genómica también puede producir el aumento o disminución de uno o más genes. Al dirigirse a sitios de ADN que con responsables para la regulación de la expresión de un gen (por ejemplo, una región promotora o un gen que codifica un factor de transcripción) la expresión de genes se puede aumentar o disminuir por tecnología CRISPR. Se proporcionarán más detalles sobre el modo de acción de la tecnología CRISPR en el presente documento posteriormente.

Desde su descubrimiento, la tecnología CRISPR se ha aplicado crecientemente a edición genómica terapéutica. El empleo de varios vectores víricos y no víricos ha permitido la administración eficaz del sistema CRISPR a células o tejidos diana. Además, el sistema CRISPR es capaz de modular la expresión del gen diana de varias maneras, tal como mutagénesis, integración génica, regulación epigenómica, reorganización cromosómica, edición de base y edición de ARNm (para una revisión Le y Kim (2019), Hum Genet.;138(6):563-590).

La modificación de una secuencia de nucleótidos en un sitio diana en el genoma del sujeto es preferiblemente una terapia génica. La terapia génica se basa en el principio de la manipulación genética de una secuencia de nucleótidos en un sitio diana para tratar o prevenir una enfermedad, en particular una enfermedad humana.

En ensayos clínicos de la tecnología CRISPR, los científicos usan la tecnología CRISPR para combatir cáncer y trastornos sanguíneos en seres humanos. En estos ensayos, algunas células se retiran del cuerpo del sujeto que se va a tratar, el ADN se somete a edición genómica y después el genoma editado se pone de vuelta en el sujeto, dichas células están ahora armadas para luchar la enfermedad que se va a tratar.

La presente invención se refiere en un noveno aspecto a un métodoin vitrode modificar una secuencia de nucleótidos en un sitio diana en el genoma de una célula que comprende introducir en dicha célula (i) un ARN que se dirige a ADN o un polinucleótido de ADN que codifica un ARN que se dirige a ADN, en donde el ARN que se dirige a ADN comprende: (a) un primer segmento que comprende una secuencia de nucleótidos que es complementaria a una secuencia en el ADN diana; y (b) un segundo segmento que interacciona con la ADN endonucleasa guiada por ARN del sexto aspecto; y (ii) la ADN endonucleasa guiada por ARN del sexto aspecto, o la molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN del primer aspecto, o el vector del segundo aspecto, en donde la ADN endonucleasa guiada por ARN comprende (a) una porción de unión a ARN que interacciona con el ARN que se dirige a ADN y (b) una porción de actividad que muestra actividad enzimática dirigida a sitio.

Según esto, también se describe en el presente documento una composición (por ejemplo, una farmacéutica) que comprende (i) un ARN que se dirige a ADN o un polinucleótido de ADN que codifica un ARN que se dirige a ADN, en donde el ARN que se dirige a ADN comprende: (a) un primer segmento que comprende una secuencia de nucleótidos que es complementaria a una secuencia en el ADN diana; y (b) un segundo segmento que interacciona con la ADN endonucleasa guiada por ARN del sexto aspecto; y (ii) la a Dn endonucleasa guiada por ARN del sexto aspecto, o la molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN del primer aspecto, o el vector del segundo aspecto, en donde la ADN endonucleasa guiada por ARN comprende (a) una porción de unión a ARN que interacciona con el ARN que se dirige a ADN y (b) una porción de actividad que muestra actividad enzimática dirigida a sitio.

Las definiciones y formas de realización preferidas como se describen en el presente documento anteriormente aplicanmutatis mutandisal noveno aspecto, si son aplicables.

El ARN que se dirige a ADN comprende un primer segmento que comprende una secuencia de nucleótidos que es complementaria a una secuencia en el ADN diana y un segundo segmento que interacciona con la ADN endonucleasa guiada por ARN. Como se ha discutido en el presente documento anteriormente, la secuencia de nucleótidos que es complementaria a una secuencia en el ADN diana define la especificidad de diana de la ADN endonucleasa guiada por ARN. Como también se ha discutido en el presente documento anteriormente, el ARN que se dirige a ADN se une a la ADN endonucleasa guiada por ARN mediante lo cual se forma un complejo. El segundo segmento interacciona con la ADN endonucleasa guiada por ARN y es responsable de la formación del complejo. El segundo segmento que interacciona con la ADN endonucleasa guiada por ARN del sexto aspecto preferiblemente comprende o consiste en SEQ ID NO: 8 y más preferiblemente en SEQ ID NO: 9 o 10. SEQ ID NO: 8 es una secuencia consenso del segundo segmento de nucleasas CRISPR de clase 2 tipo V. En las nucleasas CRISPR de clase 2 tipo V el segundo segmento también se conoce como asa 5'. SEQ ID NO: 9 o 10 son los segundos segmentos de BEC85, BEC67 o BEC10, respectivamente.

La ADN endonucleasa guiada por ARN comprende como primer segmento que es una porción de unión a ARN que interacciona con el ARN que se dirige a ADN y como un segundo segmento que es una porción de actividad que muestra actividad enzimática dirigida a sitio. El primer segmento interacciona con el ARN que se dirige a ADN y es responsable de la formación del complejo discutido. El segundo segmento alberga el dominio endonucleasa, que preferiblemente comprende un dominio RuvC como se describe en el presente documento anteriormente (en particular un dominio RuvC de SEQ ID NO: 5 a 7).

También discutido en el presente documento anteriormente, el ARN que se dirige a ADN es el ARN guía. El ARN guía se puede o bien introducir directamente en las células o como un polinucleótido de ADN que codifica el ARN que se dirige a ADN. En el último caso, el ADN que codifica el ARN guía en general está operativamente unido a una o más secuencias promotoras para la expresión del ARN guía. Por ejemplo, la secuencia codificante de ARN puede estar operativamente unida a una secuencia promotora que es reconocida por la ARN polimerasa III (Pol III) o ARN polimerasa II (Pol II). El polinucleótido de ADN que codifica el ARN que se dirige a ADN es preferiblemente un vector. Muchos vectores vacíos de ARNg individuales (con y sin la endonucleasa CRISPR) están disponibles en la técnica. Además, varios vectores de ARNg multiplex vacíos están disponibles que se pueden usar para expresar múltiples ARNg de un único plásmido (con o sin la expresión de la endonucleasa CRISPR). El polinucleótido de ADN codifica el ARN que se dirige a ADN en forma expresable.

Asimismo, la ADN endonucleasa guiada por ARN se puede o bien introducir directamente en las células o como una molécula de ácido nucleico que codifica la ADN endonucleasa guiada por ARN, la última es preferiblemente un vector del segundo aspecto. El polinucleótido de ADN codifica la ADN endonucleasa guiada por<a>R<n>en forma expresable.

Como se ha discutido en mayor detalle en el presente documento anteriormente, la ADN endonucleasa guiada por ARN y el ARN que se dirige a ADN también pueden estar codificados por el mismo polinucleótido de ADN, tal como un vector de CRISPR-Cas todo en uno.

El término “en forma expresable” significa que el uno o más polinucleótidos de ADN que codifican la ADN endonucleasa guiada por ARN y el<a>R<n>que se dirige a ADN están en una forma que asegura que el ARN que se dirige a ADN se transcribe y que la ADN endonucleasa guiada por ARN se transcribe y traduce a la enzima activa en las células.

Según una forma de realización preferida del noveno aspecto de la invención en caso que la ADN endonucleasa guiada por ARN y el ARN que se dirige a ADN se introduzcan directamente en la célula se introducen en la forma de un complejo de ribonucleoproteína (RNP).

Los RNP se ensamblanin vitroy se pueden administrar a la célula por métodos conocidos en la técnica, por ejemplo, electroporación o lipofección. Los RNP son capaces de cortar el sitio diana con eficacia comparable a las ADN endonucleasas guiadas por ARN basadas en ácido nucleico (por ejemplo, basadas en vector) (Kim et al. (2014), Genome Research 24(6):1012-1019).

Los medios para introducir proteínas (o péptidos) o RNP en célula vivas se conocen en la técnica y comprenden, pero no están limitados a, microinyección, electroporación, lipofección (usando liposomas), administración basada en nanopartículas, y transducción de proteínas. Se puede usar cualquiera de estos métodos.

Un liposoma usado para lipofección es una vesícula pequeña del mismo material que una membrana celular (es decir, normalmente una bicapa lipídica, por ejemplo, hecha de fosfolípidos), que se puede llenar con una o más proteína(s) (por ejemplo, Torchilin VP (2006), Adv Drug Deliv Rev., 58(14):1532-55). Para administrar una proteína o RNP a una célula, la bicapa lipídica del liposoma se puede fusionar con la bicapa lipídica de la membrana celular, administrando de esta manera la proteína contenida a la célula. Se prefiere que los liposomas usados según la invención estén compuestos de lípidos catiónicos. La estrategia de liposomas catiónicos se ha aplicado con éxito a la administración de proteínas (Zelphati et al. (2001). J. Biol. Chem. 276, 35103-35110). Como se sabe en la técnica, la composición exacta y/o mezcla de lípidos catiónicos usada se puede alterar, dependiendo de la(s) proteína(s) de interés y el tipo celular usado (Feigner et al. (1994). J. Biol. Chem. 269, 2550-2561). La administración basada en nanopartículas de la ribonucleoproteína Cas9 y el ADN donante para la inducción de reparación de ADN dirigida por homología, por ejemplo, se describe en Lee et al. (2017), Nature Biomedical Engineering, 1:889-90.

La transducción de proteínas especifica la internalización de proteínas en la célula desde el medio externo (Ford et al (2001), Gene Therapy, 8:1-4). Este método se basa en la propiedad inherente de un pequeño número de proteínas y péptidos (preferiblemente de 10 a 16 aminoácidos de longitud) para penetrar la membrana celular. La propiedad de transducción de estas moléculas se puede conferir a proteínas que se expresan como fusiones con ellas y por tanto ofrecen, por ejemplo, una alternativa a la terapia génica para la administración de proteínas terapéuticas a células diana. Las proteínas o péptidos comúnmente usados que son capaces de penetrar la membrana celular son, por ejemplo, el péptido antenapedia, la proteína VP22 del virus del herpes simple, el dominio de transducción de la proteína TAT del VIH, péptidos derivados de neurotransmisores u hormonas, o una etiqueta 9xArg.

La microinyección y la electroporación se conocen bien en la técnica y los expertos en la materia saben cómo llevar a cabo estos métodos. Microinyección se refiere al proceso de usar una micropipeta de vidrio para introducir sustancias a un nivel microscópico o macroscópico límite en una única célula viva. La electroporación es un aumento significativo en la conductividad eléctrica y permeabilidad de la membrana plasmática celular producido por un campo eléctrico externamente aplicado. Al aumentar la permeabilidad, se pueden introducir proteínas (o péptidos o secuencias de ácidos nucleicos) en la célula viva.

La ADN endonucleasa guiada por ARN se puede introducir en las células como una enzima activa o como una proenzima. En el último caso, la ADN endonucleasa guiada por ARN se cambia bioquímicamente en las células (por ejemplo, por una reacción de hidrólisis que revela el sitio activo o cambiando la configuración para revelar el sitio activo), de modo que la proenzima se convierte en una enzima activa.

Los medios y métodos para la introducción de molécula(s) de ácido nucleico y ARN que se dirige a ADN en células se conocen también en la técnica y estos métodos abarcan transducir o transfectar células.

La transducción es el proceso por el que ADN exógeno se introduce en una célula mediante un virus o vector vírico. La transducción es una herramienta común usado por biólogos moleculares para introducir establemente un gen exógeno en el genoma de una célula huésped. En general, se construye un plásmido en el que los genes que se van a transferir están flanqueados por secuencias víricas que son usadas por proteínas víricas para reconocer y empaquetar el genoma vírico en partículas víricas. Este plásmido se inserta (habitualmente por transfección) en una célula productora junto con otros plásmidos (construcciones de ADN) que portan los genes víricos requeridos para la formación de viriones infecciosos. En estas células productoras, las proteínas víricas expresadas por estas construcciones de empaquetamiento se unen a las secuencias en el ADN/ARN (dependiendo del tipo de vector vírico) que se van a transferir e insertarlas en partículas víricas. Por seguridad, ninguno de los plásmidos usados contiene todas las secuencias requeridas para la formación de virus, de modo que se requiere la transfección simultánea de múltiples plásmidos para conseguir viriones infecciosos. Además, solo el plásmido que porta las secuencias que se van a transferir contiene señales que permiten que los materiales genéticos se empaqueten en viriones, de modo que ninguno de los genes que codifican proteínas víricas se empaquetan. Los virus recogidos de estas células se aplican después a las células que se van a alterar. Las fases iniciales de estas infecciones imitan una infección con virus naturales y producen la expresión de los genes transferidos y (en el caso de vectores de lentivirus/retrovirus) la inserción del ADN que se va a transferir en el genoma celular. Sin embargo, puesto que el material genético transferido no codifica ninguno de los genes víricos, estas infecciones no generan nuevos virus (los virus son “deficientes en replicación”). En el caso presente se puede usar transducción para generar células que comprenden la ADN endonucleasa guiada por ARN en su genoma en forma expresable.

La transfección es el proceso de introducir deliberadamente ácidos nucleicos desnudos o purificados o proteínas purificadas o complejos de ribonucleoproteínas ensamblados en células. La transfección en general es un método no vírico.

La transfección puede ser una transfección química. La transfección química se puede dividir en varios tipos: transfección usando ciclodextrina, polímeros, liposomas, o nanopartículas. Uno de los métodos más baratos usa fosfato de calcio. Solución salina tamponada con HEPES (HsBS) que contiene iones fosfato se combina con una solución de cloruro de calcio que contiene el ADN que se va a transfectar. Cuando las dos se combinan, se formará un precipitado fino del calcio cargado positivamente y el fosfato cargado negativamente, uniendo el ADN que se va a transfectar en su superficie. La suspensión del precipitado se añade después a las células que se van a transfectar (habitualmente un cultivo celular crecido en monocapa). Mediante un proceso no entendido por completo, las células absorben algo del precipitado, y con él, el ADN. Este proceso ha sido un método preferido de identificar muchos oncogenes. Otros métodos usan compuestos orgánicos muy ramificados, los llamados dendrímeros, para unir el ADN y transferirlo a la célula. Otro método es el uso de polímeros catiónicos tal como DEAE-dextrano o polietilenimina (PEI). El ADN negativamente cargado se une al policatión y el complejo es absorbido por las células a través de endocitosis. La lipofección (o transfección con liposomas) es una técnica usada para inyectar material genético en una célula por medio de liposomas, que son vesículas que se pueden fusionar fácilmente con la membrana celular puesto que ambas están hechas de una bicapa de fosfolípidos, como se ha mencionado anteriormente. La lipofección en general usa un lípido cargado positivamente (catiónico) (liposomas o mezclas catiónicas) para formar un agregado con el material genético cargado negativamente (aniónico). Esta tecnología de transfección realiza las mismas tareas en términos de transferencia a células que otros procedimientos bioquímicos que utilizan polímeros, DEAE-dextrano, fosfato de calcio, y electroporación. La eficacia de la lipofección se puede mejorar tratando las células transfectadas con un choque térmico suave. Fugene es una serie de reactivos de transfección no liposómicos propietarios muy usados capaces de transfectar directamente una amplia variedad de células con alta eficacia y baja toxicidad.

La transfección también puede ser un método no químico. La electroporación (electrotransferencia de genes) es un método popular, donde se logra un aumento transitorio en la permeabilidad de la membrana celular cuando las células se exponen a pulsos cortos de un campo eléctrico intenso. La opresión celular permite la administración de moléculas a las células a través de la deformación celular. La sonoporación usa ultrasonido de alta intensidad para inducir la formación de poros en las membranas celulares. Esta formación de poros se atribuye principalmente a la cavitación de burbujas de gas que interaccionan con membranas celulares cercanas ya que está aumentada por la adición de agente de contraste de ultrasonido, una fuente de núcleos de cavitación. La transfección óptica es un método donde un diminuto (~1 pm de diámetro) agujero se genera transitoriamente en la membrana plasmática de una célula usando un láser muy enfocado. La fusión de protoplastos es una técnica en la que células bacterianas transformadas se tratan con lisozima con el fin de eliminar la pared celular. Después de esto, se usan agentes fusogénicos (por ejemplo, virus Sendai, PEG, electroporación) con el fin de fusionar el protoplasto que porta el gen de interés con la célula diana receptora.

Por último, la transfección puede ser un método basado en partículas. Un enfoque directo a la transfección es el bombardeo génico, donde el ADN se acopla a una nanopartícula de un sólido inerte (comúnmente oro), que después se “dispara” (o bombardeo de partículas) directamente en el núcleo de la célula diana. Por tanto, el ácido nucleico se administra directamente mediante penetración de membrana a una alta velocidad, habitualmente conectada con microproyectiles. La magnetofección, o transfección ayudada por imán, es un método de transfección que usa fuerza magnética para administrar ADN a células diana. La impalefección se lleva a cabo atravesando células mediante nanoestructuras elongadas y conjuntos de tales nanoestructuras tal como nanofibras de carbono o nanoalambres de silicio que se han funcionalizado con ADN de plásmido.

El método del noveno aspecto de la invención se refiere a un método para editar (es decir, “mutar”) con la ADN endonucleasa guiada por ARN de la invención una secuencia de nucleótidos en un sitio diana en el genoma de una célula. Esto requiere esencialmente tres precondiciones secuenciales: (1) administración eficaz de los genes que codifican la ADN endonucleasa guiada por ARN o la ADN endonucleasa guiada por ARN misma en la célula diana; (2) expresión eficaz o presencia de los componentes de CRISPR en la célula diana (el ARN que se dirige a ADN y la ADN endonucleasa guiada por ARN del sexto aspecto); y (3) direccionamiento del sitio genómico de interés por complejos de ribonucleoproteínas CRISPR y reparación del a Dn por las rutas de reparación propias de la célula. La etapa (3) se lleva a cabo automáticamente en la célula tras la expresión de los componentes CRISPR en la célula cuyo genoma se va a editar.

Al someter a edición genómica un sitio diana se puede insertar, delecionar, modificar (incluyendo polimorfismos de nucleótido único (SNP)) o sustituir en el genoma de la célula. El sitio diana puede estar en la región codificante de un gen, en un intrón de un gen, en una región de control de un gen, en una región no codificante entre genes, etc. El gen puede ser un gen que codifica una proteína o un gen que codifica un ARN. El gen puede ser cualquier gen de interés.

En este sentido la edición genómica usa las rutas de reparación propia de la célula, incluyendo la unión de extremos no homóloga (NHEJ) o la ruta de recombinación dirigida por homología (HDR). Una vez el ADN es cortado por la ADN endonucleasa guiada por ARN, la maquinaria de reparación de ADN propia de la célula (NHEJ o HDR) añade o deleciona trozos de material genético o hace cambios al ADN sustituyendo un segmento existente con una secuencia de ADN personalizada. Por tanto, en el sistema CRISPR-Cas, la nucleasa CRISPR hace una rotura bicatenaria en el ADN en un sitio determinado por el corto (~20 nucleótidos) ARNg rotura que después se repara en la célula por NHEJ o HDR. Se prefiere que la edición genómica use NHEJ. En una forma de realización diferente, se prefiere que la edición genómica use HDR.

NHEJ usa una variedad de enzimas para unir directamente los extremos del ADN en una rotura bicatenaria. Al contrario, en HDR, una secuencia homóloga se utiliza como molde para la generación de la secuencia de ADN ausente en el punto de rotura. NHEJ es la ruta independiente de homología canónica ya que implica el alineamiento de solo una a unas pocas bases complementarias como mucho para la religación de los dos extremos, mientras HDR usa tramos más largos de homología de secuencia para reparar lesiones de ADN.

Las propiedades naturales de estas rutas forman la base de la edición genómica basada en la ADN endonucleasa guiada por ARN. NHEJ es propensa a errores y se ha mostrado que produce mutaciones en el sitio de reparación. Por tanto, si uno es capaz de crear una rotura bicatenaria (DSB) en un gen deseado en múltiples muestras, es muy probable que se generen mutaciones en ese sitio en algunos de los tratamientos debido a los errores creados por la infidelidad de NHEJ. Por otra parte, la dependencia de HDR en una secuencia homóloga para reparar las<d>S<b>se puede explotar insertando una secuencia deseada en una secuencia que es homóloga a las secuencias flanqueantes de una DSB que, cuando se usa como molde por el sistema HDR, produciría la creación del cambio deseado en la región genómica de interés. A pesar de los distintos mecanismos, el concepto de edición genómica basada en HDR es de alguna manera similar al del direccionamiento génico basado en recombinación homóloga. Así, basado en estos principios si uno es capaz de crear una DSB en una localización específica en el genoma, entonces los sistemas de reparación propios de la célula ayudarán en crear las mutaciones deseadas.

El molde de la secuencia homóloga para HDR también se denomina en el presente documento “molde de reparación”.

Por tanto, al modificar una secuencia de nucleótidos en un sitio diana en el genoma de una célula según el noveno aspecto de la invención, un gen se puede inactivar (introduciendo un codón de terminación prematuro) o insertar (a través de sustrato de reparación). Es asimismo posible alterar la expresión de un gen por el método del noveno aspecto de la invención. Por ejemplo, el sitio diana en el genoma puede ser una región promotora cambiar la región promotora puede aumentar o disminuir la expresión del gen que se controla a través de región promotora diana.

Por tanto, según una forma de realización preferida del noveno aspecto el método además comprende la introducción de un sustrato de reparación en dicha célula.

Los diseños y estructuras de moldes de reparación que son adecuados para HDR se conocen en la técnica. HDR no comete errores si el molde de reparación es idéntico a la secuencia de ADN original en la rotura bicatenaria (DSB), o puede introducir mutaciones muy específicas en el ADN. Las tres etapas centrales de las rutas de HDR son: (1) la hebra de ADN con el extremo 5' se corta en la rotura para crear un saliente 3'. Esto servirá como tanto un sustrato para proteínas requeridas para la invasión de hebra como un cebador para la síntesis de reparación de ADN. (2) La hebra invasora puede después desplazar una hebra del dúplex de ADN homólogo y emparejarse con la otra. Esto produce la formación del ADN híbrido, denominado el bucle de desplazamiento (bucle D). (3) Los intermedios de recombinación se pueden resolver después para completar el proceso de reparación de ADN.

Los moldes de HDR usados, por ejemplo, para introducir mutaciones o insertar nuevos nucleótidos o secuencias de nucleótidos en un gen requieren cierta cantidad de homología rodeando la secuencia diana que se modificará. Se pueden usar brazos de homología que empiecen en la DSB inducida por CRISPR. En general, los sitios de inserción de la modificación deben estar muy cerca de la DSB, idealmente menos de 10 pb, si es posible. Un punto importante a advertir es que las enzimas CRISPR pueden seguir cortando ADN una vez se ha introducido y reparado una DSB. Siempre que el sitio diana de ARNg/sitio PAM permanezca intacto, la nucleasa CRISPR seguirá cortando y reparando el ADN. Esta edición repetida puede ser problemática si se va a introducir una mutación o secuencia muy específica en un gen de interés. Para evitar esto, el molde de reparación se puede diseñar de tal modo que con el tiempo bloquee dirigir la nucleasa CRISPR adicionalmente después de que la DSB inicial se repare. Dos rutas comunes para bloquear edición adicional son mutar la secuencia PAM o la secuencia semilla de ARNg. Cuando se diseña un molde de reparación, se debe considerar el tamaño de la edición pretendida. Los moldes de ADNmc (también denominados ODNmc) se usan comúnmente para modificaciones menores. Las inserciones/ediciones pequeñas pueden requerir tan poco como 30-50 bases para cada brazo de homología, y el mejor número exacto puede variar basado en el gen de interés. Brazos de homología de 50-80 bases se usan comúnmente. Por ejemplo, Richardson et al. (2016). Nat Biotechnol. 34(3):339-44) encontraron que brazos de homología asimétricos (36 bases distal al PAM y 91 bases proximal al PAM) apoyaban eficacias de HDR de hasta el 60%. Debido a dificultades que podrían estar asociadas con crear ODNmc más largos de 200 bases, se prefiere usar moldes de reparación de plásmido de ADNbc para inserciones mayores tal como proteínas fluorescentes o casetes de selección en un gen de interés. Estos moldes pueden tener brazos de homología de al menos 800 pb. Para aumentar la frecuencia de ediciones de HDR basados en moldes de reparación de plásmido, se pueden usar plásmidos autoescindibles que contienen sitios diana de ARNg flanqueando el molde. Cuando la nucleasa CRISPR y el/los ARNg apropiado(s) está(n) presente(s), el molde se libera del vector. Para evitar la clonación del plásmido, es posible usar moldes de ADNbc largos generados por PCR. Además, Quadros et al. (2017) Genome Biol.17;18(1):92) desarrollaron Easi-CRISPR, una técnica que permite hacer grandes mutaciones y aprovechar los beneficios de los ODNmc. Para crear ODNmc más largos de 200 bases, los ARN que codifican el molde de reparación se transcribenin vitroy después se usa transcriptasa inversa para crear el ADNmc complementario. Easi-CRISPR funciona bien en modelos de inserción de genes en ratón, aumentando la eficacia de edición desde el 1-10% con ADNbc al 25-50% con ODNmc. Aunque la eficacia de HDR varía a través de loci y sistemas experimentales, los moldes de ODNmc en general proporcionan la mayor frecuencia de ediciones de HDR.

Según una forma preferida del noveno aspecto la célula no es el huésped natural de un gen que codifica dicha ADN endonucleasa guiada por ARN.

Como se ha discutido en el presente documento anteriormente, las ADN endonucleasas guiadas por ARN de SEQ ID NO: 1, 3 y 29 se desarrollan y optimizan usando varias estrategias de ingeniería de proteínas lo que significa que SEQ ID NO: 1, 3 y 29 son secuencias no naturales sin huésped natural.

Por tanto, ninguna célula conocida es el huésped natural de SEQ ID NO: 1, 3 y 29.

Según otra forma de realización preferida del noveno aspecto la célula es una célula eucariota, preferiblemente una célula de levadura, una célula vegetal o una célula animal.

Las células eucariotas, células vegetales y células animales, así como eucariotas, plantas y animales de los que se pueden obtener las células incluyendo ejemplos preferidos de los mismos se han descrito en el presente documento anteriormente en relación con el tercer y cuarto aspecto de la invención.

Se describe además, pero no se reivindica, un método que además comprende cultivar la célula vegetal o célula animal para producir una planta o animal no humano en condiciones en las que la ADN endonucleasa guiada por ARN se expresa y corta la secuencia de nucleótidos en el sitio diana para producir una secuencia de nucleótidos modificada; y seleccionar una planta o un aminal no humano que comprende dicha secuencia de nucleótidos modificada.

En relación a esto, la(s) célula(s) en la(s) que se van a introducir los componentes del sistema CRISPR-Cas tiene(n) que ser una célula madre totipotente no humana o una célula de línea germinal no humana (ovocito y/o espermatozoide) o una colección de células madre que son capaces de desarrollar una planta o animal no humano completos. Los medios y métodos para cultivar tal(es) célula(s) con el fin de producir una planta o un animal no humano se conocen en la técnica (véase, por ejemplo, https://www.stembook.org/node7720).

A menos que se defina de otra manera, todos los términos técnicos y científicos usados en el presente documento tienen el mismo significado que comúnmente entiende un experto en la materia a la que pertenece esta invención. En caso de conflicto, la especificación de patente incluyendo las definiciones, prevalecerá.

También se describen en el presente documento, pero no se reivindican, células modificadas que se han producido por el método según el noveno aspecto de la invención para uso em el tratamiento de una enfermedad en un sujeto.

Las células modificadas son preferiblemente linfocitos T modificados y la enfermedad que se va a tratar es preferiblemente cáncer (Stadtmauer et al., Science 28 Feb 2020:Vol. 367, Número 6481, eaba7365).

Las células que se van a modificar mediante el método del noveno aspecto de la invención preferiblemente se obtienen del sujeto que se va a tratar y después las células modificadas se usan según el décimo aspecto de la invención.

Respecto a las formas de realización caracterizadas en esta especificación, en particular en las reivindicaciones, se pretende que cada forma de realización mencionada en una reivindicación dependiente se combine con cada forma de realización de cada reivindicación (independiente o dependiente) de la que depende dicha reivindicación dependiente. Por ejemplo, en caso de una reivindicación independiente 1 que enumera 3 alternativas A, B y C, una reivindicación dependiente 2 que enumera 3 alternativas D, E y F y una reivindicación 3 que depende de las reivindicaciones 1 y 2 y que enumera 3 alternativas G, H e I, se debe entender que la especificación divulga inequívocamente las formas de realización correspondientes a las combinaciones A, D, G; A, D, H; A, D, I; A, E, G; A, E, H; A, E, I; A, F, G; A, F, H; A, F, I; B, D, G; B, D, H; B, D, I; B, E, G; B, E, H; B, E, I; B, F, G; B, F, H; B, F, I; C, D, G; C, D, H; C, D, I; C, E, G; C, E, H; C, E, I; C, F, G; C, F, H; C, F, I, a menos que específicamente se mencione otra cosa.

De forma similar, y también en esos casos donde las reivindicaciones independientes y/o dependientes no enumeran alternativas, se entiende que si las reivindicaciones dependientes se refieren de vuelta a una pluralidad de reivindicaciones precedentes, cualquier combinación del objeto cubierto por las mismas se considera que está explícitamente divulgado. Por ejemplo, en el caso de una reivindicación independiente 1, una reivindicación dependiente 2 que se refiere a la reivindicación 1, y una reivindicación dependiente 3, que se refiere ambas reivindicaciones 2 y 1, se deduce que la combinación del objeto de las reivindicaciones 3 y 1 está clara e inequívocamente divulgado como lo está la combinación del objeto de las reivindicaciones 3, 2 y 1. En caso de que una reivindicación dependiente adicional 4 esté presente que se refiere a cualquiera de las reivindicaciones 1 a 3, se sigue que la combinación del objeto de las reivindicaciones 4 y 1, de las reivindicaciones 4, 2 y 1, de las reivindicaciones 4, 3 y 1, así como de las reivindicaciones 4, 3, 2 y 1 está clara e inequívocamente divulgado.

Las figuras muestran:

Figura 1: Figura esquemática que visualiza la estrategia de inactivación de Ade2 en S.cerevisiaeS288c para BEC85, BEC67 y BEC10 en comparación con SpCas9.

Figura 2: Placas de cultivo ejemplares que muestran colonias de S.cerevisiaeS288c 48 h después de la transformación para visualizar el diferente mecanismo molecular de BEC85, BEC67 y BEC10 en comparación con SpCas9.

Figura 3: Placas de cultivo ejemplares que muestran colonias de S.cerevisiaeS288c 48 h después de la transformación (incubadas a 30°C) para visualizar la reducción de colonias y eficacia de edición genómica de las nucleasas de la familia BEC en comparación con las secuencias del vecino próximo SuCms1 y SeqID63. Las colonias naranjas, una mezcla de células editadas y sin editar, están marcadas con una flecha.

Figura 4: Placas de cultivo ejemplares que muestran colonias de S.cerevisiaeS288c 48 h después de la transformación (incubadas a 21°C) para visualizar la reducción de colonias y eficacia de edición genómica de las nucleasas de la familia BEC a menores temperaturas (21°C) en comparación con las secuencias del vecino próximo SuCms1 y SeqID63.

Figura 5: Placas de cultivo ejemplares que muestran colonias deE. coli BW2511348 h después de la transformación (incubadas a 37°C) para visualizar la eficacia de disminución de colonias de la familia BEC a mayores temperaturas (37°C) en comparación con las secuencias del vecino próximo SuCms1 y SeqID63.

Los ejemplos ilustran la invención.

Ejemplos

Ejemplo 1: Identificación y manipulación de las nucleasas de la familia BEC

Secuencias metagenómicas con el potencial de funcionar como novedosas nucleasas de edición genómica se identificaron in silico en varios hábitats secuenciados internamente (Burstein et al., Nature (2017) 542, 237-241. Como ninguna de estas secuencias mostró eficacias de dirigirse a ADN intrínsecas suficientes para la edición genómica, se realizó mezcla aleatoria de secuencias relacionadas (Coco et al., Nat Biotechnol (2001) 19, 354-359) y las secuencias quiméricas aleatoriamente creadas se optimizaron adicionalmente usando mutagénesis aleatoria (McCullum et al., Methods Mol Biol. (2010) 634, 103-9). En la etapa final, se cribaron numerosas secuencias quiméricas mutagenizadas para evaluar su actividad de dirigirse al ADN.

Usando este enfoque aleatorio y no racional, tres secuencias (BEC85, BEC67 y BEC10) se identificaron con éxito mostrando una fuerte actividad de dirigirse a ADN potencialmente suficiente para enfoques de edición genómica. A pesar de usar un enfoque aleatorio, sorprendentemente todas de las tres secuencias de aminoácidos identificadas y manipuladas comparten una identidad de secuencia del “ 95% entre sí. Basado en esta identidad de secuencia y su mecanismo de dirigirse a ADN único (véase el ejemplo 3) se clasifican en el presente documento como una nueva familia de nucleasas CRISPR (familia BEC: Proteínas Cas manipuladas de BRAIN).

Ejemplo 2: Construcción de un sistema de edición genómica funcional que comprende nucleasas de la familia BEC, familia Cms1 y spCas9

2.1 Sistemas de vectores CRISPR/BEC y Cms1 para edición genómica en S.cerevisiaeS228c

Los elementos genéticos necesarios para la expresión constitutiva de las novedosas nucleasas CRISPR de la invención BEC85, BEC67 y BEC10, así como dos nucleasas CRISPR de la familia Cms1 conocidas, SuCms1 (Begemann et al. (2017), bioRxiv) y SeqID63 (documento WO2019/030695), y para la transcripción del ARN guía (ARNg) se proporcionaron en un sistema de vector todo en uno CRISPR/BEC85, CRISPR/BEC67, CRISPR/BEC10, CRISPR/SuCmsl o CRISPR/SeqID63.

En lo siguiente, se describe la construcción del sistema vector CRISPR/BEC10. Los sistemas de vectores CRISPR/BEC85, CRISPR/BEC67, CRISPR/SuCms1 y CRISPR/SeqID63 se construyeron en un enfoque análogo.

Diseño del casete de expresión de proteína de BEC10

La secuencia de nucleótidos de BEC10 de 3696 pb sintética se optimizó para codones en S.cerevisiaeS288c, usando una aplicación de bioinformática proporcionada por el suministrador de síntesis de genes GeneArt (Thermo Fisher Scientific, Ratisbona, Alemania),<S e Q>ID NO: 30. Además, la ADN nucleasa que codifica la secuencia se extendió en 5' mediante una secuencia que codifica una señal de localización nuclear (NLS) de SV40 SEQ ID NO: 11 (Kalderon et al., Cell 39 (1984), 499-509). Para la expresión de proteínas, el gen de 3723 pb sintético resultante se fusionó a promotor Tpi1 de S.cerevisiaeS288c constitutivo (SEQ ID NO: 12) y el terminador Cps1 de S.cerevisiaeS288c (SEQ ID NO: 13). El casete de expresión de proteína de BEC10 final fue insertado por Gibson Assembly Cloning (NEB, Frankfurt, Alemania) en un vector lanzadera deE. coli/S. cerevisiae,que contenía todos los elementos genéticos necesarios para la propagación episomal y la selección de células recombinantes deE. coliy S.cerevisiae.

Para la propagación del vector y selección de células recombinantes deE. coli,el plásmido contenía el origen de replicación ColE1 de alto número de copias derivado de pUC y el gen marcador kanMX bajo el control del promotor Em7 sintético (SEQ ID NO: 14) que confiere resistencia a kanamicina. El centrómero CEN6 (SEQ ID NO: 15) de S.cerevisiaeS288c permitió la replicación episomal del plásmido lanzadera en células de S.cerevisiae.Para la selección de células de S.cerevisiaetransformadas la estructura de promotor bacteriano/de levadura bifuncional antes del gen marcador kanMX (SEQ ID NO: 16) contenía la secuencia promotora de Tef1 de S.cerevisiaeS288c (SEQ ID NO: 17).

Diseño del casete de expresión del ARN guía (ARNg)

La expresión del ARNg quimérico para dirigirse al gen Ade2 específico por la ADN nucleasa BEC10 fue dirigido por el promotor de la ARN polimerasa III SNR52 (SEQ ID NO: 18) con una secuencia terminadora SUP4 (SEQ ID NO: 19), (DiCarlo et al., NAR (2013), 41, 4336 — 4343). El ARNg quimérico estaba compuesto de una secuencia tallo-bucle de la familia BEC de 19 pb constante (SEQ ID NO: 9 o SEQ ID NO: 10, ambas secuencias de tallo bucle son intercambiables entre las tres nucleasas de la familia BEC produciendo resultados comparables) fusionada a la secuencia espaciadora de 24 pb específica de diana Ade2 (SEQ ID NO: 20). La secuencia espaciadora diana se identificó en el gen Ade2 de S.cerevisiaeS288c después del motivo PAM específico de la nucleasa BEC105'-TTTA-3'.

El casete de expresión de ARN completo compuesto del promotor de la ARN polimerasa III SNR52, el ARNg quimérico diseñado y la secuencia terminadora SUP4 fue proporcionado en un fragmento génico sintético por GeneArt (Thermo Fisher Scientific, Ratisbona, Alemania).

La construcción del sistema de vector CRISPR/BEC10 todo en uno se completó clonando el casete de expresión de ARN preparado en el vector lanzadera deE. coli/S. cerevisiae,que contenía el casete de expresión de la ADN nucleasa BEC10. La construcción del sistema de vector CRISPR/BEC10 final estuvo mediada por Gibson Assembly Cloning (NEB, Frankfurt, Alemania).

La identidad de los elementos de ADN clonados se confirmó por secuenciación de Sanger en LGC Genomics (Berlín, Alemania).

Sistema de vector todo en uno CRISPR/BEC10

La secuencia de nucleótidos completa del sistema de vector CRISPR/BEC10 construido se proporciona como SEQ ID NO: 31.

Sistema de vector todo en uno CRISPR/BEC85

La secuencia de nucleótidos completa del sistema de vector CRISPR/BEC85 construido se proporciona como SEQ ID NO: 21.

Sistema de vector todo en uno CRISPR/BEC67

La secuencia de nucleótidos completa del sistema de vector CRISPR/BEC67 construido se proporciona como SEQ ID NO: 22.

Sistema de vector todo en uno CRISPR/SuCms1

La secuencia de nucleótidos completa del sistema de vector CRISPR/SuCmsl construido se proporciona como SEQ ID NO: 32.

Sistema de vector todo en uno CRISPR/SeqID63

La secuencia de nucleótidos completa del sistema de vector CRISPR/SeqID63 construido se proporciona como SEQ ID NO: 33.

2.2 Diseño de un molde de reparación dirigida por homología (molde HDR)

El molde de HDR de Ade2 de 838 pb de BEC85, BEC67, BEC10, SuCms1 y SeqID63 se diseñó para generar una deleción específica de sitio de 29 pb en el gen Ade2 cromosómico de S.cerevisiaeS288c por recombinación homóloga. En el molde de HDR, la deleción del gen Ade2 estaba flanqueada por secuencias de 407 pb y 429 pb homólogas a la región diana cromosómica. Además, el fragmento de HDR creó una nueva secuencia de reconocimiento para la endonucleasa de restricción EcoRI en el sitio genómico de Ade2 delecionado. El suceso de recombinación con éxito mediado por el molde de HDR diseñado anuló el ya descrito PAM y región protoespaciadora (SEQ ID NO: 20) en el gen Ade2 cromosómico para prevenir que el complejo ARNg/ADN nucleasa BEC85, BEC67 o BEC10 se dirigiera al genoma de S.cerevisiaeS288c otra vez. Además, la deleción génica introducida, produjo clones mutantes de Ade2, que se reconocían fácilmente por el color rojo de las colonias, ya que las células mutantes, privadas de adenina, acumulan precursores de purina rojos en sus vacuolas (Ugolini et al., Curr Genet (2006), 485-92).

La secuencia completa del molde de HDR de Ade2 para BEC85, BEC67, BEC10, SuCms1 y SeqID63 se proporciona como SEQ ID NO: 23.

2.3 Sistema de vector CRISPR/SpCas9 para edición genómica en S.cerevisiaeS228c

Los elementos genéticos necesarios para la expresión constitutiva de la ADN nucleasa SpCas9 (Cas9 de S.pyogenes)y para la transcripción de ARN guía único se proporcionaron en un sistema de vector CRISPR/SpCas9 todo en uno. Diseño del casete de expresión de proteína SpCas9

Basado en la secuencia de nucleótidos de SpCas9 publicada deStreptococcus pyogenes,(Deltcheva et al., Nature 471 (2011), 602-607) la síntesis de ADN de la secuencia codificante de SpCas9 con codones optimizados se pidió a GeneArt (Thermo Fisher Scientific, Ratisbona, Alemania), (SEQ ID NO: 24) para expresión en S.cerevisiaeS288c. Para la translocación nuclear, la secuencia codificante de la ADN nucleasa SpCas9 se extendió en 5' mediante una secuencia que codifica una señal de localización nuclear (NLS) de SV40 (SEQ ID NO: 11). Siguiendo la estrategia de expresión de proteína descrita para la ADN nucleasa BEC10, el gen de SpCas9 de 4134 pb sintético resultante se fusionó al promotor Tpi1 de S.cerevisiaeS288c constitutivo (SEQ ID NO: 12) y el terminador Cps1 de S.cerevisiaeS288c (SEQ ID NO: 13). El casete de expresión de proteína de SpCas9 final fue insertado por Gibson Assembly Cloning (NEB, Frankfurt, Alemania) en un vector lanzadera deE. coli/S. cerevisiae,que contenía todos los elementos genéticos necesarios para la propagación episomal y la selección como ya se ha descrito para el sistema de vector CRISPR/BEC10.

Diseño del casete de expresión del ARN guía (ARNg)

La expresión del ARNg quimérico para dirigirse al gen Ade2 específico por la ADN nucleasa SpCas9 fue dirigido por el promotor de la ARN polimerasa III SNR52 (SEQ ID NO: 18) con una secuencia terminadora SUP4 (SEQ ID NO: 19). El ARN guía quimérico estaba compuesto de la secuencia espaciadora de 20 pb específica de diana Ade2 (SEQ ID NO: 25) fusionada a la secuencia ARNgs específica de SpCas9 de 76 pb (SEQ ID NO: 26). La secuencia espaciadora diana se identificó en el gen Ade2 de S.cerevisiaeS288c antes del motivo PAM específico de SpCas9 5'-AGG-3'. El casete de expresión de ARN completo compuesto del promotor de la ARN polimerasa III SNR52, el ARN guía quimérico diseñado y la secuencia terminadora SUP4 fue proporcionado en un fragmento génico sintético por GeneArt (Thermo Fisher Scientific, Ratisbona, Alemania).

Para generar el sistema de vector CRISPR/SpCas9 final el casete de transcripción de ARN sintético fue clonado por Gibson Assembly Cloning (NEB, Frankfurt, Alemania) en el vector lanzadera deE. coli/S. cerevisiaepreparado, que contenía el casete de expresión de la ADN nucleasa SpCas9. La identidad de todos los elementos de a Dn clonados se confirmó por secuenciación de Sanger en LGC Genomics (Berlín, Alemania).

Sistema de vector todo en uno CRISPR/SpCas9

La secuencia de nucleótidos completa del sistema de vector CRISPR/SpCas9 construido se proporciona como SEQ ID NO: 27.

2.4 Diseño de un molde de reparación dirigido por homología

El molde de HDR de 832 pb de Ade2 de SpCas9 sintético se diseñó para generar una deleción específica de sitio de 26 pb en el gen Ade2 cromosómico de S.cerevisiaeS288c por recombinación homóloga. En el molde de HDR, la deleción del gen Ade2 estaba flanqueada por secuencias de 402 pb y 428 pb homólogas a la región diana cromosómica. El suceso de recombinación con éxito mediado por el molde de HDR diseñado anuló el ya descrito PAM y región protoespaciadora (SEQ ID NO: 25) en el gen Ade2 cromosómico para prevenir que el complejo ARNg/ADN nucleasa SpCas9 se dirigiera al genoma de S.cerevisiaeS288c otra vez. Además, la deleción génica introducida, produjo clones mutantes de Ade2, que se podrían reconocer fácilmente por el color rojo de las colonias, ya que las células mutantes, privadas de adenina, acumulan precursores de purina rojos en sus vacuolas (Ugolini et al., Curr Genet (2006), 485-92).

La secuencia completa del molde de HDR de Ade2 de 832 pb se proporciona como SEQ ID NO: 28.

2.5 Cultivo y transformación deSaccharomyces cerevisiae

Transformación de células de S.cerevisiaeS288c competentes

La preparación y transformación de células de S.cerevisiaeS288c competentes se realizó como se ha descrito por Gietz & Schiestl, Nature Protocols (2007), 2, 31 - 34. Brevemente, una única colonia de S.cerevisiaeS288c se inoculó en 25 ml de medio YPD 2x y se incubó durante 14 a 16 h a 30°C en un agitador horizontal a 200 rpm. Los precultivos crecidos durante la noche se diluyeron en 250 ml de medio YPD 2x reciente hasta una densidad óptica a 600 nm (DO600) de 0,5. El medio inoculado se incubó a 30°C en un agitador horizontal a 200 rpm hasta que el cultivo alcanzó una densidad óptica a DO600 de 2,0 a 8,0. Las células se transfirieron a tubos cónicos 5 x 50 ml y se recogieron por centrifugación durante 5 min y 3000 x g. Las células precipitadas de 250 ml de cultivo se resuspendieron en 125 ml de agua y se centrifugaron durante 5 min y 3000 x g. Las células precipitadas se resuspendieron en 2,5 ml de agua. Después de una etapa adicional de centrifugación durante 5 min y 3000 x g, las células precipitadas se resuspendieron por último en 2,5 ml de “solución de células competentes congelada” (glicerol al 5% v/v y DMSO al 10% v/v). Se almacenaron alícuotas de células competentes de 50 pl a -80°C hasta su uso. Para el procedimiento de transformación, las alícuotas de células competentes se descongelaron durante 30 seg a 37°C siguiendo centrifugación durante 2 min a 11.600 x g. El sobrenadante de eliminó y el precipitado celular se resuspendió en 360 pl de mezcla de transformación compuesta de 1 pg de derivados del plásmido pScCEN y 500 ng del molde de HDR proporcionado en 14 pl de agua, 260 pl de PEG 3350 al 50% p/v, 36 pl de acetato de Li 1 M y 50 pl de ADN portador monocatenario. Las células preparadas se sometieron a choque térmico a 42°C durante 45 min mezclando cada 15 min. Después de la etapa de choque térmico, las células transformadas se precipitaron durante 30 seg a 13.000 x g por centrifugación, el sobrenadante se eliminó. Para la recuperación, el precipitado celular se resuspendió en 1 ml de YPD. La suspensión celular se transfirió a un tubo de 5 ml y se incubó durante 3 h a 30°C en un agitador horizontal a 200 rpm. Por último, las células transformadas se sembraron en placas de agar selectivo que contenía geneticina (G418) 50 pg/ml y se incubaron durante al menos 2 días a 30°C.

2.6 Sistemas de vectores CRISPR/BEC E. coli y Cms1E. colipara edición genómica enE. coli BW25113

Los elementos genéticos necesarios para la expresión constitutiva de las nucleasas CRISPR BEC10, SuCms1 o SeqID63 y para la transcripción del ARN guía (ARNg) se proporcionaron en un sistema de vector todo en uno CRISPR/BEC10_E. coli (SEQ ID NO: 34), CRISPR/SuCms1_E. coli (SEQ ID NO: 35) o CRISPR/SeqID63_E. coli (SEQ ID NO: 36).

A continuación, se describe la construcción del sistema de vector de CRISPR/BEC10_E. coli. Los sistemas de vectores CRISPR/SuCms1_E. coli y CRISPR/SeqID63_E. coli se construyeron en un enfoque análogo.

Diseño del casete de expresión de proteína de BEC10 Coli

Se optimizaron los codones de la secuencia de nucleótidos de BEC10 de 3696 pb sintética para expresión enE. coli BW25113,usando una aplicación de bioinformática proporcionada por el suministrador de síntesis de genes GeneArt (Thermo Fisher Scientific, Ratisbona, Alemania), SEQ ID NO: 37. Para la expresión de proteínas, el gen sintético resultante se fusionó al promotor inducible araBAD (SEQ ID NO: 38) y el terminador fdt (S<e>Q ID NO: 39). El casete de expresión de proteína de BEC10_E.colifinal fue insertado por Gibson Assembly Cloning (NEB, Frankfurt, Alemania) en un vector lanzadera deE. coli,que contenía todos los elementos genéticos necesarios para la propagación episomal y la selección de células recombinantes deE. coli.

Diseño del casete de expresión del ARN guía (ARNg)

La expresión del ARNg quimérico para dirigirse al gen rpoB específico por la ADN nucleasa BEC10 fue dirigido por el promotor de la ARN polimerasa III SacB (SEQ ID NO: 40) y terminado con una secuencia terminadora rrnB (<s>E<q>ID NO: 41). El ARNg quimérico estaba compuesto de una secuencia tallo-bucle de la familia BEC de 19 pb constante (SEQ ID NO: 9 o s Eq ID NO: 10, ambas secuencias de tallo bucle son intercambiables entre las tres nucleasas de la familia BEC produciendo resultados comparables) fusionada a la secuencia espaciadora de 24 pb específica de diana rpoB (SEQ ID NO: 42). La secuencia espadadora diana se identificó en el gen rpoB deE. coli BW25113después del motivo PAM específico de la nucleasa BEC10 5-TTTA-3'.

El casete de expresión de ARN completo compuesto del promotor de la ARN polimerasa III SacB, el ARNg quimérico diseñado y la secuencia terminadora rrnB fue proporcionado en un fragmento génico sintético por GeneArt (Thermo Fisher Scientific, Ratisbona, Alemania).

La construcción del sistema de vector CRISPR/BEC10_E. coli todo en uno se completó clonando el casete de expresión de ARN en el vector lanzadera deE. colipreparado, que contenía el casete de expresión de la ADN nucleasa BEC10_Coli. La construcción del sistema de vector c RiSPR/b EC10_E. coli final estuvo mediada por Gibson Assembly Cloning (NEB, Frankfurt, Alemania).

Sistema de vector todo en uno CRISPR/BEC10 E. coli

La secuencia de nucleótidos completa del sistema de vector CRISPR/BEC10_Coli se proporciona como SEQ ID NO: 34.

Sistema de vector todo en uno CRISPR/SuCms1 E. coli

La secuencia de nucleótidos completa del sistema de vector CRISPR/SuCms1_Coli se proporciona como SEQ ID NO: 35.

Sistema de vector todo en uno CRISPR/SeqID63 E. coli

La secuencia de nucleótidos completa del sistema de vector CRISPR/SeqID63_Coli se proporciona como SEQ ID NO: 36.

2.7 Cultivo y transformación deE. coli

Transformación de célulasE. coli BW25113competentes

Brevemente, una colonia individual deE. coli BW25113se inoculó en 5 ml de medio LB-Kan y se incubó durante 12 a 14 h a 37°C en un agitador horizontal a 200 rpm. Los precultivos crecidos durante la noche se diluyeron en 60 ml de medio LB reciente hasta una densidad óptica a 600 nm (DO600) de 0,06. El medio inoculado se incubó a 30°C en un agitador horizontal a 200 rpm hasta que el cultivo alcanzó una densidad óptica a DO600 de 0,2. Se añadieron 600 pl de arabinosa al 20% y las células se incubaron a 30°C a 200 rpm hasta que el cultivo alcanzó una densidad óptica a DO600 de 0,5. Las células se transfirieron a un tubo cónico de 50 ml y se recogieron por centrifugación a 4°C durante 5 min y 4000 x g. Las células precipitadas del cultivo de 50 ml de resuspendieron en 60 ml de agua y se centrifugó a 4°C durante 5 min y 4000 x g.

Se realizó un procedimiento de lavado y las células se resuspendieron en 30 ml de glicerina al 10% después una centrifugación a 4°C durante 5 min y 4000 x g. En una segunda etapa de lavado, las células se resuspendieron en 6 ml de glicerina al 10% después una centrifugación a 4°C durante 5 min y 4000 x g. En la etapa final, las células se resuspendieron en 150 pl de glicerina al 10%. Se almacenaron alícuotas de células competentes de 25 pl a -80°C hasta su uso. Para el procedimiento de transformación, se descongelaron alícuotas de células competentes y se añadieron 50 ng de ADN plasmídico. Las células preparadas se electroporaron usando 18000 V, 25 pF, 200 Ohm durante 5 mseg. Posteriormente, se añadieron 975 pl de medio NEB® 10-beta/Stable Overgrowth y 100 pl de la suspensión se sembraron en placas de agar selectivas.

2.8 Técnicas de ADN

El aislamiento de plásmidos, manipulación enzimática de ADN y electroforesis en gel de agarosa se realizaron según procedimientos estándar. Se usó el sistema de PCR de alta fidelidad Thermo Fisher Scientific Phusion Flash (Thermo Fisher, Darmstadt, Alemania) para las amplificaciones de PCR. Todos los oligonucleótidos usados en este trabajo fueron sintetizados por biomers.net (Ulm, Alemania) o Eurofins Scientific (Ebersberg, Alemania). Se usaron el kit DNA Clean and Concentrator y el kit de recuperación de ADN de gel ZymoClean (Zymo Research, Friburgo, Alemania) para las purificaciones de agarosa y reacciones enzimáticas. La identidad de todos los fragmentos de ADN clonados se confirmó por tecnología de secuenciación de Sanger en LGC Genomics (Berlín, Alemania).

El ADN genómico purificado de células de S.cerevisiaeS288c se aisló usando del kit de ADN genómico YeaStar de Zymo Research (Zymo Research, Friburgo, Alemania) según las instrucciones del fabricante. La digestión con zimolasa de la pared celular de levaduras se realizó durante 60 min a 37°C, el ADN genómico purificado se eluyó en 60 pl de Tris/HCl 5 mM pH 8,5.

Ejemplo 3: Caracterización funcional de BEC85, BEC67 y BEC10 en comparación con spCas9 enSaccharomyces cerevisiae (S. cerevisiae)

3.1 Configuración experimental

En este ejemplo, el sistema de vector CRISPR/BEC85 (SEQ ID NO: 21), CRISPR/BEC67 (SEQ ID NO: 22) o CRISPR/BEC10 (SEQ ID NO: 31) y el correspondiente molde de reparación dirigido por homología (SEQ ID NO: 23) se usaron para inactivar el gen Ade2 en S.cerevisiaeS288C. En comparación con los experimentos llevados a cabo usando BEC85, BEC67 o BEC10, se realizaron experimentos similares usando la construcción CRISPR/SpCas9 (SEQ ID NO: 27) y el correspondiente molde de reparación dirigido por homología (SEQ ID NO: 28) para demostrar la funcionalidad de las nucleasas CRISPR de tipo BEC.

Ade2 es un gen no esencial deSaccharomyces cerevisiae,pero una inactivación produce un fenotipo rojo de las colonias, ya que las células mutantes acumulan precursores de purina rojos en sus vacuolas (Ugolini et al., Curr Genet (2006), 485-92). Debido a esta fácil lectura, la inactivación del gen Ade2 se puede utilizar como un sistema de cribado para seguir la capacidad de las proteínas CRISPR Cas para funcionar como herramienta de edición genómica.

En este enfoque, se usó una introducción dirigida por CRISPR Cas de un molde de reparación dirigido por homología que produce una deleción específica de sitio que elimina el PAM y la secuencia espaciadora. Además, se introdujo una mutación de cambio de marco de lectura por el molde de reparación dirigida por homología que produce una inactivación del gen Ade2 para visualizar la actividad de corte de ADN de BEC85, BEC67 y BEC10 en comparación con SpCas9 (la proteína Cas más comúnmente usada en ciencia y farmacia).

La estrategia de inactivación de Ade2 usada en S.cerevisiaeS288c para BEC85, BEC67, BEC10 y SpCas9 se muestra esquemáticamente en la figura 1.

En resumen, las construcciones de expresión CRISPR/BEC85, CRISPR/BEC67, CRISPR/BEC10 o CRISPR/SpCas9 y el correspondiente molde de reparación dirigida por homología se transformaron en células de S.cerevisiaeS288c y se sembraron como se describe en el ejemplo 2.5.

En paralelo, se realizaron experimentos de control negativo usando las construcciones de expresión CRISPR/BEC85, CRISPR/BEC67, CRISPR/BEC10 o CRISPR/SpCas9 que carecen de una secuencia espaciadora que se dirige al gen Ade2 para demostrar la dependencia de las proteínas Cas de ser guiadas a la región de ADN diana por un espaciador específico.

Después de la transformación y 48 h de incubación a 30°C las placas de cultivo se analizaron contando el número de colonias crecidas y mediante la evaluación de su fenotipo (rojo o blanco).

3.2 Resultados

Los resultados se resumen en la tabla 1 y se muestran placas ejemplares en la figura 2.

Todos los experimentos se llevaron a cabo en 5 replicados biológicos y los resultados obtenidos de estos replicados se combinaron para visualizar la eficacia de edición genómica de las nucleasas CRISPR de tipo BEC.

Tabla 1: Resumen de los resultados de 5 experimentos (placas) para cada configuración experimental usando la estrategia de inactivación de Ade2 en S.cerevisiaeS288c para BEC85, BEC67, BEC10 y SpCas9 (números de colonias acumulados)

CRISPR/SpCas9

Las células transformadas con las construcciones de control negativo (CRISPR/SpCas9 (sin espaciador) molde de reparación dirigida por homología) mostraron 5831 colonias blancas y 11 rojas demostrando que la proteína SpCas9 no se dirigía al ADN del gen Ade2 debido a la secuencia espaciadora ausente. Por tanto, el 99,8% de las colonias mostró un fenotipo de tipo salvaje (blanco). Además, 11 colonias mostraron un fenotipo de inactivación (rojo) debido a sucesos de recombinación homóloga naturales donde el molde de reparación dirigida por homología se integra en el locus del gen Ade2.

En contraste con esto, la construcción activa (CRISPR/SpCas9 (con un espaciador que se dirige al gen Ade2) molde de reparación dirigida por homología) produjo 1182 colonias blancas y 2575 rojas. Por tanto, demuestra el mecanismo molecular y la eficacia de SpCas9 con un 68% de colonias editadas en comparación con el control negativo donde solo el 0,2% de las colonias estaban editadas.

CRISPR/BEC85, CRISPR/BEC67 y CRISPR/BEC10

Sorprendentemente, la misma configuración experimental usando la secuencia de BEC85, BEC67 o BEC10 produjo resultados completamente diferentes en comparación con SpCas9.

Las células transformadas con las construcciones de control negativo de BEC10 (CRISPR/BEC10 (sin espaciador) molde de reparación dirigida por homología) mostraron 8021 colonias blancas y 14 rojas demostrando que la proteína BEC10 no se dirigía al ADN del gen Ade2 debido a la secuencia espaciadora ausente. Por tanto, el 99,8% de las colonias mostró un fenotipo de tipo salvaje (blanco). Además, 14 colonias mostraron un fenotipo de inactivación (rojo) debido a sucesos de recombinación homóloga naturales donde el molde de reparación dirigida por homología se integra en el locus del gen Ade2. Se obtuvieron resultados similares usando la construcción de control negativo de BEC85 (6643 colonias de tipo salvaje (blanco) y 14 inactivadas (rojas)) y BEC67 (9136 colonias de tipo salvaje (blanco) y 16 inactivadas (rojas)).

En contraste con esto, la construcción activa de BEC10 (CRISPR/BEC10 (con un espaciador que se dirige al gen Ade2) molde de reparación dirigida por homología) produjo una reducción global significativa de colonias visibles (174) comparada con el control negativo (8035) y también comparada con el enfoque de SpCas9 activa (3757). Sin embargo, 155 de estas 174 colonias mostraron un fenotipo de inactivación de Ade2 (rojo) que lleva a una eficacia de edición del 89%. Usando las construcciones de BEC85 o BEC67 activas se observaron resultados similares.

BEC85: Reducción de colonias significativa hasta 91 con 82 colonias rojas y 9 blancas que lleva a una eficacia de edición del 90%.

BEC67: Reducción de colonias significativa hasta 68 con 45 colonias rojas y 21 blancas que lleva a una eficacia de edición del 68%.

En conjunto, los resultados obtenidos usando las configuraciones experimentales con SpCas9, BEC85, BEC67 y BEC10 mostraron sorprendentemente un mecanismo de edición genómica molecular completamente diferentes de las nucleasas CRISPR de tipo BEC en comparación con las nucleasas CRISPR Cas clásicas. Al contrario de SpCas9, que ayuda a la recombinación homóloga al introducir una rotura bicatenaria dirigida por ARN, la edición mediada por BEC85, BEC67 y BEC10 produce una fuerte reducción de colonias global en relación con un enriquecimiento significativo de células que logran con éxito la recombinación homóloga.

Incluso aunque BEC85, BEC67 y BEC10 muestran un mecanismo molecular novedoso, los resultados obtenidos en este ejemplo demuestran la capacidad de las nucleasas CRISPR de tipo BEC para funcionar como una novedosa herramienta de edición genómica por recombinación dirigida por homología muy eficaz, dirigida por sitio.

Ejemplo 4: Evaluación de la actividad y eficacia de edición genómica de las nucleasas de la familia BEC en comparación a sus secuencias vecinas próximas SuCms1 y SeqID63.

El ejemplo 4 demuestra que las novedosas nucleasas de la familia BEC de la presente invención son superiores en comparación a sus parientes más cercanos conocidos SuCms1 (Begemann et al. (2017), bioRxiv) y SeqID63 (documento WO2019/030695) basado en experimentos comparativos

4.1 Configuración experimental

En este ejemplo, el sistema de vector CRISPR/BEC10 (SEQ ID NO: 31), CRISPR/SuCms1 (SEQ ID NO:32) o CRISPR/SeqID63 (SEQ ID NO:33) y los correspondientes moldes de reparación dirigida por homología (SEQ ID NO: 23) se usaron para inactivar el gen Ade2 en S.cerevisiaeS288C. El ejemplo compara directamente la eficacia de edición genómica de nucleasas de la familia BEC con sus secuencias vecinas próximas SuCms1 (Begemann et al. (2017), bioRxiv) y SeqID63 (documento WO2019/030695).

Los experimentos se llevaron a cabo como se describe en la sección 3.1, anteriormente, de los ejemplos.

4.2 Resultados

Los resultados se resumen en la tabla 2 y se muestran placas ejemplares en la figura 3.

Todos los experimentos se llevaron a cabo en 5 replicados biológicos y los resultados obtenidos de estos replicados se combinaron para visualizar la eficacia de edición genómica de BEC10 en comparación con las nucleasas del estado de la técnica SuCms1 y SeqID63.

Tabla 2: Resumen de los resultados de 5 experimentos (placas) para cada configuración experimental usando la estrategia de inactivación de Ade2 en S.cerevisiaeS288c para BEC10, SuCms1 y SeqID63 (números de colonias acumulados) a 30°C

CRISPR/SuCms1

Las células transformadas con la construcción activa (CRISPR/SuCmsl molde de reparación dirigida por homología) mostraron 623 colonias blancas, 19 rojas y 14 naranjas (las colonias naranjas en la figura 3 están marcadas con una flecha) que lleva a una eficacia de edición del 5% (si las colonias naranjas se cuentan como células editadas con éxito). Sin embargo, un análisis adicional de las colonias naranjas mostró que estas colonias contenían una mezcla de células editadas con éxito y no editadas (es decir, de tipo salvaje) que lleva a una eficacia de edición de colonias completamente editadas de solo el 3%.

CRISPR/SeqID63

Las células transformadas con la construcción activa (CRISPR/SeqID63 molde de reparación dirigida por homología) mostraron 5231 colonias blancas y 8 rojas que lleva a una eficacia de edición del 0,2%. Los números totales de colonias y la eficacia de edición son comparables a los resultados de los controles negativos mostrados en el ejemplo 3 demostrando que SeqID63 no muestra ninguna actividad nucleasa.

CRISPR/BEC10

Las células transformadas con la construcción activa (CRISPR/BEC10 molde de reparación dirigida por homología) mostraron 11 colonias blancas y 59 rojas que lleva a una eficacia de edición muy alta del 84%, que es comparable a la eficacia de edición obtenida en el ejemplo 3 para BEC85, BEC67 y BEC10.

Resumen

Los resultados obtenidos en el ejemplo 4 muestran que BEC10 y las otras nucleasas de la familia BEC al igual que BEC85 y BEC67 (en vista de los resultados descritos en el ejemplo 3) tienen el mismo mecanismo de dirigirse al ADN y muestran que las tres tienen eficacias de edición muy altas y comparables. Además, las nucleasas de la familia BEC muestran una reducción de colonias significativamente más fuerte y una eficacia de edición significativamente superior en comparación con sus secuencias vecinas cercanas SuCms1 y SeqID63. Al contrario de la nucleasa SuCms1, que muestra una eficacia de edición del 5% (también advirtiendo que de los 33 clones editados 14 estaban solo parcialmente editados), BEC10 muestra una eficacia de edición del 84%, BEC85 del 90% y BEC67 del 68% (véase el ejemplo 3). Además, SeqID63 no muestra ninguna actividad nucleasa en absoluto.

Ejemplo 5: Evaluación de la actividad y eficacia de edición genómica de las nucleasas de la familia BEC en comparación a sus secuencias vecinas próximas SuCms1 y SeqID63 a diferentes temperaturas (21°C y 37°C)

Para muchas aplicaciones biotecnológicas y farmacéuticas los experimentos se tienen que llevar a cabo a temperaturas específicas para cumplir los requisitos para el organismo usado y asegurar el mejor rendimiento y resultados reproducibles. La temperatura óptima para la mayoría de los organismos usados para aplicaciones biotecnológicas, agrícolas y farmacéuticas está entre 21°C y 37°C. Para demostrar el rendimiento de las nucleasas BEC de la invención en este intervalo de temperatura se llevaron a cabo experimentos usandoS. cerevisiae(21°C) yE. coli(37°C) en comparación con las secuencias vecinas próximas SuCms1 (Begemann et al. (2017), bioRxiv) y SeqID63 (documento WO2019/030695).

5.1 Configuración experimental(S. cerevisiae21°C)

En este ejemplo, el sistema de vector CRISPR/BEC10 (SEQ ID NO: 31), CRISPR/SuCms1 (SEQ ID NO: 32) o CRISPR/SeqID63 (SEQ ID NO: 33) y el correspondiente molde de reparación dirigida por homología (SEQ ID NO: 23) se usaron para inactivar el gen Ade2 en S.cerevisiaeS288C. Las células se incubaron a 21°C para demostrar la eficacia de edición genómica de nucleasas de la familia BEC a baja temperatura en comparación directa con sus secuencias vecinas próximas SuCms1 y SeqID63.

El cultivo y transformación de S.cerevisiaese llevó a cabo como se describe en la sección 2.5 de los ejemplos excepto por la temperatura de cultivo que se alteró de 30°C a 21°C.

Los experimentos se llevaron a cabo como se describe en la sección 3.1 de los ejemplos.

5.2 Resultados

Los resultados se resumen en la tabla 3 y se muestran placas ejemplares en la figura 4.

Todos los experimentos se llevaron a cabo en 5 replicados biológicos y los resultados obtenidos de estos replicados se combinaron para visualizar la eficacia de edición genómica de BEClo en comparación con SuCmsl y SeqID63.

Tabla 3: Resumen de los resultados de 5 experimentos (placas) para cada configuración experimental usando la estrategia de inactivación de Ade2 en S.cerevisiaeS288c para BEC10, SuCmsl y SeqID63 (números de colonias acumulados) a 21°C

CRISPR/SuCms1

Las células transformadas con la construcción activa (CRISPR/SuCmsl molde de reparación dirigida por homología) mostraron 870 colonias blancas y 28 rojas que lleva a una eficacia de edición del 0,3% que está solo ligeramente por encima de la eficacia de edición de los experimentos con controles negativos (0,2%) y significativamente disminuida en comparación con los resultados obtenidos a 30°C (ejemplo 4).

CRISPR/SeqID63

Las células transformadas con la construcción activa (CRISPR/SeqID63 molde de reparación dirigida por homología) mostraron 10240 colonias blancas y 18 rojas que lleva a una eficacia de edición del 0,2%. Los números totales de colonias y la eficacia de edición son comparables a los resultados de los controles negativos mostrados en el ejemplo 4 que demuestra que SeqID63 no muestra ninguna actividad nucleasa.

CRISPR/BEC10

Las células transformadas con la construcción activa (CRISPR/BEC10 molde de reparación dirigida por homología) mostraron 23 colonias blancas y 42 rojas que lleva aun a una eficacia de edición del 64%, demostrando de esta manera que la edición genómica usando nucleasas CRISPR de tipo BEC lleva a una reducción global significativa de colonias visibles y altas tasas de edición genómica también cuando se usan a 21°C.

Resumen

Los resultados obtenidos en el ejemplo 5.2 demuestran que la nucleasa BEC10 de las nucleasas de la familia BEC muestra una reducción de colonias global significativa y una fuerte eficacia de edición genómica (65%) cuando se usa a 21°C.

En contraste a esto, la reducción de colonias global y la eficacia de edición de la nucleasa SuCms1 disminuyó significativamente a 21°C hasta el 0,3% que está solo ligeramente por encima de la eficacia de edición de los experimentos con controles negativos (0,2%) y no es adecuada para funcionar como herramienta de edición genómica. Además, como ya se mostró a 30°C, SeqID63 no muestra ninguna actividad nucleasa en absoluto.

5.3 Configuración experimental(E. coli37°C)

Para evaluar la actividad nucleasa de las nucleasas de la familia BEC en comparación hacia sus secuencias vecinas próximas a 37°C, se usó un sistema de ensayo deE. colidebido a sus condiciones ideales de crecimiento a 37°C. Para visualizar la actividad y eficacia de las nucleasas se llevó a cabo un denominado ensayo de agotamiento, donde la tasa de supervivencia de las células deE. colidespués del direccionamiento de la nucleasa se sigue en comparación a un control negativo (menor tasa de supervivencia significa mejor actividad nucleasa). Como las células deE. colino son capaces de realizar unión de extremos no homólogos (NHE<j>) el direccionamiento del ADN usando una nucleasa CRISPR produce muerte celular. Además, el gen esencial rpoB fue el objetivo en este enfoque experimental y las células deE. colino son capaces de sobrevivir a la inactivación de este gen.

Para este enfoque experimental, se usó el sistema de vector CRISPR/BEC10_Coli (SEQ ID NO: 34), CRISPR/SuCms1_Coli (Se Q ID NO: 35) o CRISPR/SeqID63_Coli (SEQ ID NO: 36) para dirigirse al gen rpoB enE. colipara demostrar la eficacia de edición de las nucleasas de la familia BEC a altas temperaturas (37°C) en comparación directa con sus secuencias vecinas próximas SuCmsl (Begemann et al. (2017), bioRxiv) y SeqID63 (documento WO2019/030695).

En paralelo, se realizaron experimentos de control negativo usando las construcciones de expresión CRISPR/BEC10_Coli, CRISPR/SuCms1_Coli o CRISPR/SeqID63_Coli que carecen de una secuencia espaciadora que se dirige al gen rpoB para demostrar la dependencia de las proteínas Cas a ser guiadas para dirigirse a la región de ADN por un espaciador específico.

Después de la transformación y 48 h de incubación a 37°C las placas de cultivo se analizaron contando el número de colonias crecidas.

5.4 Resultados

Los resultados se resumen en la tabla 4 y se muestran placas ejemplares en la figura 5.

Tabla 4: Resumen de los resultados de 5 experimentos (placas) para cada configuración experimental usando el ensayo de agotamiento deE. colidirigiéndose al gen rpoB para BEC10, SuCmsl y SeqID63 (números de colonias acumulados) a 37°C

CRISPR/SuCms1

Las células transformadas con la construcción control mostraron 4905 colonias después de incubación durante 48 h a 37°C mientras las células transformadas con la construcción activa (CRISPR/SuCms1_Coli) mostraron 1365 colonias que lleva a una reducción de clones del 72%.

CRISPR/SeqID63

Las células transformadas con la construcción control mostraron 5002 colonias después de incubación durante 48 h a 37°C mientras las células transformadas con la construcción activa (CRISPR/SeqID63_Coli) mostraron 5025 colonias que lleva a una reducción de clones del 0% demostrando que SeqID63 no muestra ninguna actividad nucleasa en este enfoque experimental.

CRISPR/BEC10

Las células transformadas con la construcción control mostraron 4963 colonias después de incubación durante 48 h a 37°C mientras las células transformadas con la construcción activa (CRISPR/BEC10_Coli) mostraron 130 colonias que lleva a una reducción de clones del 97%.

Resumen

Los resultados obtenidos en el ejemplo 5.4 demuestran que la nucleasa BEC10 muestra una reducción de colonias global significativa (97%) a 37°C cuando se usa el ensayo de agotamiento basado enE. coli,demostrando de esta manera la actividad muy alta de la nucleasa BEC10 a mayores temperaturas. En contraste a esto, la nucleasa SuCms1 mostró una disminución significativamente menor de las colonias (72%) indicando la actividad superior de las nucleasas de tipo BEC en comparación a SuCms1 a 37°C.

Además, SeqID63 no muestra ninguna actividad nucleasa en absoluto con el 0% de reducción de colonias en comparación con el control negativo

Ejemplo 6 - Discusión de los resultados de los ejemplos 3-5

En conjunto, los resultados de los ejemplos 3-5 muestran que las secuencias de las recién identificadas y desarrolladas nucleasas de la familia BEC (BEC85, BEC67 y BEC10) que tienen identidades de secuencias del “ 95% entre sí tienen eficacias de edición genómica comparables basado en un novedoso mecanismo de edición genómica molecular cuando se compara con Cas9 (Ejemplo 3). Además, los resultados del ejemplo 4 demuestran que la edición genómica usando las nucleasas del tipo de la familia BEC lleva a números de reducción de clones significativamente mayores y proporciones de edición significativamente superiores en comparación con sus secuencias vecinas próximas SuCmsl y SeqID63 corroborando la superioridad general de las nucleasas de tipo BEC para la edición genómica.

La mayoría de los organismos de interés usados en aplicaciones de investigación biotecnológica, agrícola y farmacéutica se cultivan a temperaturas que varían de 21°C-37°C (por ejemplo, varias plantas y células vegetales “ 21°C, varias levaduras y células fúngicas “ 30°C, varios organismos procariotas y líneas celulares de mamíferos “ 37°C). Por tanto, un sistema CRISPR universalmente aplicable necesita mostrar fuerte actividad y eficacia de edición genómica cuando se usa en este intervalo de temperaturas. Para evaluar la actividad dependiente de la temperatura de las recién descubiertas y desarrolladas nucleasas de tipo BEC se llevaron a cabo experimentos usando la nucleasa BEC10 en S.cerevisiae(21°C) yE. coli(37°C) (Ejemplo 5) y se compararon con los resultados obtenidos usando las secuencias vecinas próximas SuCmsl y SeqID63. Los resultados obtenidos en estos experimentos demuestran la fuerte actividad de BEC10 a todos los niveles de temperatura ensayados con una eficacia de edición superior y tasa de reducción de colonias comparado con las secuencias vecinas próximas SuCmsl (Begemann et al. (2017), bioRxiv) y SeqID63 (documento WO2019/030695). Además de eso, la eficacia de edición de la nucleasa SuCmsldisminuyó significativamente a 21°C a niveles comparables a los del control negativo (0,3%) mientras la eficacia de edición de BEC10 permaneció a alto nivel (65%) incluso a temperaturas más frías.

Claims

REIVINDICACIONES

1. Una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN, que es

(a) una molécula de ácido nucleico que codifica la ADN endonucleasa guiada por ARN que comprende o consiste en la secuencia de aminoácidos de SEQ ID NO: 29, 1 o 3;

(b) una molécula de ácido nucleico que comprende o consiste en la secuencia de nucleótidos de SEQ ID NO:

30, 2 o 4;

(c) una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN cuya secuencia de aminoácidos es al menos el 95% idéntica a la secuencia de aminoácidos de (a);

(d) una molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN y que comprende o consiste en la secuencia de nucleótidos que es al menos el 95% idéntica a la secuencia de aminoácidos de (b); y

(e) la molécula de ácido nucleico de cualquiera de (a) a (d) en donde T se sustituye por U.

2. La molécula de ácido nucleico de la reivindicación 1, en donde la molécula de ácido nucleico está operativamente unida a un promotor que es nativo o heterólogo a la molécula de ácido nucleico.

3. La molécula de ácido nucleico de la reivindicación 1 o 2, en donde dicha molécula de ácido nucleico tiene codones optimizados para expresión en una célula eucariota.

4. La molécula de ácido nucleico de la reivindicación 3, en donde la célula eucariota es una célula vegetal o una célula animal.

5. Un vector que codifica la molécula de ácido nucleico de cualquiera de las reivindicaciones 1 a 4.

6. Una célula huésped que comprende la molécula de ácido nucleico de cualquiera de las reivindicaciones 1 a 4 o que se transforma, transduce o transfecta con el vector de la reivindicación 5.

7. La célula huésped de la reivindicación 6, en donde la célula huésped es una célula eucariota o una célula procariota.

8. La célula huésped de la reivindicación 6, en donde la célula eucariota es una célula vegetal o una célula animal.

9. Una planta, semilla o parte de una planta, dicha parte de una planta no es una única célula vegetal que comprende la molécula de ácido nucleico de cualquiera de las reivindicaciones 1 a 4 o que se transforma, transduce o transfecta con el vector de la reivindicación 5.

10. Un método de producir una ADN endonucleasa guiada por ARN que comprende cultivar la célula huésped de cualquiera de las reivindicaciones 6 a 8 y aislar la ADN endonucleasa guiada por ARN producida.

11. Una ADN endonucleasa guiada por ARN codificada por la molécula de ácido nucleico de cualquiera de las reivindicaciones 1 a 4.

12. Una composición que comprende la molécula de ácido nucleico de cualquiera de las reivindicaciones 1 a 4, el vector de la reivindicación 5, la célula huésped de cualquiera de las reivindicaciones 6 a 8, la planta, semilla, parte de una planta de la reivindicación 9, la ADN endonucleasa guiada por ARN de la reivindicación 11 o una combinación de las mismas.

13. La composición de la reivindicación 12, en donde la composición es una composición farmacéutica.

14. La molécula de ácido nucleico de cualquiera de las reivindicaciones 1 a 4, el vector de la reivindicación 5, la célula huésped de cualquiera de las reivindicaciones 6 a 8, la planta, semilla, parte de una planta de la reivindicación 9, la ADN endonucleasa guiada por ARN de la reivindicación 11 o una combinación de las mismas para uso en el tratamiento de una enfermedad en un sujeto modificando una secuencia de nucleótidos en un sitio diana en el genoma del sujeto.

15. Un métodoin vitrode modificar una secuencia de nucleótidos en un sitio diana en el genoma de una célula que comprende introducir en dicha célula

(i) un ARN que se dirige a ADN o un polinucleótido de ADN que codifica un ARN que se dirige a ADN, en donde el ARN que se dirige a ADN comprende:

(a) un primer segmento que comprende una secuencia de nucleótidos que es complementaria a una secuencia en el ADN diana; y

(b) un segundo segmento que interacciona con la ADN endonucleasa guiada por ARN de la reivindicación 11; y

(ii) la ADN endonucleasa guiada por ARN de la reivindicación 11, o la molécula de ácido nucleico que codifica una ADN endonucleasa guiada por ARN de cualquiera de las reivindicaciones 1 a 4, o el vector de la reivindicación 5, en donde la ADN endonucleasa guiada por ARN comprende:

(a) una porción de unión a ARN que interacciona con el ARN que se dirige a ADN; y

(b) una porción de actividad que muestra actividad enzimática dirigida.

16. El método de la reivindicación 15, en donde en caso de que la ADN endonucleasa guiada por ARN y el ARN que se dirige a ADN se introduzcan directamente en la célula se pueden introducir en forma de un complejo de ribonucleoproteína (RNP).

17. Una composición diagnóstica que comprende la ADN endonucleasa guiada por ARN de la reivindicación 11 y una hebra de ADN monocatenaria unida a un marcador, de modo que cuando el polipéptido de ADN endonucleasa guiada por ARN corta el ADN monocatenario, activa el indicador, produciendo que fluoresca o cambie de color.