ES2847252T3

ES2847252T3 - Procedimientos de modulación de resultados de reparación de ADN

Info

Publication number: ES2847252T3
Application number: ES19192206T
Authority: ES
Inventors: Daniel Capurso; Andrew P May; Overbeek Megan Van
Original assignee: Caribou Biosciences Inc
Current assignee: Caribou Biosciences Inc
Priority date: 2016-02-22
Filing date: 2017-02-21
Publication date: 2021-08-02
Anticipated expiration: 2037-02-21
Also published as: EP3653709A1; ES2754785T3; DK3653709T3; DK3420080T3; US20190055549A1; EP3653709B1; WO2017147056A1; EP3420080B1; US11155814B2; EP3420080A1

Abstract

Un procedimiento implementado por ordenador para diseñar un polinucleótido guía para insertar de manera predecible un nucleótido de adenina (A) o de timina (T) en un sitio de corte producido por una escisión de ADN mediada por Cas9 en una célula, comprendiendo el procedimiento: seleccionar una región diana en el ADN en la célula que se va a modificar; y diseñar un polinucleótido guía complementario a un protoespaciador de 20 nt en la región diana, de tal manera que el nucleótido en la posición 17 del protoespaciador se corresponde con una A o una T; en la que (i) para la inserción de una A en el sitio de corte, la posición 17 del protoespaciador es A, o (ii), para la inserción de una T en el sitio de corte, la posición 17 del protoespaciador es T; en donde el ADN es ADN genómico.

Description

DESCRIPCIÓN

Procedimientos de modulación de resultados de reparación de ADN

Campo técnico

La presente invención se refiere a procedimientos de reparación de ADN para la modulación de resultados de reparación de ADN, tales como en aplicaciones de edición de genes.

Antecedentes de la invención

El sistema CRISPR ha sido ampliamente adoptado como una herramienta versátil para la ingeniería del genoma en células humanas (véase, por ejemplo, Jinek y col., "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity", Science (2012) 337:816-821; y Jinek y col., "RNA-programmed genome editing in human cells" Elife (2013) 2:e00471). Las proteínas asociadas a CRISPR, tales como Cas9, son programables y se pueden dirigir para crear roturas de doble cadena (DSB, de sus siglas en inglés) cromosómicas en sitios en el ADN genómico mediante una molécula de ARN de guía única (ARNgu) diseñada para complementar la secuencia de interés (Jinek y col., "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity", Science (2012) 337:816-821; el documento WO 2014/150624 por Caribou Biosciences y col.). Después de la generación de DSB, se recluta maquinaria de reparación de ADN para promover las transacciones de ADN en el sitio de rotura y el resultado de este procedimiento dicta la funcionalidad de la reparación. En ausencia de una plantilla de donante, se ha pensado que este procedimiento da como resultado resultados de reparación de ADN aleatorios. A pesar del papel fundamental que juegan los resultados de reparación de ADN en la definición de la naturaleza de una edición del genoma, las mutaciones específicas de inserción/deleción (indel) que resultan de la reparación de DSB iniciada por Cas no se han caracterizado bien hasta la fecha. Por lo tanto, sigue existiendo una necesidad sobresaliente de caracterización detallada de resultados de reparación de ADN en DSB iniciadas por Cas para anticipar resultados funcionales.

La inactivación génica se puede lograr mediante la reparación de DSB dependientes de Cas/ARNgu en los sitios diana mediante rutas de unión de extremos propensas a la mutación (por ejemplo, unión de extremos no homólogos clásica (c-NHEJ, de sus siglas en inglés), unión de extremos alternativa (alt-EJ, de sus siglas en inglés)/unión de extremos mediada por microhomología (MMEJ, de sus siglas en inglés)) que producen principalmente indeles en el sitio de rotura (Mandal y col., "Efficient ablation of genes in human hematopoietic stem and effector cells using CRISPR/Cas9" Cell Stem Cell (2014) 15:643-652; Hou y col., " Genome editing of CXCR4 by CRISPR/cas9 confers cells resistant to HTV-1 infection" Sci Rep (2015) 5:15577; Canver y col., "BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis" Nature (2015) 527:192-197). La reparación a través de la ruta alt-EJ/MMEJ con frecuencia da como resultado grandes eliminaciones entre sitios de microhomología (Deriano y Roth, "Modernizing the nonhomologous end-joining repertoire: alternative and classical NHEJ share the stage" Annual Review of Genetics (2013) 47:433-455).

Estudios bioquímicos y basados en células que monitorean la religadura de plásmidos linealizados sugieren que la c-NHEJ es un procedimiento preciso para extremos romos y cohesivos (véase, por ejemplo, Boulton y Jackson, " Saccharomyces cerevisiae Ku70 potentiates illegitimate DNA double-strand break repair and serves as a barrier to error-prone DNA repair pathways" (1996) EMBO J. 15:5093-5103; Feldmann y col., "Dn A double-strand break repair in cell-free extracts from Ku80-deficient cells: implications for Ku serving as an alignment factor in non-homologous DNA end joining" Nucleic Acids Res (2000) 28:2585-2596; Smith y col., "Impact of DNA ligase IV on the fidelity of end joining in human cells" Nucleic Acids Res (2003) 31:2157-2167).

Sin embargo, se ha pensado que la reparación de DSB programadas específicas de linfocitos y DSB generadas a partir de agentes extrínsecos, tales como fármacos radiomiméticos y radiación ionizante, mediante la c-NHEJ produce resultados aleatorios (Li y col., "Multiple end joining mechanisms repair a chromosomal DNA break in fission yeast" DNA Repair (Amst.) (2012) 11:120-130; Dolan y col., "Integrated Stochastic Model of DNA Damage Repair by Non homologous End Joining and p53/p21-Mediated Early Senescence Signalling" PLoS Comput. Biol. (2015) 11:e1004246; Boboila y col., "Classical and alternative end-joining pathways for repair of lymphocyte-specific and general DNA double-strand breaks" Adv. Immunol. (2012) 116:1-49). Un estudio realizado en levadura que compara la reparación de DSB con extremos "irregulares" inducidos por IR y extremos "limpios" inducidos por la escisión mediante endonucleasas reveló diferentes requisitos de procesamiento para la reparación de roturas (Barlow y col.,. "Differential regulation of the cellular response to DNA double-strand breaks in G1" (2008) Mol. Cell 30:73-85).

Los resultados de reparación resultantes de rutas de unión de extremos se han analizado en detalle para determinadas nucleasas especializadas, incluida la recombinación V(D)J inducida por RAG (Purugganan y col., "Ku80 is required for addition of N nucleotides to V(D)J recombination junctions by terminal deoxynucleotidyl transferase" Nucleic Acids Res (2001) 29:1638-1646; Corneo y col., "Rag mutations reveal robust alternative end joining" Nature (2007) 449: 483 486), la reparación en sitios de meganucleasa I-SceI (Rouet y col., "Introduction of double-strand breaks into the genome of mouse cells by expression of a rare-cutting endonuclease" Mol. Cell. Biol. (1994) 14:8096-8106; Lloyd y col., "Single molecule PCR reveals similar patterns of non-homologous DSB repair in tobacco and Arabidopsis" PloS One (2012) 7:e32255.2012; Bindra y col., "Development of an assay to measure mutagenic non-homologous endjoining repair activity in mammalian cells" (2013) Nucleic Acids Res 41: e115-e115; Soong y col., "Development of a novel method to create double-strand break repair fingerprints using next-generation sequencing" DNA Repair (2015) 26:44-53), y la reparación de DSB inducidas por la endonucleasa HO (Moore y Haber, "Cell cycle and genetic requirements of two pathways of nonhomologous end-joining repair of double-strand breaks in Saccharomyces cerevisiae" Mol. Cell. Biol. (1996) 16:2164-2173; Li y col., "Multiple end joining mechanisms repair a chromosomal DNA break in fission yeast" DNA Repair (Amst.) (2012) 11:120-130). El estudio de Moore y Haber describe una inserción característica de "CA" después de la reparación de una DSB inducida por endonucleasa HO en S. cerevisiae, mientras que Li y col., describen una inserción característica de un nucleótido "A" después de la reparación de una DSB inducida por endonucleasa HO en S. pombe. Ambos estudios identifican dependencias genéticas de estos eventos de reparación distintivos. El intervalo de secuencias para el cual se han medido estos resultados de reparación de DSB es, sin embargo, limitado.

Por el contrario, Cas9, que se puede dirigir fácilmente a cualquier sitio en un genoma que se encuentre adyacente a un motivo adyacente al protoespaciador (PAM, de sus siglas en inglés) (por ejemplo, NGG para Cas9 de Streptococcus pyogenes), permite el análisis a gran escala de los resultados de reparación de ADN en todo el genoma. Estudios previos que analizaron resultados de reparación de ADN después de la actividad Cas9 (Tan y col., "Off-target assessment of CRISPR-Cas9 guiding RNAs in human iPS and mouse ES cells" Genesis (2015) 53:225-236) identificaron un pequeño número de deleciones distintivas en líneas clonalmente aisladas que se atribuyeron a la actividad de MMEJ (Koike-Yusa y col., "Genome-wide recessive genetic screening in mammalian cells with a lentiviral CRISPR-guide RNA library" Nat. Biotechnol. (2014) 32:267-273). También, un estudio publicado en 2016 reveló la reparación de ADN no aleatorizada tras la escisión de Cas9 (van Overbeek y col. "DNA repair profiling reveal nonrandom outcomes at Cas9-mediated breaks" Molecular Cell (2016) 63:633-646).

Existen varios sistemas CRISPR-Cas diferentes y la nomenclatura y clasificación de estos ha cambiado a medida que los sistemas se han caracterizado. En particular, los sistemas CRISPR-Cas se han reclasificado recientemente en dos clases, que contienen cinco tipos y dieciséis subtipos. Makarova y col. (Nature Reviews Microbiology (2015) 13:1-15). Esta clasificación se basa en la identificación de todos los genes cas en un locus de CRISPR-Cas y después la determinación de los genes identificativos en cada locus de CRISPR-Cas, determinando así si los sistemas CRISPR-Cas pueden situarse en la Clase 1 o Clase 2 basándose en los genes que codifican el módulo efector, es decir, las proteínas implicadas en la etapa de interferencia. Estos sistemas CRISPR-Cas se describen con mayor detalle a continuación.

El documento WO 2015/021353 desvela procedimientos y estrategias para la determinación de las preferencias de sitios diana y la especificidad de endonucleasas específicas de sitio.

Anders y coll. ("Structural basis of PAM-dependet target DNA recognition by the Cas9 enodnuclease" Nature (2014) 513:569-573), Jiang y col. ("Structures of a CRISPR-Cas9 R-loop complex primed for DNA cleavage" Science (2016) 351(6275):867-871), Nishimasu y col. ("Crystal structure of Cas9 in complex with guide RNA and target DnA" Cell (2014) 156:935-949), y Sternberg y col. ("Conformational control of DNA target cleavage by CRISPR-Cas9" Nature (2015) 527:110-113) desvela el análisis conformacional y estructural del ADN de diana de a Rn guiado por Cas9.

El uso de dichos sistemas CRISPR-Cas para predecir el resultado de la edición del genoma sería muy ventajoso.

Sumario

La invención se define en las reivindicaciones adjuntas.

Los patrones de reparación de ADN en más de 200 sitios en el genoma humano se caracterizan y describen en detalle en el presente documento. Los perfiles de reparación de ADN de estos sitios demuestran que la distribución de indeles resultantes de la reparación de ADN en las DSB mediadas por Cas9 no es aleatoria y es consistente en réplicas experimentales, líneas celulares y procedimientos de administración de reactivos. Además, estos patrones dependen de la secuencia de la diana, es decir, están determinados por la secuencia protoespaciadora en lugar del contexto genómico, y pueden modularse mediante la inhibición de componentes específicos de la maquinaria de reparación del ADN. Además, se ha descubierto que el nucleótido distal del PAM en la secuencia protoespaciadora, el nucleótido 17 en las dianas Cas9 (Cas9 se divide entre las posiciones 17 y 18), es altamente predictivo de qué nucleótido se inserta con mayor frecuencia.

Por lo tanto, la creación de perfiles de reparación de ADN en líneas celulares se puede utilizar para anticipar los resultados de reparación en un sitio diana dado en las células. La invención descrita en el presente documento proporciona procedimientos para usar y modular maquinaria de reparación de ADN de unión de extremos para generar ediciones precisas, así como procedimientos para insertar de manera predecible un único par de bases en posiciones particulares en regiones protoespaciadoras.

Se proporciona un procedimiento para restaurar la función genética. El procedimiento comprende: (1) identificar una mutación genética que reduce la función de un producto génico; (2) genomanipular una o más nucleasas dirigidas al sitio para cortar dentro de la proximidad de la mutación genética identificada; (3) introducir la una o más nucleasas en una célula; (4) escindir ADN dentro de la célula con una o más nucleasas; (5) producir perfiles de resultados de reparación de ADN de roturas dependientes de nucleasa; (6) seleccionar una o más nucleasas que producen los resultados deseados; y (7) genomanipular una célula con la o las nucleasas seleccionadas, para restaurar la función genética.

También se desvela un procedimiento para alterar la función genética. El procedimiento comprende: (1) identificar una región genética de interés en la que la alteración cambia la función de un producto génico; (2) genomanipular una o más nucleasas dirigidas al sitio para cortar dentro de la proximidad de la región genética identificada; (3) introducir la una o más nucleasas en una célula; (4) escindir ADN dentro de la célula con una o más nucleasas; (5) producir perfiles de resultados de reparación de ADN de roturas dependientes de nucleasa; (6) seleccionar una o más nucleasas que producen los resultados deseados; (7) genomanipular una célula con la o las nucleasas seleccionadas, para alterar la función genética.

En los dos casos anteriores, la nucleasa dirigida al sitio puede ser una proteína Cas catalíticamente activa que forma un complejo con un polinucleótido guía. La proteína Cas puede ser una proteína Cas9, tal como una proteína Cas9 de Streptococcus pyogenes o una proteína Cas9 ortóloga.

También se desvela un procedimiento para modular resultados de reparación de ADN. El procedimiento comprende: (1) poner en contacto un ácido nucleico diana seleccionado que comprende una región que se va a modificar con (a) un agente que suprime la unión de extremos no homólogos (NHEJ), favoreciendo así la unión de extremos alternativa (alt-EJ)/unión de extremos mediada por microhomología (MMEJ); y (b) una molécula de unión a ADN que se dirige al ácido nucleico diana seleccionado; y (2) producir una o más roturas de doble cadena en la región diana utilizando una endonucleasa programable, desencadenando así rutas de reparación de ADN para reparar las roturas, por lo que la reparación del ácido nucleico diana escindido continúa sustancialmente mediante MMEJ y se realiza en ausencia de un polinucleótido donante, modulando así el resultado de reparación de ADN.

También se desvela un procedimiento para modular resultados de reparación de ADN. El procedimiento comprende poner en contacto un ácido nucleico diana seleccionado que comprende una región para modificarse con (a) un agente que suprime la unión de extremos no homólogos (NHEJ), favoreciendo así la unión de extremos alternativa (alt-EJ)/unión de extremos mediada por microhomología (MMEJ); y (b) uno o más complejos que comprenden: (i) una proteína Cas catalíticamente activa y (ii) un primer polinucleótido guía que comprende un espaciador adaptado para unirse y escindir el ácido nucleico diana seleccionado en un sitio adyacente a la región a modificar, por lo que la reparación del ácido nucleico diana escindido continúa mediante MMEJ sin un polinucleótido donante, modulando así el resultado de reparación de ADN.

También se desvela un procedimiento para modular resultados de reparación de ADN que comprende: (1) poner en contacto un ácido nucleico diana seleccionado que comprende una región que se va a modificar con (a) un agente que suprime la unión de extremos alternativa (alt-EJ)/unión de extremos mediada por microhomología (MMEJ), favoreciendo así la unión de extremos no homólogos (NHEJ); y (b) una molécula de unión a ADN que se dirige al ácido nucleico diana seleccionado; y (2) producir una o más roturas de doble cadena en la región diana utilizando una endonucleasa programable, desencadenando así rutas de reparación de ADN para reparar las roturas, por lo que la reparación del ácido nucleico diana escindido continúa sustancialmente mediante NHEJ y se realiza en ausencia de un polinucleótido donante, modulando así el resultado de reparación de ADN.

También se desvela un procedimiento para modular los resultados de reparación de ADN. El procedimiento comprende poner en contacto un ácido nucleico diana seleccionado que comprende una región que se va a modificar con (a) un agente que suprime la unión de extremos alternativa (alt-EJ)/unión de extremos mediada por microhomología (MMEJ), favoreciendo así la unión de extremos no homólogos (NHEJ); y (b) uno o más complejos que comprenden: (i) una proteína Cas catalíticamente activa y (ii) un primer polinucleótido guía que comprende un espaciador adaptado para unirse y escindir el ácido nucleico diana seleccionado en un sitio adyacente a la región a modificar, por lo que la reparación del ácido nucleico diana escindido continúa mediante c-NHEJ sin un polinucleótido donante, modulando así el resultado de reparación de ADN.

También se desvela un procedimiento para modular resultados de reparación de ADN. El procedimiento comprende: (1) poner en contacto un ácido nucleico diana seleccionado que comprende una región que se va a modificar con (a) un primer agente que suprime la unión de extremos alternativa (alt-EJ)/unión de extremos mediada por microhomología (MMEJ), y un segundo agente que suprime la unión de extremos no homólogos (NHEJ), favoreciendo así la reparación dirigida por homología (HDR), y (b) una molécula de unión a ADN que se dirige al ácido nucleico diana seleccionado; (2) producir una o más roturas de doble cadena en la región diana utilizando una endonucleasa programable; y (3) insertar al menos una porción de un polinucleótido donante en dicho ácido nucleico diana en la rotura de doble cadena mediante una ruta de reparación de ADN HDR, modulando así el resultado de reparación de ADN.

En los procedimientos anteriores, el agente(s) en (1), tal como un inhibidor de c-NHEJ y/o MMEJ, que incluyen, sin limitación, inhibidores de péptidos, moléculas pequeñas, compuestos, etc., pueden evitarla actividad de determinados componentes de las rutas NHEJ y/o MMEJ, y no interactúan directamente con la región a modificar. Alternativamente, el agente se puede administrar directamente a la región a modificar.

También se desvela un procedimiento para descubrir "puntos críticos" de reparación dirigida por homología (HDR), es decir, regiones que demuestran una propensión a incorporar información de nucleótidos de una plantilla de donante.

El procedimiento comprende: (1) identificar una región de interés para reducir o restaurar la función de un producto génico o una región que es un "puerto seguro" para insertar información genética nueva sin interrumpir la función génica adyacente; (2) genomanipular una o más nucleasas dirigidas al sitio para cortar dentro de la proximidad de la mutación genética identificada; (3) introducir la una o más nucleasas en una célula; (4) escindir ADN dentro de la célula con una o más nucleasas; (5) producir perfiles de resultados de reparación de ADN de roturas dependientes de nucleasa; (6) determinar la contribución relativa de c-NHEJ y MMEJ al patrón de reparación; y (7) predecir puntos críticos de HDR en función de las contribuciones en la etapa (6).

También se desvela un procedimiento para mejorar la eficacia de HDR a través de rutas de modulación de unión de extremos. El procedimiento comprende: (1) identificar una región de interés para reducir o restaurar la función de un producto génico o una región que es un "puerto seguro" para insertar información genética nueva sin interrumpir la función génica adyacente. Esta región tiene una proporción particular de eventos de c-NHEJ frente a MMEJ descubiertos previamente a través de perfiles de reparación de ADN; (2) genomanipular una o más nucleasas dirigidas al sitio para cortar dentro de la proximidad de la región genética identificada; (3) introducir la una o más nucleasas en una célula con plantillas de donante; (4) escindir el ADN dentro de la célula con la una o más nucleasas para iniciar la incorporación de información de nucleótidos de una plantilla de donante (HDR); (5) promover la actividad de HDR con un agente que suprime una o ambas MMEJ y NHEJ, favoreciendo así la HDR; (6) producir perfiles de resultados de reparación de ADN de roturas dependientes de nucleasas para confirmar eventos de HDR; (7) seleccionar una o más nucleasas que producen los resultados deseados; y (8) genomanipular una célula con la o las nucleasas seleccionadas, para alterar la función genética existente o para introducir una nueva función genética.

Los procedimientos se pueden realizar en una célula, tal como una célula eucariota.

Los procedimientos se pueden realizar utilizando células con determinadas mutaciones genéticas como una selección para la sensibilidad a determinados compuestos que modulan la elección entre las rutas de reparación de ADN.

Los procedimientos se pueden realizar utilizando células para revelar determinadas responsabilidades genéticas en una selección para la sensibilidad a determinados compuestos que modulan la elección entre las rutas de reparación de ADN.

También se desvela un procedimiento para insertar de una manera predecible un nucleótido único particular en un sitio diana después de la escisión mediada por Cas. El procedimiento comprende: (1) seleccionar un gen que comprende una región diana a modificar; (2) diseñar un polinucleótido guía, tal como ARNgu, para dirigir un protoespaciador seleccionado en la región diana; (3) producir una rotura de doble cadena en la región diana utilizando una endonucleasa programable, en la que el protoespaciador en la región diana se escinde en la posición 17 de nucleótido; y (4) insertar un nucleótido particular en el sitio de escisión.

En todos los procedimientos descritos anteriormente, la proteína Cas puede ser una proteína Cas9, tal como una proteína Cas9 de Streptococcus pyogenes o una proteína Cas9 ortóloga.

El polinucleótido guía puede ser un ARNgu, o una guía diseñada para su uso con proteínas Cas distintas de Cas9. En otras realizaciones, se puede usar un sistema de doble guía. Dichas guías se analizan en detalle a continuación.

Estos aspectos y otras realizaciones de los procedimientos descritos en el presente documento se les ocurrirán fácilmente a los expertos en la materia a la vista de la divulgación del presente documento.

LISTADO DE SECUENCIAS

Las secuencias a las que se hace referencia en el presente documento se enumeran en el Listado de secuencias presentado como un archivo de texto ASCII titulado "1140-0002.40_ST25.txt" - 117 KB y fue creado el 17 de febrero de 2017. El Listado de Secuencias titulado "1140-0002.40_ST25.txt" se incorpora en el presente documento como referencia en su totalidad.

Breve descripción de los dibujos

Las Figuras 1A-1C representan el perfil de resultados de reparación de ADN después de la escisión mediante Cas9.

Las Figuras 2A-2C muestran que los perfiles de reparación de ADN son únicos para cada secuencia espaciadora. Las Figuras 3A-3F muestran los resultados de un experimento que utiliza secuencias de espaciador único diana múltiple (MTSS, de sus siglas en inglés) y demuestran que los resultados de reparación de ADN en las DSB mediadas por Cas9 dependen de la secuencia.

Las Figuras 4A-4I muestran que la distribución de resultados de reparación de ADN después de la escisión mediante Cas9 cambia con el tiempo.

Las Figuras 5A-5D muestran que la perturbación química de c-NHEJ promueve un subconjunto de resultados de reparación de ADN después de la escisión mediante Cas9.

Las Figuras 6A-6E muestran una mutación en marco de alta frecuencia después de la escisión mediante Cas9 de una diana en CD34.

Las Figuras 7A-7F muestran que el perfil de resultados de reparación de ADN en líneas celulares es predictivo para células primarias humanas.

Las Figuras 8A-8E muestran que los resultados de reparación de ADN son similares en comparación con las réplicas y los procedimientos de administración de reactivos en una diana JAK1.

Las Figuras 9A-9F muestran que los perfiles de reparación de ADN son únicos para cada diana.

Las Figuras 10A y 10B muestran visualizaciones de resultados de reparación de ADN en siete sitios en el genoma humano con la misma secuencia espaciadora.

Las Figuras 11A-11D muestran que los resultados de reparación de ADN son más similares dentro de los grupos espaciadores que entre los grupos espaciadores.

Las Figuras 12A-12D muestran que la microhomología no explica completamente la similitud de resultados de reparación de ADN dentro de los grupos espaciadores.

Las Figuras 13A-13B muestran datos de curso temporal de RNPgu de células K562 y HCT116 para 96 sitios diana.

Las Figuras 14A-14L muestran que la distribución de resultados de reparación de ADN después de la escisión mediante Cas9 cambia con el tiempo de forma dependiente del tipo de célula.

La Figura 15 muestra las frecuencias de inserciones de nucleótidos en función del nucleótido de posición 17 en el protoespaciador.

Descripción detallada de la invención

La invención se define en las reivindicaciones adjuntas.

Debe entenderse que la terminología usada en el presente documento es con el fin de describir solo realizaciones particulares y no se desea que sea limitante. Como se usa en la presente memoria descriptiva y en las reivindicaciones adjuntas, las formas en singular "un", "uno" y "el/la" incluyen referentes plurales salvo que el contexto indique claramente otra cosa. Por lo tanto, por ejemplo, la referencia a "un complejo ARNgu/Cas9" incluye uno o más de dichos complejos, la referencia a "una mutación" incluye una o más mutaciones, y similares. También debe entenderse que cuando se hace referencia a una realización que utiliza un ARNgu para dirigir Cas9 o dCas9 a un sitio diana, un experto en la materia puede usar una realización alternativa de la invención basada en el uso de un ARN de doble guía (por ejemplo, ARNcr/ARNcrtra) en lugar del ARNgu.

A menos que se defina lo contrario, todos los términos técnicos y científicos usados en el presente documento tienen el mismo significado que un experto en la materia a la que la invención pertenece entiende habitualmente. Aunque otros procedimientos y materiales similares, o equivalentes, a los descritos en el presente documento pueden usarse en la práctica de la presente invención, en el presente documento se describen materiales y procedimientos preferidos.

A la vista de las enseñanzas de la presente memoria descriptiva, un experto en la materia puede aplicar técnicas convencionales de inmunología, bioquímica, química, biología molecular, microbiología, biología celular, genómica y polinucleótidos recombinantes, como se enseña, por ejemplo, en los siguientes textos de referencia: Antibodies: A Laboratory Manual, Segunda edición, E. A. Greenfield, 2014, Cold Spring Harbor Laboratory Press, ISBN 978-1 936113-81-1; Culture of Animal Cells: A Manual of Basic Technique and Specialized Applications, 6a Edición, R. I. Freshney, 2010, Wiley-Blackwell, ISBN 978-0-470-52812-9; Transgenic Animal Technology, Tercera edición: A Laboratory Handbook, 2014, C. A. Pinkert, Elsevier, ISBN 978-0124104907; The Laboratory Mouse, Segunda edición, 2012, H. Hedrich, Academic Press, ISBN 978-0123820082; Manipulating the Mouse Embryo: A Laboratory Manual, 2013, R. Behringer, y col., Cold Spring Harbor Laboratory Press, ISBN 978-1936113019; Pc R 2: A Practical Approach, 1995, M. J. McPherson, y col., IRL Press, ISBN 978-0199634248; Methods in Molecular Biology (Series), J.M. Walker, ISSN 1064-3745, Humana Press; RNA: A Laboratory Manual, 2010, D. C. Rio, y col., Cold Spring Harbor Laboratory Press, ISBN 978-0879698911; Methods in Enzymology (Series), Academic Press; Molecular Cloning: A Laboratory Manual (Cuarta edición), 2012, M. R. Green, y col., Cold Spring Harbor Laboratory Press, ISBN 978-1605500560; Bioconjugate Techniques, Tercera edición, 2013, G. T. Hermanson, Academic Press, ISBN 978-0123822390; Methods in Plant Biochemistry and Molecular Biology, 1997, W. V. Dashek, CRC Press, ISBN 978-0849394805; Plant Cell Culture Protocols (Methods in Molecular Biology), 2012, V. M. Loyola-Vargas, y col., Humana Press, ISBN 978 1617798177; Plant Transformation Technologies, 2011, C. N. Stewart, y col., Wiley-Blackwell, ISBN 978-0813821955; Recombinant Proteins from Plants (Methods in Biotechnology), 2010, C. Cunningham, y col., Humana Press, ISBN 978-1617370212; Plant Genomics: Methods and Protocols (Methods in Molecular Biology), 2009, D. J. Somers, y col., Humana Press, ISBN 978-1588299970; Plant Biotechnology: Methods in Tissue Culture and Gene Transfer, 2008, R. Keshavachandran, y col., Orient Blackswan, ISBN 978-8173716164.

Las repeticiones palindrómicas cortas agrupadas en intervalos regulares (CRISPR, de sus siglas en inglés) y las proteínas asociadas a CRISPR (Cas) se encuentran en los sistemas inmunitarios procariotas. Estos sistemas proporcionan resistencia contra elementos genéticos exógenos, tal como virus y plásmidos, mediante la digestión de sus ácidos nucleicos para la degradación, de una manera específica de secuencia. Hay tres etapas principales en el sistema inmunitario de CRISPR-Cas: (1) adquisición, (2) expresión y (3) interferencia. La adquisición implica la escisión del genoma de virus y plásmidos invasores y la integración de segmentos (denominados protoespaciadores) de este ADN genómico en el locus CRISPR del organismo hospedador. Los segmentos que están integrados en el genoma del hospedador se conocen como espaciadores, que median la protección contra el ataque posterior por el mismo (o suficientemente relacionado) virus o plásmido. La expresión implica la transcripción del locus CRISPR y el posterior procesamiento enzimático para producir ARN CRISPR maduros cortos, cada uno de los cuales contiene una única secuencia espadadora. La interferencia se induce después de que los ARN CRISPR se asocian con las proteínas Cas para formar complejos efectores, que luego se dirigen a protoespaciadores complementarios en elementos genéticos extraños para inducir la degradación del ácido nucleico.

Un locus CRISPR incluye una serie de secuencias de repetición cortas denominadas "repeticiones". Las repeticiones pueden formar estructuras de horquilla y/o las repeticiones pueden ser secuencias monocatenarias no estructuradas. Las repeticiones ocurren en grupos. Las repeticiones frecuentemente divergen entre especies. Las repeticiones se intercalan regularmente con secuencias intermedias únicas, denominadas "espaciadores", que dan como resultado una arquitectura de locus de repetición-espaciador-repetición. Los espaciadores son idénticos a o son homólogos con secuencias invasoras extrañas conocidas. Una unidad espaciador-repetición codifica un ARNcrispr (ARNcr). Un ARNcr se refiere a la forma madura de la unidad espaciador-repetición. Un ARNcr contiene una secuencia espaciadora que está implicada en el direccionamiento de un ácido nucleico diana (por ejemplo, posiblemente como un mecanismo de vigilancia contra un ácido nucleico extraño). Una secuencia espaciadora se ubica normalmente hacia el extremo 5' de un ARNcr (por ejemplo, en un sistema Tipo I (por ejemplo, CASCADE); para una descripción del complejo CASCADE véase, por ejemplo, Jore, M. M. y col., "Structural basis for CRISPR RNA-guided DNA recognition by CASCADE", Nature Structural & Molecular Biology (2011) 18:529-536) o en el extremo 3' del espaciador de un ARNcr en un sistema Tipo II (por ejemplo, en un Sistema CRISPR Tipo II, descrito más detalladamente a continuación), directamente adjunto al primer tallo.

Por lo tanto, el ARNcr tiene una región de complementariedad con una posible secuencia diana de ADN y una segunda región que forma enlaces de hidrógeno de pares de bases con el ARNcrtra para formar una estructura secundaria, normalmente para formar al menos una estructura de tallo. El ARNcrtra y un ARNcr interaccionan mediante varios enlaces de hidrógeno de pares de bases para formar estructuras secundarias de ARN. La formación de complejo entre ARNcrtra/ARNcr y una proteína Cas9 (descrito más completamente a continuación) da como resultado un cambio conformacional de la proteína Cas que facilita la unión con ADN, actividades endonucleasa de la proteína Cas9 y escisión de ADN específica de sitio guiada por ARNcr mediante la endonucleasa. Para que un complejo de proteína Cas9/ARNcrtra/ARNcr escinda una secuencia diana de ADN, la secuencia diana de ADN es adyacente a un motivo adyacente al protoespaciador (PAM) afín.

Un locus CRISPR comprende secuencias polinucleotídicas que codifican genes asociados a CRISPR (cas). Los genes Cas están implicados en la biogénesis y/o las etapas de interferencia de la función de ARNcr. Los genes Cas muestran divergencia de secuencia extrema (por ejemplo, secuencia primaria) entre especies y homólogos. Por ejemplo, los homólogos casi pueden comprender menos de un 10 % de identidad de secuencia primaria entre homólogos. Algunos genes cas comprenden estructuras secundarias y/o terciarias homólogas. Por ejemplo, a pesar de la divergencia de secuencia extrema, muchos miembros de la familia Cas6 de proteínas CRISPR comprenden un pliegue tipo ferredoxina N-terminal. Los genes Cas se nombran de acuerdo con el organismo del que proceden. Por ejemplo, los genes cas en Staphylococcus epidermidis pueden denominarse tipo Csm, los genes cas en Streptococcus thermophilus pueden denominarse tipo Csn y los genes cas en Pyrococcus furiosus pueden denominarse tipo Cmr.

La etapa de integración de un sistema CRISPR se refiere a la capacidad del locus CRISPR para integrar nuevos espaciadores en la matriz de ARNcr al ser infectado por un invasor extraño. La adquisición de espaciadores invasores extraños puede ayudar a conferir inmunidad a los ataques posteriores del mismo invasor extraño. La integración normalmente ocurre en el extremo líder del locus CRISPR. Las proteínas Cas (por ejemplo, Cas1 y Cas2) están implicadas en la integración de nuevas secuencias espaciadoras. La integración continúa de manera similar para algunos tipos de sistemas CRISPR (por ejemplo, Tipo I-III).

Los ARNcr maduros se procesan a partir de una transcripción de locus CRISPR policistrónico más largo (es decir, matriz pre-ARNcr). Una matriz pre-ARNcr comprende una pluralidad de ARNcr. Las repeticiones en la matriz pre-ARNcr son reconocidas por genes cas. Los genes Cas se unen a las repeticiones y escinden las repeticiones. Esta acción puede liberar la pluralidad de ARNcr. Los ARNcr pueden someterse a eventos adicionales para producir la forma madura de ARNcr tal como el recorte (por ejemplo, con una exonucleasa). Un ARNcr puede comprender la totalidad, una parte o ninguna de la secuencia de repetición CRISPR.

La interferencia se refiere a la etapa en el sistema CRISPR que es funcionalmente responsable de combatir la infección por un invasor extraño. La interferencia de CRISPR sigue un mecanismo similar a la interferencia de ARN (ARNi: por ejemplo, en el que un ARN diana está dirigido (por ejemplo, hibridado) por un ARN de interferencia pequeño (ARNip), lo que da como resultado la degradación y/o desestabilización del ARN diana. Los sistemas CRISPR realizan la interferencia de un ácido nucleico diana mediante el acoplamiento de ARNcr y genes Cas, formando así ribonucleoproteínas CRISPR (RNPcr). El ARNcr de RNPcr guía a la RNPcr al ácido nucleico invasor extraño, (por ejemplo, mediante el reconocimiento del ácido nucleico invasor extraño a través de la hibridación). Las unidades de ácido nucleico-ARNcr invasor extraño diana hibridado se someten a escisión por proteínas Cas. La interferencia de ácido nucleico diana normalmente requiere un motivo adyacente al protoespaciador (PAM) en un ácido nucleico diana.

Por "sistema CRISPR-Cas", como se usa en el presente documento, se entiende cualquiera de las diversas clases, tipos y subtipos de CRISPR-Cas. Los sistemas CRISPR se clasifican actualmente en dos clases, Clase 1 o Clase 2, según los genes que codifican el módulo efector, es decir, las proteínas implicadas en la etapa de interferencia, e incluyen cinco tipos (Tipos I-V) y dieciséis subtipos (Makarova y col., Nature Reviews Microbiology (2015) 13:1-15).

Los sistemas de Clase 1 tienen un complejo multisubunitario de ARNcr-efector, mientras que los sistemas de Clase 2 tienen una única proteína, tal como Cas9, Cpfl, C2c1, C2c2, C2c3 o un complejo de ARNcr-efector. Los sistemas de Clase 1 comprenden sistemas de Tipo I, Tipo III y Tipo IV. Los sistemas de Clase 2 comprenden sistemas de Tipo II y Tipo V.

Los sistemas de Tipo I tienen una proteína Cas3 que tiene actividad helicasa y actividad de escisión. Los sistemas de Tipo I se dividen adicionalmente en siete subtipos (de I-A a I-F y I-U). Cada subtipo de tipo I tiene una combinación definida de genes distintivos y características definidas de organización de operones. Por ejemplo, los subtipos I-A y I- B parecen tener los genes cas organizados en dos o más operones, mientras que los subtipos I-C a I-F parecen tener los genes cas codificados por un único operón. Los sistemas de Tipo I tienen un complejo multiproteico de ARNcrefector que está implicado en las etapas de procesamiento e interferencia del sistema inmunitario de CRISPR-Cas. En Escherichia coli, este complejo multiproteico se conoce como complejo asociado con CRISPR para defensa antivírica (CASCADE). El subtipo I-A comprende csa5 que codifica una proteína de subunidad pequeña y un gen cas8 que se divide en dos, que codifica subunidades degradadas grandes y pequeñas y también tiene un gen cas3 dividido. Un ejemplo de un organismo con un sistema CRISPR-Cas subtipo I-A es Archaeoglobus fulgidus.

El subtipo I-B tiene una disposición de genes cas1-cas2-cas3-cas4-cas5-cas6-cas7-cas8 y carece de un gen csa5. Un ejemplo de un organismo con subtipo I-B es Clostridium kluyveri. El subtipo I-C no tiene un gen cas6. Un ejemplo de un organismo con subtipo I-C es Bacillus halodurans. El subtipo I-D tiene un Cas10d en lugar de un Cas8. Un ejemplo de un organismo con subtipo I-D es Cyanothece sp. El subtipo I-E no tiene un cas4. Un ejemplo de un organismo con subtipo I-E es Escherichia coli. El subtipo I-F no tiene un cas4 y tiene un cas2 fusionado con un gen cas3. Un ejemplo de un organismo con subtipo I-F es Yersinia pseudotuberculosis. Un ejemplo de un organismo con subtipo I-U es Geobacter sulfurreducens.

Todos los sistemas de tipo III poseen un gen cas10, que codifica una proteína multidominio que contiene un dominio Palm (una variante del motivo de reconocimiento de ARN (MRR)) que es homólogo del dominio de núcleo de numerosas ácido nucleico polimerasas y ciclasas y que es la mayor subunidad de complejos de ARNcr-efector de tipo III. Todos los loci de tipo III codifican también la proteína de subunidad pequeña, una proteína Cas5 y habitualmente varias proteínas Cas7. El Tipo III puede dividirse adicionalmente en cuatro subtipos, de III-A a III-D. El subtipo III-A tiene un gen csm2 que codifica una subunidad pequeña y también tiene genes cas1, cas2 y cas6. Un ejemplo de un organismo con subtipo III-A es Staphylococcus epidermidis. El subtipo III-B tiene un gen cmr5 que codifica una subunidad pequeña y normalmente también carece de genes cas1, cas2 y cas6. Un ejemplo de un organismo con subtipo III-B es Pyrococcus furiosus. El subtipo III-C tiene una proteína Cas10 con un dominio de tipo ciclasa inactivo y carece de un gen cas1 y cas2. Un ejemplo de un organismo con subtipo III-C es Methanothermobacter thermautotrophicus. El subtipo III-D tiene una proteína Cas10 que carece del dominio HD y un gen cas1 y cas2, y tiene un gen similar a cas5 conocido como csx10. Un ejemplo de un organismo con subtipo III-D es Roseiflexus sp.

Los sistemas de tipo IV codifican un complejo multisubunitario mínimo de ARNcr-efector que comprende una subunidad grande parcialmente degradada, Csf1, Cas5, Cas7 y, en algunos casos, una subunidad pequeña potencial. Los sistemas de tipo IV carecen de genes cas1 y cas2. Los sistemas de tipo IV no tienen subtipos, pero hay dos variantes definidas. Una variante de tipo IV tiene una helicasa de la familia DinG, mientras que una segunda variante de tipo IV carece de una helicasa de la familia DinG, pero tiene un gen que codifica una proteína alfa-helicoidal pequeña. Un ejemplo de un organismo con un sistema de tipo IV es Acidithiobacillus ferrooxidans.

Los sistemas de tipo II incluyen los genes cas1, cas2 y cas9. Hay dos cadenas de ARN en los sistemas de Tipo II, un ARN CRISPR (ARNcr) y un ARN CRISPR transactivador (ARNcrtra). El ARNcrtra se hibrida con una región complementaria de pre-ARNcr provocando la maduración de pre-ARNcr a ARNcr. El dúplex formado por el ARNcrtra y el ARNcr es reconocido mediante, y asociado con, una proteína multidominio, Cas9, codificada por el gen cas9, que combina las funciones del complejo ARNcr-efector con la escisión del ADN diana. Cas9 se dirige a un ácido nucleico diana mediante una secuencia del ARNcr que es complementaria a, e hibrida con, una secuencia en el ácido nucleico diana.

Se ha demostrado que estos componentes mínimos del sistema inmunitario basado en ARN pueden reprogramarse para dirigirse al ADN de una manera específica del sitio mediante el uso de una única proteína y dos secuencias de ARN guía o una sola molécula de ARN. Los sistemas de tipo II se dividen adicionalmente en tres subtipos, subtipos II-A, II-B y II-C. El subtipo II-A contiene un gen adicional, csn2. Un ejemplo de un organismo con un sistema de subtipo II- A es Streptococcus thermophilus. El subtipo II-B carece de csn2, pero tiene cas4. Un ejemplo de un organismo con un sistema de subtipo II-B es Legionella pneumophila. El subtipo II-C es el sistema de tipo II más frecuente encontrado en bacterias y tiene solamente tres proteínas, Cas1, Cas2 y Cas9. Un ejemplo de un organismo con un sistema de subtipo II-C es Neisseria lactamica.

Como se ha explicado anteriormente, la biogénesis de ARNcr en un sistema CRISPR Tipo II comprende un ARNcrtra. El ARNcrtra se modifica normalmente mediante ribonucleasa III endógena. El ARNcrtra se hibrida con una repetición de ARNcr en la matriz pre-ARNcr. La ribonucleasa III endógena se recluta para escindir el pre-ARNcr. Los ARNcr escindidos se someten a un recorte de exoribonucleasa para producir la forma de ARNcr maduro (por ejemplo, recorte en 5'). El ARNcrtra normalmente permanece hibridado con el ARNcr. El ARNcrtra y el ARNcr se asocian con un polipéptido dirigido al sitio (por ejemplo, Cas9). El ARNcr del complejo ARNcr-ARNcrtra-Cas9 puede guiar el complejo a un ácido nucleico diana con el cual el ARNcr puede hibridarse. La hibridación del ARNcr al ácido nucleico diana activa una Cas9 afín de tipo silvestre para la escisión del ácido nucleico diana. El ácido nucleico diana en un sistema CRISPR Tipo II comprende un PAM. En algunas realizaciones, un PAM es esencial para facilitar la unión de un polipéptido dirigido al sitio (por ejemplo, Cas9) a un ácido nucleico diana.

Cas9 es una proteína Cas CRISPR de tipo II ejemplar y sirve como una endonucleasa. El ARNcr maduro que está emparejado con la base para transactivar ARNcr (ARNcrtra) forma una estructura de ARN de dos partes, también llamada "doble guía", que dirige la Cas9 a introducir roturas de doble cadena (DSB) en el ADN diana. Cas9 puede ser programada por el ARNcrtra/ARNcr para escindir, de forma específica de sitio, ADN diana usando dos dominios de endonucleasa definidos (dominios de HNH y tipo RuvC/ribonucleasa H) (véase la solicitud publicada de Patente de Estados Unidos n.° 2014/0068797 de Doudna y col., publicada el 6 de marzo de 2014; véase también Jinek y col., "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity", Science (2012) 337:816-821), uno para cada cadena de la doble hélice del ADN. RuvC y HNH juntos producen roturas de doble cadena, y por separado pueden producir roturas de cadena sencilla. En sitios complementarios de la secuencia guía de ARNcr (espaciador), el dominio de nucleasa HNH de Cas9 escinde la cadena complementaria y el dominio de tipo RuvC de Cas9 escinde la cadena no complementaria. Las moléculas de doble ARNcr/ARNcrtra se han genomanipulado para formar moléculas de ARNcr/ARNcrtra de cadena sencilla. Estos ARNcr/ARNcrtra de cadena sencilla dirigen la escisión de ADN de doble cadena mediante Cas9 específica de secuencia diana.

Normalmente, cada sistema CRISPR-Cas9 comprende un ARNcrtra y un ARNcr. Sin embargo, este requisito puede evitarse mediante el uso de un ARNgu genomanipulado, descrito más detalladamente a continuación, que contiene una horquilla diseñada que imita el complejo ARNcrtra-ARNcr (Jinek y col., "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity", Science (2012) 337:816-821). La parte de la secuencia de ARNgu que es complementaria a la secuencia diana se conoce como protoespaciador.

El emparejamiento de bases entre el ARNgu y el ADN diana causa roturas de doble cadena (DSB) debido a la actividad endonucleasa de Cas9. La especificidad de unión se determina mediante el emparejamiento de bases de ADN-ARNgu y un motivo de ADN corto (secuencia de motivo adyacente al protoespaciador (PAM): NGG) yuxtapuesta a la región complementaria de ADN (Jinek y col., "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity", Science (2012) 337:816-821). Por lo tanto, un sistema CRISPR Tipo II solo requiere un conjunto mínimo de dos moléculas -- la proteína Cas9 y el ARNgu.

Se conoce en la materia un gran número de ortólogos de Cas9 así como sus componentes de ARNcrtra y ARNcr asociados (véase, por ejemplo, "Supplementary Table S2. List of bacterial strains with identified Cas9 orthologs", Fonfara, Ines, y col., "Phylogeny of Cas9 Determines Functional Exchangeability of Dual-RNA and Cas9 among Orthologous Type II CRISPR/Cas Systems", Nucleic Acids Research (2014) 42:2577-2590, incluyendo todos los datos complementarios; Chylinski K., y col., "Classification and evolution of type II CRISPR-Cas systems", Nucleic Acids Research (2014) 42:6091-6105, incluyendo todos los datos complementarios.); Esvelt, K. M., y col., "Orthogonal Cas9 proteins for RNA-guided gene regulation and editing", Nature Methods (2013) 10:1116-1121). Se han identificado varias proteínas Cas9 ortólogas, incluidas las proteínas Cas9 de Neisseria meningitidis, Streptococcus thermophilus y Staphylococcus aureus.

Como se usa en el presente documento, "una proteína Cas" tal como "una proteína Cas9", "una proteína Cas3", "una proteína Cpfl", etc., se refiere a una proteína Cas procedente de cualquier especie, subespecie o cepa de bacteria que codifica la proteína Cas de interés, así como variantes y ortólogos de la proteína Cas particular en cuestión. Las proteínas Cas se pueden aislar y purificar directamente de bacterias, o producir de manera sintética o recombinante, o se pueden administrar usando una construcción que codifica la proteína, que incluyen, sin limitación, ADN puro, ADN plasmídico, un vector vírico y ARNm para la expresión de Cas. Ejemplos no limitantes de proteínas Cas incluyen Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (también conocida como Csn1 y Csx12 ), Cas10, Cpfl, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, C2C1, C2C2, C2C3, homólogos de las mismas o versiones modificadas de las mismas. Estas enzimas son conocidas; por ejemplo, la secuencia de aminoácidos de la proteína Cas9 de Streptococcus pyogenes se puede encontrar en la base de datos SwissProt (disponible en el sitio web uniprot.org) con el número de referencia Q99ZW2. En algunas realizaciones, la proteína CRISPR está optimizada por codones para la expresión en una célula de interés. En algunas realizaciones, la proteína CRISPR dirige la escisión de una o dos cadenas en la ubicación de la secuencia diana. En algunas realizaciones, la proteína CRISPR carece de actividad de escisión de la cadena de ADN, o actúa como una nickcasa. La elección de la proteína Cas dependerá de las condiciones particulares de los procedimientos utilizados como se describe en el presente documento.

Se conocen en la materia variantes y modificaciones de las proteínas Cas9. La publicación de patente de Estados Unidos 2014/0273226 de Wu, publicada el 18 de septiembre de 2014, analiza el gen Cas9 de Streptococcus pyogenes, la proteína Cas9 y las variantes de la proteína Cas9, incluidas las secuencias codificantes Cas9 optimizadas por codones específicas de hospedador (por ejemplo, 0129-0137 en el mismo) y proteínas de fusión Cas9 (por ejemplo, 233-240 en la misma). La publicación de patente de Estados Unidos 2014/0315985) de May y col., publicada el 23 de octubre de 2014, enseña un gran número de polipéptidos de Cas9 de tipo silvestre ejemplares (por ejemplo, SEQ ID NO: 1-256, SEQ ID NOS: 795-1346, en la misma) incluyendo la secuencia de Cas9 de Streptococcus pyogenes (SEQ ID NO: 8, en la misma). También se analizan modificaciones y variantes de proteínas Cas9 (por ejemplo, 504-608, en la misma). Ejemplos no limitantes de proteínas Cas9 incluyen proteínas Cas9 de Streptococcus pyogenes (GI: 15675041); Listeria innocua Clip 11262 (GI:16801805); Streptococcus mutans UA159 (GI:24379809); Streptococcus thermophilus LMD-9 (S. thermophilus A, GI:11662823; S. thermophilus B, GI:116627542); Lactobacillus buchneri NRRL B-30929 (GI:331702228); Treponema denticola ATCC 35405 (GI:42525843); Francisella novicida U112 (GI:118497352); Campylobacter jejuni subsp. Jejuni NCTC 11168 (GI:218563121); Pasteurella multocida subsp. multocida str. Pm70 (GI:218767588); Neisseria meningitidis Zs491 (GI:15602992) y Actinomyces naeslundii (GI:489880078).

La expresión "proteína Cas9" como se usa en el presente documento se refiere a proteínas CRISPR-Cas9 Tipo II (como se describe, por ejemplo, en Chylinski, K., (2013) "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems", RNA Biol. 2013 10(5):726-737), incluidas, pero sin limitación, Cas9, tipo Cas9, proteínas codificadas por ortólogos de Cas9, proteínas sintéticas de tipo Cas9, y variantes y modificaciones de las mismas. La expresión, tal como se usa en el presente documento, se refiere a proteínas de tipo silvestre Cas9 procedentes de sistemas CRISPR-Cas9 de Tipo II, modificaciones de proteínas Cas9, variantes de proteínas Cas9, ortólogos de Cas9 y combinaciones de las mismas. Las proteínas Cas9 pueden proceder de cualquiera de las diversas especies bacterianas cuyos genomas codifican dichas proteínas. Las proteínas Cas para su uso en los presentes procedimientos se describen más adelante.

Cpfl, otra proteína CRISPR-Cas que se encuentra en los sistemas Tipo V, prefiere un motivo PAM "TTN" que se encuentra en 5' en su diana protoespaciador, no en 3', como Cas9, que reconoce un motivo PAM "NGG". Por lo tanto, Cpfl reconoce un PAM que no es rico en G y está en el lado opuesto del protoespaciador. Cpfl se une a un ARNcr que transporta la secuencia protoespaciadora para emparejar la diana. A diferencia de Cas9, Cpfl no requiere un ARNcrtra separado y carece de un gen ARNcrtra en el locus Cpfl -CRISPR, lo que significa que Cpfl solo requiere un ARNcr que tiene aproximadamente 43 bases de largo. 24 nt representa el protoespaciador y 19 nt la secuencia constitutiva de repetición directa. Cpfl parece ser directamente responsable de escindir los ARNcr de 43 bases aparte de la transcripción primaria (Fonfara y col., (2016) "The CRISPR-associated DNA-cleaving enzyme Cpfl also processes precursor CRISPR RNA", Nature 532:517-521).

Un experto habitual en la materia puede practicar aspectos de la presente invención siguiendo la orientación de la memoria descriptiva para usar proteínas CRISPR-Cas, tales como CRISPR-Cas9, Cas3, proteínas Cpfl y polinucleótidos que codifican proteínas Cas, incluyendo, pero sin limitación, proteínas codificadas por las secuencias nativas y proteínas codificadas por ortólogos de Cas, proteínas sintéticas similares a Cas, y variantes y modificaciones de las mismas. Los componentes de ARN afines de estas proteínas Cas pueden manipularse y modificarse para su uso en la práctica de la presente invención por un experto habitual en la materia siguiendo la orientación de la presente memoria descriptiva.

El término "ARNgu" se refiere normalmente a un ARN guía único (es decir, una secuencia de polinucleótidos contigua única) que esencialmente comprende un ARNcr conectado en su extremo 3' al extremo 5' de un ARNcrtra a través de una secuencia "bucle" (véase, por ejemplo, la solicitud de patente publicada de Estados Unidos n.° 20140068797 de Doudna y col., publicada el 6 de marzo de 2014). El ARNgu interactúa con una proteína Cas afín esencialmente como se describe para los polinucleótidos de ARNcrtra/ARNcr, como se ha descrito anteriormente. De forma similar a ARNcr, el ARNgu tiene un espaciador, una región de complementariedad a una posible secuencia diana de ADN, adyacente a una segunda región que forma enlaces de hidrógeno de pares de bases que forman una estructura secundaria, normalmente una estructura de tallo. El término incluye ARN de guía única truncado (ARNgu-tru) de aproximadamente 17-18 nt (véase, por ejemplo, Fu, Y. y col., "Improving CRISPR-Cas nuclease specificity using truncated guide RNAs", Nat Biotechnol. (2014) 32:279-284). El término también abarca ARNgu en miniatura funcionales con características prescindibles eliminadas, pero que retienen un módulo esencial y conservado denominado "nexo" ubicado en la porción de ARNgu que corresponde a ARNcrtra (no ARNcr). Véanse, por ejemplo, la solicitud de patente publicada de Estados Unidos n.° 2014/0315985 de May y col., publicada el 23 de octubre de 2014; Briner y col., "Guide RNA Functional Modules Direct Cas9 Activity and Orthogonality", Molecular Cell (2014) 56:333-339. El nexo está ubicado inmediatamente cadena abajo (es decir, ubicado en la dirección 3') del tallo inferior en los sistemas CRISPR-Cas9 Tipo II. El nexo confiere la capacidad de unión de un ARNgu o un ARNcrtra con su proteína Cas9 afín y confiere una transición conformacional de apoenzima a haloenzima.

Con referencia a un ARNcr o ARNgu, un "espaciador" o "elemento espaciador", como se usa en el presente documento, se refiere a la secuencia polinucleotídica que puede hibridarse específicamente a una secuencia de ácido nucleico diana. El elemento espaciador interactúa con la secuencia de ácido nucleico diana a través de enlaces de hidrógeno entre pares de bases complementarias (es decir, bases emparejadas). Un elemento espaciador se une a una secuencia diana de ADN seleccionada. En consecuencia, el elemento espaciador es una secuencia de unión al ADN diana. El elemento espaciador determina la ubicación de la unión específica del sitio de la proteína Cas y la escisión endonucleolítica. Los elementos espaciadores varían de ~ 17 a ~ 84 nucleótidos de longitud, dependiendo de la proteína Cas con la que están asociados, y tienen una longitud promedio de 36 nucleótidos (Marraffini, y col., "CRISPR interference: RNA-directed adaptive immunity in bacteria and archaea", Nature reviews Genetics (2010) 11:181-190). Por ejemplo, para SpyCas9, la longitud funcional de un espaciador para dirigir la escisión específica es normalmente de aproximadamente 12-25 nucleótidos. La variabilidad de la longitud funcional para un elemento espaciador es conocida en la materia (por ejemplo, la Solicitud de Patente Publicada de Estados Unidos N.° 2014/0315985 de May y col., publicada el 23 de octubre de 2014).

La publicación de patente de Estados Unidos N.° 2014/0315985) de May y col., publicada el 23 de octubre de 2014; y Briner y col., "Guide RNA Functional Modules Direct Cas9 Activity and Orthogonality", Molecular Cell (2014) 56:333-339, desvelan secuencias consenso y estructuras secundarias de ARNgu predichos para varias familias de ARNgu/Cas9.

Ran y col., "In vivo genome editing using Staphylococcus aureus Cas9", Nature (2015) 520:186-191, incluyendo todos los datos ampliados) presentan las secuencias de ARNcr/ARNcrtra y estructuras secundarias de ocho sistemas de CRISPR-Cas9 de tipo II (véase Figura 1 de datos ampliados de Ran, y col.,). Además, Fonfara, y col., ("Phylogeny of Cas9 Determines Functional Exchangeability of Dual-RNA and Cas9 among Orthologous Type II CRISPR/Cas Systems", Nucleic Acids Research (2014) 42:2577-2590, incluyendo todos los datos complementarios, en particular la Figura complementaria S11) presentan las secuencias de ARNcr/ARNcrtra y estructuras secundarias de ocho sistemas de CRISPR-Cas9 de tipo II.

Por "polinucleótido guía", como un ARN guía, se entiende cualquier polinucleótido que guíe específicamente a un sitio una endonucleasa Cas (por ejemplo, Cas9, Cas3, etc.), o una endonucleasa Cas desactivada (por ejemplo, dCas9) a un ácido nucleico diana. Se conocen muchos de estos polinucleótidos de guía, incluyendo, aunque no de forma limitativa, ARNgu (incluidos ARNgu en miniatura y truncados), ARNcr, ARN de doble guía, incluyendo, pero sin limitación, moléculas de ARNcr/ARNcrtra, como se describió anteriormente, y similares.

Las expresiones "tipo silvestre", "de origen natural" y "no modificado" se usan en el presente documento para referirse a la forma, apariencia, fenotipo o cepa típica (o más común) existente en la naturaleza; por ejemplo, la forma típica de células, organismos, características, polinucleótidos, proteínas, complejos macromoleculares, genes, ARN, ADN o genomas como aparecen y pueden aislarse de una fuente en la naturaleza. La forma, la apariencia, el fenotipo o la cepa de tipo silvestre sirve como el precursor original antes de una modificación intencional. Por lo tanto, las formas mutantes, variantes, genomodificadas, recombinantes y modificadas no son formas de tipo silvestre.

Como se usa en el presente documento, las expresiones "genomodificado", "modificado por ingeniería genética", "recombinante", "modificado" y "de origen no natural" son intercambiables e indican manipulación humana intencionada.

Como se usa en el presente documento, las expresiones "ácido nucleico", "secuencia de nucleótidos", "oligonucleótido", y "polinucleótido" son intercambiables. Todas se refieren a una forma polimérica de nucleótidos. Los nucleótidos pueden ser desoxirribonucleótidos (ADN) o ribonucleótidos (ARN), o análogos de los mismos, y pueden ser de cualquier longitud. Los polinucleótidos pueden realizar cualquier función y pueden tener cualquier estructura secundaria y estructura tridimensional. Las expresiones abarcan análogos conocidos de nucleótidos naturales y nucleótidos que están modificados en los restos de base, azúcar y/o fosfato. Los análogos de un nucleótido particular tienen la misma especificidad de formación de pares de bases (por ejemplo, un análogo de base A se empareja con T). Un polinucleótido puede comprender un nucleótido modificado o múltiples nucleótidos modificados. Los ejemplos de nucleótidos modificados incluyen nucleótidos metilados y análogos de nucleótidos. La estructura de nucleótidos puede modificarse antes o después de ensamblarse un polímero. Después de la polimerización, los polinucleótidos pueden modificarse adicionalmente mediante, por ejemplo, conjugación con un componente de marcaje o componente de unión a diana. Una secuencia de nucleótidos puede incorporar componentes no nucleotídicos. Las expresiones también abarcan ácidos nucleicos que comprenden restos o enlaces de cadena principal modificada que (i) son sintéticos, de origen natural y de origen no natural, y (ii) tienen propiedades de unión similares a un polinucleótido de referencia (por ejemplo, ADN o ARN). Los ejemplos de dichos análogos incluyen, pero sin limitación, fosforotioatos, fosforamidatos, metilfosfonatos, metilfosfonatos quirales, 2-O-metilribonucleótidos, ácidos nucleicos peptídicos (PNA, de sus siglas en inglés) y estructuras de morfolino.

Las secuencias polinucleotídicas se presentan en el presente documento en la orientación convencional de 5' a 3' a menos que se indique explícitamente lo contrario.

Como se usa en el presente documento, el término "complementariedad" se refiere a la capacidad de una secuencia de ácido nucleico de formar enlace o enlaces de hidrógeno con otra secuencia de ácido nucleico (por ejemplo, mediante formación de pares de bases de Watson-Crick convencional). Un porcentaje de complementariedad indica el porcentaje de restos en una molécula de ácido nucleico que pueden formar enlaces de hidrógeno con una segunda secuencia de ácido nucleico. Cuando dos secuencias polinucleotídicas tienen 100 % de complementariedad, las dos secuencias son perfectamente complementarias, es decir, todos los restos de hidrógeno contiguos de un primer polinucleótido se unen con el mismo número de restos contiguos en un segundo polinucleótido.

Como se usa en el presente documento, la expresión "identidad de secuencia" se refiere en general al porcentaje de identidad de bases o aminoácidos determinados mediante la comparación de un primer polinucleótido o polipéptido con un segundo polinucleótido o polipéptido usando algoritmos que tienen diversos parámetros de ponderación. La identidad de secuencia entre dos polipéptido o dos polinucleótidos puede determinarse usando alineamiento de secuencias por diversos procedimientos y programas informáticos (por ejemplo, BLAST, CS-BLAST, FASTA, HMMER, L-ALIGN, etc.), disponibles a través de internet en sitios que incluyen GENBANK (ncbi.nlm.nih.gov/genbank/) y EMBLEBI (ebi.ac.uk.). La identidad de secuencia entre dos polinucleótidos o dos secuencias polipeptídicas se calcula en general usando los parámetros por defecto convencionales de los diversos procedimientos o programas informáticos. En general, las proteínas Cas para su uso en el presente documento tendrán al menos aproximadamente un 75 % o más de identidad de secuencia con la secuencia de tipo silvestre o de origen natural de la proteína Cas de interés, tal como aproximadamente un 80 %, tal como aproximadamente un 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o identidad completa.

Como se usa en el presente documento una "estructura de tallo-bucle" o un "elemento de tallo-bucle" se refiere a un polinucleótido que tiene una estructura secundaria que incluye una región de nucleótidos que se sabe o se predice que forman una región bicatenaria (el "elemento de tallo") que está unida en un lado por una región de nucleótidos predominantemente monocatenarios (el "elemento de bucle"). El término elemento de "horquilla" también se usa en el presente documento para referirse a estructuras de tallo-bucle. Dichas estructuras son bien conocidas en la materia. La formación de pares de bases puede ser exacta. Sin embargo, como se sabe en la materia, un elemento de tallo no requiere formación de pares de bases exacta. Por lo tanto, el elemento de tallo puede incluir uno o más desapareamientos de bases o bases no emparejadas.

Como se usa en el presente documento, el término "recombinación" se refiere a un procedimiento de intercambio de información genética entre dos polinucleótidos.

Como se usa en el presente documento, la expresión "reparación dirigida por homología" o "HDR" se refiere a reparación de ADN que tiene lugar en células, por ejemplo, durante la reparación de roturas de doble cadena y cadena única en ADN. La HDR requiere homología de secuencia de nucleótidos y utiliza una "plantilla de donante" (ADN de plantilla de donante, donante de polinucleótidos u oligonucleótido (usado de manera intercambiable en el presente documento) para reparar la secuencia en la que se produjo la rotura de doble cadena (por ejemplo, secuencia diana de ADN). Esto da como resultado la transferencia de información genética de, por ejemplo, el ADN molde donante a la secuencia diana de ADN. La HDR puede dar como resultado alteración de la secuencia diana de ADN (por ejemplo, inserción, supresión, mutación) si la secuencia de ADN molde donante o secuencia oligonucleotídica difiere de la secuencia diana de ADN y parte de o todo el polinucleótido u oligonucleótido de ADN molde donante se incorpora en la secuencia diana de ADN. En algunas realizaciones, un polinucleótido de ADN molde donante completo, una parte del polinucleótido de ADN molde donante o una copia del polinucleótido donante se copia o integra en el sitio de la secuencia diana de ADN.

Tal como se usa en el presente documento la expresión "unión de extremos no homólogos clásica" o "c-NHEJ" se refiere a la reparación de roturas de doble cadena en ADN por ligamiento directo de un extremo de la rotura con el otro extremo de la rotura sin necesidad de un ADN molde donante. NHEJ en ausencia de un ADN molde donante da como resultado con frecuencia un número pequeño de inserciones o deleciones de nucleótidos en el sitio de la rotura de doble cadena, denominados también "indeles". Esta ruta de reparación de ADN está genéticamente definida y requiere la actividad de Ligasa IV, DNA-PKcs, Polp, PolA y el heterodímero Ku70/80, entre otras proteínas (véase, por ejemplo, Sfeir y Symington, "Microhomology-Mediated End Joining: A Back-up Survival Mechanism or Dedicated Pathway?" Trends Biochem Sci (2015) 40:701-714).

La "Unión de extremos mediada por microhomología (MMEJ)", una forma de unión de extremos no homólogos alternativa (alt-NHEJ), es otra ruta para reparar roturas de doble cadena en el ADN. La MMEJ está asociada con deleciones que flanquean una DSB e implica la alineación de secuencias microhomólogas internas a los extremos rotos antes de unirse. El mecanismo propuesto implica la resección 5'-3' del extremo de ADN en una DSB, el recocido de las microhomologías (1-16 nucleótidos de homología), la eliminación de colgajos heterólogos, la síntesis de ADN que llena huecos y la ligadura. La MMEJ está genéticamente definida y requiere la actividad de CtlP, PARP1, Pol0, Lig1 y Lig3, entre otras proteínas (véase, por ejemplo, Sfeir y Symington, "Microhomology-Mediated End Joining: A Back-up Survival Mechanism or Dedicated Pathway?" Trends Biochem Sci (2015) 40:701-714).

Los mecanismos alternativos de inserción de ADN que no requieren homología de secuencia entre el donante y la secuencia diana también se pueden usar para la inserción de ácido nucleico. Estos mecanismos implican varios componentes de la maquinaria de reparación de ADN celular y se debe entender que el ámbito de la invención no está limitado por el uso de ningún mecanismo particular para la inserción de ácido nucleico después de que un polinucleótido especifico de sitio corta o fragmenta el ácido nucleico diana.

Por "polinucleótido donante" se entiende un polinucleótido al que se puede dirigir e insertar en un sitio diana de interés para modificar el ácido nucleico diana. Todo o una parte del polinucleótido donante puede insertarse en el ácido nucleico diana. El polinucleótido donante se usa para reparar la rotura en la secuencia de ADN diana, lo que da como resultado la transferencia de información genética (es decir, secuencias polinucleotídicas) desde el donante en el sitio o muy cerca de la rotura en el ADN. En consecuencia, se puede insertar o copiar nueva información genética (es decir, secuencias polinucleotídicas) en un sitio de ADN diana. El polinucleótido donante puede ser ADN de cadena doble o simple, ARN, un vector, un plásmido o similar. También se pueden usar polinucleótidos donantes no simétricos que están compuestos por dos oligonucleótidos de ADN. Son parcialmente complementarios, y cada uno puede incluir una región de homología flanqueante. El polinucleótido donante puede usarse para insertar o reemplazar secuencias polinucleotídicas en una secuencia diana, por ejemplo, para introducir un polinucleótido que codifica una proteína o ARN funcional (por ejemplo, ARNip), para introducir un marcador proteico, para modificar una secuencia reguladora de un gen o para introducir una secuencia reguladora para un gen (por ejemplo, un promotor, un potenciador, una secuencia de entrada de ribosoma interna, un codón de inicio, un codón de terminación, una señal de localización o señal de poliadenilación), para modificar una secuencia de ácido nucleico (por ejemplo, introducir una mutación) y similares.

Las modificaciones de ADN diana utilizando polinucleótidos donantes para cambios grandes (por ejemplo, inserciones o deleciones de más de 100 pb) usan tradicionalmente plantillas de donantes basadas en plásmidos que contienen brazos de homología que flanquean el sitio de alteración. Cada brazo puede variar en longitud, pero normalmente es más largo que aproximadamente 100 pb, tal como 100-1500 pb, por ejemplo, 100.. .200...300...400... 500...

600...700...800... 900... 1000... 1500 pb o cualquier número entero entre estos valores. Sin embargo, estos números pueden variar, dependiendo del tamaño del polinucleótido donante y del polinucleótido diana. Este procedimiento puede usarse para generar grandes modificaciones, incluida la inserción de genes informadores, tales como proteínas fluorescentes o marcadores de resistencia a antibióticos. Para la transfección en células, tales como las células HEK, aproximadamente 100-1000 ng, por ejemplo, 100.. .200...300...400...500...600... 700...800...900...1000 ng o cualquier número entero entre estos valores, de un plásmido donante de tamaño normal (por ejemplo, aproximadamente 5 kb) que contiene un vector ARNgu/Cas9, puede usarse para un pocillo en una placa de 24 pocillos (véase, por ejemplo, Yang y col., "One Step Generation of Mice Carrying Reporter and Conditional Alleles by CRISPR/Cas-Mediated Genome Engineering" Cell (2013) 154:1370-1379).

Los oligonucleótidos monocatenarios y parcialmente bicatenarios, tales como los oligonucleótidos de ADN, se han utilizado en lugar de los plásmidos dirigidos para modificaciones cortas (por ejemplo, menos de 50 pb) dentro de un locus definido sin clonación. Para lograr una alta eficacia de HDR, se pueden usar oligonucleótidos monocatenarios que contienen secuencias flanqueantes en cada lado que son homólogas a la región diana, y se pueden orientar en el sentido o en la dirección antisentido con respecto al locus diana. La longitud de cada brazo puede variar en longitud, pero la longitud de al menos un brazo es normalmente más larga que aproximadamente 10 bases, tal como de 10-150 bases, por ejemplo, 10.. .20...30...40...50...60...70...80...90...100...110...120...130...140...150 o cualquier número entero dentro de estos intervalos. Sin embargo, estos números pueden variar, dependiendo del tamaño del polinucleótido donante y del polinucleótido diana. En una realización preferida, la longitud de al menos un brazo es de 10 bases o más. En otras realizaciones, la longitud de al menos un brazo es de 20 bases o más. En otras realizaciones más, la longitud de al menos un brazo es de 30 bases o más. En algunas realizaciones, la longitud de al menos un brazo es inferiora 100 bases. En realizaciones adicionales, la longitud de al menos un brazo es mayor que 100 bases. En algunas realizaciones, la longitud de al menos un brazo es cero bases. Para el diseño de oligonucleótidos de ADN monocatenarios, normalmente se usa un oligonucleótido con aproximadamente 100-150 pb de homología total. La mutación se introduce en el medio, dando brazos de homología de 50-75 pb para un donante diseñado para ser simétrico sobre el sitio diana. En otros casos, no se requieren brazos de homología, y el polinucleótido donante se inserta utilizando mecanismos de reparación de ADN no homólogos.

Como se usa en el presente documento, el término "modular" se refiere a un cambio en la magnitud, el grado o la cantidad de una función. Por ejemplo, los procedimientos desvelados en el presente documento pueden modular, por ejemplo, potenciar, disminuir o inhibir, la función de reparación de ADN, tal como HDR, NHEJ, MMEJ, y similares. Por otro lado, los procedimientos pueden usarse para modular la función de un producto génico, tal como una proteína, para reducir o restaurar la actividad de la proteína.

La modulación puede ensayarse determinando cualquier característica directa o indirectamente afectada por la expresión del gen diana. Dichas características incluyen, por ejemplo, cambios en la eficacia del direccionamiento, los niveles de ARN o proteínas, actividad proteica, niveles de producto, expresión génica asociada o nivel de actividad de genes indicadores. Por lo tanto, la "modulación" de la expresión génica incluye tanto activación génica como represión génica.

Los términos "vector" y "plásmido" se usan indistintamente y, tal como se usa en el presente documento, se refieren a un vehículo polinucleotídico para introducir material genético en una célula. Los vectores pueden ser lineales o circulares. Los vectores pueden integrarse en un genoma diana de una célula hospedadora o replicarse de forma independiente en una célula hospedadora. Los vectores pueden comprender, por ejemplo, un origen de replicación, un sitio de clonación múltiple y/o un marcador seleccionable. Un vector de expresión comprende habitualmente un casete de expresión. Los vectores y plásmidos incluyen, pero sin limitación, vectores de integración, plásmidos procariotas, plásmidos eucariotas, cromosomas vegetales sintéticos, episomas, vectores víricos, cósmidos y cromosomas artificiales. Como se usa en el presente documento, la expresión "casete de expresión" es una construcción polinucleotídica, generada de forma recombinante o sintética, que comprende secuencias reguladoras unidas operativamente con un polinucleótido seleccionado para facilitar la expresión del polinucleótido seleccionado en una célula hospedadora. Por ejemplo, las secuencias reguladoras pueden facilitar la transcripción del polinucleótido seleccionado en una célula hospedadora o transcripción y traducción del polinucleótido seleccionado en una célula hospedadora. Un casete de expresión puede, por ejemplo, integrarse en el genoma de una célula hospedadora o estar presente en un vector de expresión.

Como se usa en el presente documento, la expresión "casete de expresión" es una construcción polinucleotídica, generada de forma recombinante o sintética, que comprende secuencias reguladoras unidas operativamente con un polinucleótido seleccionado para facilitar la expresión del polinucleótido seleccionado en una célula hospedadora. Por ejemplo, las secuencias reguladoras pueden facilitar la transcripción del polinucleótido seleccionado en una célula hospedadora o transcripción y traducción del polinucleótido seleccionado en una célula hospedadora. Un casete de expresión puede, por ejemplo, integrarse en el genoma de una célula hospedadora o estar presente en un vector de expresión.

Como se usa en el presente documento, las expresiones "secuencias reguladoras", "elementos reguladores", y "elementos de control" son intercambiables y se refieren a secuencias polinucleotídicas que están cadena arriba (secuencias no codificantes 5'), dentro o cadena abajo (secuencias no traducidas 3') de una diana polinucleotídica para expresar. Las secuencias reguladoras influyen, por ejemplo, el momento de transcripción, la cantidad o el nivel de transcripción, el procesamiento o la estabilidad de ARN y/o la traducción de la secuencia de nucleótidos estructural relacionada. Las secuencias reguladoras pueden incluir secuencias de unión activadoras, potenciadores, intrones, secuencias de reconocimiento de poliadenilación, promotores, secuencias de unión a represores, estructuras de tallobucle, secuencias de inicio de la traducción, secuencias líderes de la traducción, secuencias de terminación de la transcripción, secuencias de terminación de la traducción, sitios de unión a cebadores y similares.

Como se usa en el presente documento, la expresión "unido operativamente" se refiere a secuencias polinucleotídicas o secuencias de aminoácidos situadas en una relación funcional entre sí. Por ejemplo, un promotor o potenciador se une operativamente con una secuencia codificante si regula, o contribuye a la modulación de, la transcripción de la secuencia codificante. Las secuencias de ADN unidas operativamente que codifican secuencias reguladoras son típicamente contiguas con la secuencia codificante. Sin embargo, los potenciadores pueden actuar cuando están separados de un promotor por hasta varias kilobases o más. En consecuencia, algunos elementos polinucleotídicos pueden estar unidos operativamente pero no ser contiguos.

Como se usa en el presente documento, el término "expresión" se refiere a la transcripción de un polinucleótido a partir de un molde de ADN, que da como resultado, por ejemplo, un ARNm u otro transcrito de ARN (por ejemplo, no codificante, como los a Rn estructurales o de armazón). El término se refiere además al procedimiento mediante el que el ARNm transcrito se traduce a péptidos, polipéptidos o proteínas. Los transcritos y polipéptidos codificados pueden denominarse colectivamente "producto génico". La expresión puede incluir corte y empalme del ARNm en una célula eucariota, si el polinucleótido procede de ADN genómico.

Como se usa en el presente documento, el término "aminoácido" se refiere a aminoácidos naturales y sintéticos (no naturales), incluyendo análogos de aminoácidos, aminoácidos modificados, peptidomiméticos, glicina e isómeros ópticos D o L.

Como se usa en el presente documento, los términos "péptido", "polipéptido", y "proteína" se usan indistintamente y se refieren a polímeros de aminoácidos. Un polipéptido puede ser de cualquier longitud. Puede ser ramificado o lineal, puede estar interrumpido por moléculas distintas de aminoácidos y puede comprender aminoácidos modificados. Los términos pueden usarse para referirse a un polímero de aminoácidos que se ha modificado mediante, por ejemplo, acetilación, formación de enlaces disulfuro, glucosilación, lipidación, fosforilación, reticulación y/o conjugación (por ejemplo, con un componente de marcaje o ligando). Las secuencias polinucleotídicas se presentan en el presente documento en la orientación convencional de N-terminal a C-terminal.

Pueden prepararse polipéptidos y polinucleótidos usando técnicas rutinarias en el campo de la biología molecular (véase, por ejemplo, textos de referencia analizados anteriormente). Además, esencialmente cualquier polipéptido o polinucleótido puede pedirse de forma personalizada de fuentes comerciales.

El término "unión", tal como se usa en el presente documento, incluye una interacción no covalente entre macromoléculas (por ejemplo, entre una proteína y un polinucleótido, entre un polinucleótido y un polinucleótido y entre una proteína y una proteína). Dicha interacción no covalente también se denomina "asociación" o "interacción" (por ejemplo, cuando una primera macromolécula interacciona con una segunda macromolécula, la primera macromolécula se une con la segunda macromolécula de una manera no covalente). Algunas partes de una interacción de unión pueden ser específicas de secuencia; sin embargo, no es necesario que todos los componentes de una interacción de unión sean específicos de secuencia, tal como los contactos de una proteína con restos de fosfato en una cadena principal de ADN. Las interacciones de unión pueden caracterizarse por una constante de disociación (Kd). La "afinidad" se refiere a la fuerza de unión. Una afinidad de unión aumentada se correlaciona con una Kd menor. Un ejemplo de unión no covalente es la formación de enlaces de hidrógeno entre pares de bases.

Como se usa en el presente documento, el término "aislado" puede referirse a un ácido nucleico o polipéptido que, por la mano del hombre, existe alejado de su ambiente nativo y no es por lo tanto un producto de la naturaleza. Aislado significa sustancialmente puro. Un ácido nucleico o polipéptido aislado puede existir en una forma purificada y/o puede existir en un ambiente no nativo tal como, por ejemplo, en una célula recombinante.

Como se usa en el presente documento, una "célula hospedadora" se refiere en general a una célula biológica. Una célula puede ser la unidad básica estructural, funcional y/o biológica de un organismo vivo. Una célula puede originarse de cualquier organismo que tenga una o más células. Los ejemplos de células hospedadoras incluyen, pero sin limitación: una célula procariota, célula eucariota, una célula bacteriana, una célula de arquea, una célula de un organismo eucariota unicelular, una célula protozoaria, una célula de una planta (por ejemplo, células de plantas de cultivo, frutas, verduras, cereales, soja, maíz, maíz, trigo, semillas, tomates, arroz, mandioca, caña de azúcar, girasol, sorgo, mijo, alfalfa, Brassica productora de aceite (por ejemplo, aunque no de forma limitativa, semillas oleaginosas de colza/canola), calabaza, heno, patatas, algodón, cannabis, tabaco, angiospermas, coníferas, gimnospermas, helechos, licopodios, antocerotófitos, hepáticas, musgos), una célula de algas, (por ejemplo, Botryococcus braunii, Chlamydomonas reinhardtii, Nannochloropsis gaditana, Chlorella pyrenoidosa, Sargassum patens C. Agardh, y similares), algas marinas (por ejemplo, kelp), una célula fúngica (por ejemplo, una célula de levadura, una célula de un hongo), una célula animal, una célula de un animal invertebrado (por ejemplo, mosca de la fruta, cnidario, equinodermo, nematodo, etc.), una célula de un animal vertebrado (por ejemplo, pez, anfibio, reptil, ave, mamífero), una célula de un mamífero (por ejemplo, un cerdo, una vaca, una cabra, una oveja, un roedor, una rata, un ratón, un primate no humano, un ser humano, etc.). Además, una célula puede ser una célula madre o célula progenitora.

Como se usa en el presente documento, la expresión "muestra biológica" se refiere a una muestra de tejido o fluido, células cultivadas aisladas de un sujeto, o una muestra ambiental. Las muestras normales incluyen, pero sin limitación, muestras procedentes de sangre, plasma, suero, materia fecal, orina, médula ósea, bilis, líquido espinal, líquido linfático, muestras de la piel, secreciones de la piel, vías respiratorias, intestinales y genitourinarias, lágrimas, saliva, leche, órganos, tumores, biopsias, células deseadas para la edición de genes, líneas celulares y también muestras de constituyentes de cultivo celular in vitro que incluyen, pero no se limitan a, medios condicionados que resultan del crecimiento de células y tejidos en medio de cultivo, por ejemplo, células recombinantes y componentes celulares. Las muestras ambientales pueden ser de agua, suciedad, rocas y similares.

Los procedimientos actuales se pueden usar en varias aplicaciones de edición del genoma. En ausencia de una plantilla de donante, anteriormente se pensaba que la reparación de ADN tenía resultados aleatorios. Mediante la secuenciación y la clasificación detallada de las clases de indel, se demuestra en el presente documento que las distribuciones de resultados de reparación de ADN en las DSB mediadas por Cas9 son, de hecho, no aleatorias y dependen de la secuencia del sitio diana. Esta observación no se ha reconocido hasta la fecha para las pequeñas indeles formadas por la reparación dependiente de c-NHEJ. Como se muestra en los ejemplos, se cuantificó la frecuencia con la que MMEJ utiliza diferentes oportunidades de microhomología. En los sitios diana perfilados, se observó una gran variedad de resultados de reparación. En algunos sitios, uno o dos resultados dominantes comprendieron una gran fracción del total de ediciones (por ejemplo, Figuras 6A-6E) mientras que, en otros sitios, se produjo una colección de muchos resultados de reparación reproducibles, pero de menor frecuencia (por ejemplo, Figuras 1A-1C). Como se describe en el presente documento, cada diana tiene un patrón de reparación de ADN único y altamente reproducible que no se explica solo por microhomología (Figuras 2A-2C) (Bae y col., "Microhomologybased choice of Cas9 nuclease target sites" (2014) Nat. Methods 11:705-706).

Existen numerosos entornos en los que es ventajoso usar patrones de reparación de ADN no aleatorios como herramienta predictiva para experimentos de edición del genoma. El perfil de reparación de ADN se puede usar para mejorar la capacidad de generar un gen inactivado al evitar las mutaciones en el marco (Figuras 6A-6E). Alternativamente, se puede usar una mutación en el marco para diseccionar un solo aminoácido en un dominio funcional de una proteína. Además, se pueden usar líneas celulares más manejables racionalmente para modelar indeles de c-NHEJ/MMEJ destinados a la aplicación final en células primarias. Como se muestra en los ejemplos, esto se realizó en células madre hematopoyéticas (HSC, de sus siglas en inglés) procedentes de sangre periférica y el perfil de reparación de ADN reveló resultados de reparación de ADN con una fuerte similitud con los observados en las líneas celulares de investigación (Figuras 7A-7F).

Aunque la edición de ubicaciones genómicas para corregir o introducir variantes específicas puede abordarse utilizando plantillas de donantes de ADN y rutas de reparación de HDR, la eficacia de la inserción de ADN sigue siendo baja, particularmente en células primarias. En los procedimientos descritos en el presente documento, se pueden inducir resultados específicos de edición de ADN de alta frecuencia en determinadas dianas sin el uso de ADN donante, por lo tanto, utilizando rutas distintas a las utilizadas en la edición de genes utilizando rutas de HDR.

Por ejemplo, las rutas de c-NHEJ y MMEJ pueden emplearse para restaurar el marco de lectura de alelos BRCA2 mutantes con una inserción de un solo nucleótido o deleciones específicas de cuatro bases (Figuras 7A-7F).

Además, estos resultados pueden aprovecharse aún más con el uso de agentes que suprimen la NHEJ, favoreciendo así las rutas de MMEJ, de modo que la reparación de ADN continúa sustancialmente por las rutas de MMEJ. Por "sustancialmente" se entiende que más de un 50 % de las reparaciones se llevan a cabo utilizando rutas de MMEJ, tal como más de un 55 %... 60 %... 65 %... 70 %... 75 %... 80 %... 85 %... 90 %... 95 %... 99 % o más. Por ejemplo, el resultado de reparación puede ser sustancialmente MMEJ con otras rutas de reparación que representan un porcentaje menor de la reparación general. Además, toda la actividad de reparación de NHEJ se puede suprimir si se desea para producir un perfil más limpio. Dichos agentes incluyen inhibidores químicos (Figuras 5A-5D). La NHEJ se inicia cuando los extremos libres del ADN están unidos mediante Ku70 y Ku80, que reclutan la subunidad catalítica de la proteína cinasa dependiente del ADN (DNA-PKcs, de sus siglas en inglés). El complejo resultante, conocido como el complejo de proteína cinasa dependiente de ADN (DNA-PK), fosforila las dianas cadena abajo que conducen a la activación de la respuesta al daño del ADN y al inicio de NHEJ. Por lo tanto, la supresión de las enzimas clave de NHEJ Ku70, Ku80 o DNA Ligasa IV inhiben la DNA-PK y puede usarse en los presentes procedimientos para modular los resultados de reparación de DNA mediante la inhibición de NHEJ. Dichos inhibidores incluyen, sin limitación, NU7441 (Leahy y col., "Identification of a highly potent and selective DNA-dependent protein kinase (DNA-PK) inhibitor (NU7441) by screening of chromenone libraries" Bioorg. Med. Chem.Lett. (2004) 14:6083-6087); KU-0060648 (Robert y col., "Pharmacological inhibition of DNA-PK stimulates Cas9-mediated genome editing" Genome Med (2015) 7:93); Inhibidor de la ADN ligasa IV, Scr7 (Maruyama y col., "Increasing the efficiency of precise genome editing with CRISPR-Cas9 by inhibition of nonhomologous end joining" Nat. Biotechnol. (2015) 33:538-542); NU7026 (Willmore y col., "A novel DNA-dependent protein kinase inhibitor, NU7026, potentiates the cytotoxicity of topoisomerase II poisons used in the treatment of leukemia" Blood (2004) 103); anticuerpo anti-EGFR c 225 (Cetuximab) (Dittmann y col., "Inhibition of radiation-induced EGFR nuclear import by C225 (Cetuximab) suppresses DNA-PK activity" Radiother and Oncol (2005) 76:157), y similares.

De manera similar, los agentes que suprimen las rutas de MMEJ pueden usarse para favorecer la NHEJ, de modo que la reparación del ADN continúa sustancialmente usando las rutas de NHEJ. Por "sustancialmente" se entiende que más de un 50 % de las reparaciones se llevan a cabo utilizando rutas de NHEJ, tal como más de un 55 %... 60 %...

65 %... 70 %... 75 %... 80 %... 85 %... 90 %... 95 %... 99 % o más. Por ejemplo, el resultado de reparación puede ser sustancialmente NHEJ con otras rutas de reparación que representan un porcentaje menor de la reparación general. Además, toda la actividad de reparación de MMEJ se puede suprimir si se desea para producir un perfil más limpio. Dichos agentes incluyen inhibidores químicos y similares. En este sentido, se requieren varios factores para MMEJ, incluido FEN1, Ligasa III, MRE11, NBS1, PARP1 y XRCC1 (Sharma y col., Cell Death Dis. (2015) 6:e1697). Por lo tanto, los inhibidores de estos factores o genes que codifican, por lo tanto, encontrarán uso en la supresión de la reparación dirigida por MMEJ. Por ejemplo, se ha demostrado que Mirin y sus derivados inhiben MRE11 (Shibata y col., Molec. Cell (2014) 53:7-18) y tienen poco efecto sobre NHEJ y, por lo tanto, pueden usarse para suprimir la MMEJ y favorecer la reparación dirigida por NHEj . Además, la ADN polimerasa theta (Pol0; codificada por PolQ) es un factor crítico de MMEJ en células de mamíferos. La pérdida de PolQ da como resultado mayores tasas de HDR. Por lo tanto, los inhibidores de PolQ pueden usarse para suprimir MMEJ. También se ha demostrado que CtIP desempeña un papel fundamental en MMEJ. Por lo tanto, los inhibidores de CtIP también encontrarán uso en el presente documento. Véase, Sfeir y Symington, "Microhomology-Mediated End Joining: A Back-up Survival Mechanism or Dedicated Pathway?" Trends Biochem Sci (2015) 40:701-714), para una revisión de MMEJ y en particular, la Tabla 1 para obtener una lista de los determinantes genéticos de MMEJ, cuya supresión podría usarse para favorecer las rutas de NHEJ.

En otros contextos, los agentes que suprimen las rutas de NHEJ y MMEJ, tal como uno o más agentes como se describió anteriormente, se pueden usar en presencia de polinucleótidos donantes para favorecer sustancialmente la HDR. Se puede usar un primer agente para suprimir las rutas de NHEJ y se puede usar un segundo agente para suprimir las rutas de MMEj . Se puede usar el mismo agente para suprimir ambas rutas. Si se usan dos agentes, se pueden proporcionar simultáneamente, o uno antes que el otro.

Los procedimientos para determinar qué rutas se favorecen sustancialmente son bien conocidos en la materia y se describen en detalle en el presente documento en los ejemplos. Véanse, también, Truong y col., "Microhomologymediated end joining and homologous recombination share the initial end resection step to repair DNA double-strand breaks in mammalian cells" Proc. Natl. Acad. Sci. U.S.A. (2013) 110:7720-7725; Bennardo y col., "Alternative-NHEJ is a mechanistically distinct pathway of mammalian chromosome break repair" PLoS Genet. (2008) 4:e1000110; Simsek y Jasin, "Alternative end-joining is suppressed by the canonical NHEJ component Xrcc4-ligase IV during chromosomal translocation formation" Nat. Struct. Mol. Biol. (2010) 17:410-416; Ira y col., "DNA end resection, homologous recombination and DNA damage check point activation require CDK1" Nature (2004) 431:1011-1017; Haber y col., "In vivo biochemistry: physical monitoring of recombination induced by site-specific endonucleases" Bioessays (1995) 17:609-620; Rouet y col., "Introduction of double-strand breaks into the genome of mouse cells by expression of a rarecutting endonuclease" Mol. Cell. Biol. (1994) 14:8096-8106; y Frank y col., "Late embryonic lethality and impaired V(D)J recombination in mice lacking DNA ligase iV" Nature (1998) 396:173-177.

Por otro lado, los procedimientos descritos en el presente documento se pueden usar para reparar perfiles para detectar células de pacientes en busca de sensibilidad a determinados quimioterapéuticos. Por ejemplo, las células deficientes en BRCA1 pueden seleccionarse para determinados inhibidores de PARP (inhibidores de la enzima poli ADP ribosa polimerasa) en los que Cas9 es simplemente un iniciador de rotura de doble cadena. Alternativamente, los procedimientos se pueden utilizar para descubrir nuevas responsabilidades genéticas en una configuración de selección.

Es evidente que la capacidad de modular de manera predecible los resultados de la reparación de ADN favoreciendo la NHEJ, MMEJ en ausencia de un donante, así como HDR usando un polinucleótido donante, puede usarse en una gran cantidad de contextos.

En otra realización, se proporciona un procedimiento para diseñar un polinucleótido guía para insertar de manera predecible un nucleótido único en un sitio diana después de la escisión mediada por Cas. Después de la escisión CRISPR-Cas de un sitio diana, uno de los resultados de reparación de ADN más comunes es una inserción de un solo par de bases. Por lo tanto, la capacidad de predecir qué nucleótido se inserta con mayor frecuencia en los sitios de escisión de Cas, tal como los sitios de escisión de Cas9, a partir de la secuencia de ADN subyacente, es muy valiosa para el diseño de terapias y otras aplicaciones de precisión. La capacidad de predecir qué nucleótido se inserta con mayor frecuencia en las dianas Cas9 se puede utilizar para reparar con especificidad deleciones de un solo par de bases, como las deleciones que juegan un papel en la producción de defectos genéticos. Además, el descubrimiento de que los protoespaciadores con A o T en la posición 17 tienen inserciones de pares de bases individuales más frecuentes se puede utilizar para seleccionar guías que probablemente tengan una fracción mayor de mutaciones de desplazamiento del marco de lectura para inactivar un gen.

Como se ha explicado anteriormente, un polinucleótido guía, tal como ARNgu, es una secuencia corta de ARN sintético compuesta de una secuencia de "armazón" necesaria para la unión de Cas, tal como la unión de Cas9, y un "espaciador" o secuencia "de direccionamiento" de 17-86 nucleótidos definido por el usuario que define la diana genómica a modificar. Por lo tanto, uno puede cambiar la diana genómica de Cas9 mediante el cambio de la secuencia de direccionamiento presente en el ARNgu.

Como se muestra en los ejemplos, se utilizó un conjunto de datos de los resultados de reparación de más de 200 dianas Cas9 en una línea celular humana (K562) como entrada para análisis predictivos. Un clasificador predijo con precisión qué nucleótido se insertó con mayor frecuencia en las dianas Cas9 basándose en el nucleótido de sitio de corte distal PAM (posición 17 del protoespaciador) y los análisis posteriores revelaron que el nucleótido de posición 17 explicaba porciones sustanciales de la variación en las frecuencias de las inserciones de A o T. Por lo tanto, los polinucleótidos guía, tales como los ARNgu, pueden diseñarse para dirigirse a protoespaciadores seleccionados en los que sea deseable insertar un nucleótido particular, como una A o una T, en la base 17 del protoespaciador diana.

Los procedimientos para diseñar polinucleótidos guía particulares, tales como los ARNgu, son conocidos y descritos en el presente documento. Véanse los ejemplos en el presente documento, así como Briner y col., "Guide RNA Functional Modules Direct Cas9 Activity and Orthogonality", Molecular Cell (2014) 56:333-339. Para hacerlo, primero se identifica la secuencia genómica para el gen a ser dirigido. La región exacta del gen seleccionado para dirigirse dependerá de la aplicación específica. Por ejemplo, para activar o reprimir un gen diana usando, por ejemplo, activadores o represores Cas, los polinucleótidos guía pueden dirigirse al promotor que impulsa la expresión del gen de interés. Para las inactivaciones genéticas, los polinucleótidos guía se diseñan comúnmente para dirigir a los exones expresados constitutivamente en 5', lo que reduce las posibilidades o la eliminación de la región diana del ARNm debido al empalme alternativo. Los exones cerca del extremo N pueden dirigirse porque las mutaciones de desplazamiento del marco de lectura aquí aumentarán la probabilidad de la producción de un producto proteico no funcional. Alternativamente, los polinucleótidos guía pueden diseñarse para dirigirse a exones que codifican dominios de proteínas esenciales conocidos. En este sentido, es más probable que las mutaciones sin desplazamiento del marco de lectura, como las inserciones o deleciones, alteren la función de las proteínas cuando se producen en dominios de proteínas que son esenciales para la función de las proteínas. Para la edición de genes usando la HDR, la secuencia diana debe estar cerca de la ubicación de la edición deseada. En este caso, se identifica la ubicación en la que se desea la edición y se selecciona una secuencia diana cercana.

Usando los procedimientos descritos en el presente documento, cualquier secuencia de ácido nucleico deseada para modificación puede ser dirigida, que incluyen, sin limitación, secuencias codificantes de proteínas para reducir o restaurar la función del producto génico; regiones que tienen propensión a incorporar secuencias de nucleótidos de una plantilla de donante, denominadas "puntos críticos de HDR" en el presente documento; regiones de puerto seguro, es decir, regiones en las que se pueden insertar secuencias de nucleótidos sin alterar la función génica vecina; regiones reguladoras no codificantes en secuencias de ácido nucleico; y similares.

Por ejemplo, las secuencias codificantes de proteínas para dirigir por los procedimientos descritos en el presente documento incluyen, pero sin limitación, anticuerpos de mamíferos (AC) (IgG, IgA, IgM, IgE), fragmentos de anticuerpo tales como regiones Fc, regiones Fab de anticuerpos, cadenas pesadas de anticuerpos, cadenas ligeras de anticuerpos, CDR de anticuerpos, nanocuerpos, anticuerpos quiméricos y otros dominios IgG; receptores de linfocito T (TCR, de sus siglas en inglés); endonucleasas y exonucleasas, tales como TALENS, nucleasas c R iSPR tales como Cas9, Cas3, Cpfl, ZnFN, meganucleasas, dominios de nucleasa tales como el dominio HNH, dominio RuvC; recombinasas tales como Cre, Tre, Brecl, Flp, Y-integrasa, IntI4 integrasa, XerD recombinasa, HP1 integrasa; ADN topoisomerasas; transposones como la familia Tc1/mariner, Tol2, piggyBac, Sleeping beauty; proteínas RAG; retrotransposones tales como los retrotransposones LTR y los retrotransposones no lTr (Alu, SlNE, LINE); enzimas que incluyen, pero sin limitación, arginasas, glicosidasas, proteasas, cinasas y enzimas de glucosilación tales como glucosiltransferasa; anticoagulantes tales como la proteína C, proteína S y antitrombina; coagulantes tales como trombina; nucleasas tales como desoxirribonucleasas, ribonucleasas, helicasas, GTPasas; proteínas de unión a ADN o ARN; moléculas indicadoras, tales como la proteína verde fluorescente (GFP, de sus siglas en inglés); péptidos penetrantes de células y sus fusiones con proteínas de carga; proteínas de membrana tales como GPCR, receptores de dolor tales como canales TRP y canales iónicos; receptores de superficie celular que incluyen, pero sin limitación, EGFR, FGFR, VEGFR, IGFR y receptor de efrina; moléculas de adhesión celular como integrinas y cadherinas; canales iónicos; rodopsinas; inmunorreceptores tales como CD28, CD80, PD-1, PD-L1, CTLA-4, Cx Cr 4, CXCR5, B2M, TRACA, TRBC; proteínas conocidas por estar implicadas con defectos genéticos; proteínas secretadas que incluyen, pero sin limitación, hormonas, citocinas, factores de crecimiento; antígenos de vacunas tales como proteínas víricas del virus de inmunodeficiencia humana (VIH), Dengue, citomegalovirus (CMV), Ébola, Zika y virus oncolíticos; proteínas y péptidos de toxina de serpiente que incluyen, pero sin limitación, fosfolipasas y metaloproteasas; péptidos cíclicos ribosomales.

Los polinucleótidos guía, tales como los ARNgu, pueden diseñarse para dirigir cualquier secuencia de ADN que contenga el PAM apropiado necesario para cada nucleasa programable, tal como una endonucleasa Cas, por ejemplo, Cas9, Cpfl y similares. También se pueden crear PAM adicionales en el ADN diana utilizando un tipo de optimización por codones, en el que se introducen mutaciones silenciosas en los codones de aminoácidos para crear nuevas secuencias de PAM. Por ejemplo, para las estrategias que usan Cas9, que reconoce un PAM NGG, un codón de serina CGA puede cambiarse a CGG, preservando la codificación de aminoácidos pero añadiendo un sitio en el que se pueden introducir roturas de doble cadena. La región codificante completa o partes de la región codificante pueden, por lo tanto, optimizarse con sitios PAM adecuados en la cadena codificante y no codificante para la reparación de ADN después de la escisión mediante la nucleasa. Las secuencias de ADN optimizadas para pA m pueden fabricarse, por ejemplo, comercialmente, y clonarse en vectores adecuados.

Los ARNgu se pueden administrar a una célula. Si la célula expresa constitutivamente una endonucleasa Cas, tal como Cas9, Cpfl o similares, la endonucleasa Cas se reclutará en el sitio diana para escindir el ADN. Si la célula no expresa una endonucleasa Cas, los complejos de proteínas Cas, tales como las proteínas Cas9, y los ARN guía, tales como los ARNgu (complejos ARNgu/Cas9), se administran a las células para hacer roturas de doble cadena, lo que desencadena las rutas de reparación de ADN en las células. Luego, las células se seleccionan usando procedimientos bien conocidos en la materia, tales como el uso de técnicas de selección de alto rendimiento que incluyen, aunque no de forma limitativa, plataformas de selección basadas en clasificación de células activadas por fluorescencia (FACS, de sus siglas en inglés), plataformas de selección basadas en microfluídicos y similares. Estas técnicas son bien conocidas en la materia y se revisan en, por ejemplo, Wojcik y col., Int. J. Molec. Sci. (2015) 16:24918-24945. Las células pueden entonces expandirse y volver a transfectarse con complejos guía adicionales para introducir mayor diversidad y este procedimiento puede repetirse iterativamente hasta que se obtenga una población con las propiedades deseadas. Los clones de células individuales se clasifican de la población, se expanden y se secuencian para recuperar las mutaciones que dieron como resultado la función deseada.

Como se ha analizado anteriormente, los procedimientos descritos en el presente documento hacen uso de endonucleasas programables procedentes del sistema CRISPR-Cas. Para cada una de las realizaciones descritas anteriormente, cuando se usan proteínas Cas9, se puede usar cualquiera de las diversas proteínas procedentes de Cas9, así como otras proteínas CRISPR-Cas como se detalla anteriormente.

En la materia se conocen varias proteínas Cas9 catalíticamente activas y, como se ha explicado anteriormente, una proteína Cas9 para su uso en el presente documento puede proceder de cualquier especie, subespecie o cepa bacteriana que la codifique. Aunque en determinadas realizaciones en el presente documento, los procedimientos se ejemplifican usando Cas9 de Streptococcus pyogenes, los ortólogos de otras especies bacterianas encontrarán uso en el presente documento. La especificidad de estos ortólogos de Cas9 es bien conocida. También son útiles las proteínas codificadas por proteínas sintéticas similares a Cas9, y variantes y modificaciones de las mismas. Como se ha explicado anteriormente, las secuencias de cientos de proteínas Cas9 son conocidas y cualquiera de estas proteínas se utilizará con los procedimientos actuales.

Además, debe entenderse que se pueden usar otras nucleasas Cas, en lugar de o además de Cas9, incluyendo cualquiera de las proteínas Cas descritas en detalle anteriormente, tal como las procedentes de cualquiera de las diversas clases, tipos y subtipos CRISPR-Cas.

Por otro lado, en las realizaciones descritas en el presente documento, ARNgu se usa como un polinucleótido guía ejemplar, sin embargo, un experto en la materia reconocerá que se pueden usar otros polinucleótidos guía que guían específicamente endonucleasas de sitio, tales como proteínas CRISPR-Cas a un ácido nucleico diana.

Si se usan complejos CRISPR, se pueden producir usando procedimientos bien conocidos en la materia. Por ejemplo, los componentes de ARN guía de los complejos pueden producirse in vitro y los componentes de Cas9 pueden producirse de forma recombinante y luego los dos forman complejos mediante procedimientos conocidos en la materia. Además, están disponibles comercialmente líneas celulares tales como, pero sin limitación, células HEK293, que expresan constitutivamente Cas9 de Streptococcus pyogenes así como fusiones de Cas9-GFP de Streptococcus pyogenes. En este caso, las células que expresan Cas9 pueden transfectarse con los componentes de ARN guía y los complejos se purifican de las células utilizando técnicas de purificación estándar, tales como, pero sin limitación, cromatografía de afinidad, de intercambio iónico y de exclusión por tamaño. Véanse, por ejemplo, Jinek M., y col., "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity", Science (2012) 337:816-821.

Se puede usar más de un conjunto de complejos, tal como 2-30 o más, por ejemplo 5-20, 8-15, etc., o cualquier número dentro de estos intervalos.

Los complejos, tal como los complejos ARNgu/Cas9, pueden introducirse en las células a diferentes concentraciones. Por ejemplo, los complejos ARNgu/Cas9 y ARNgu/dCas9 se pueden introducir en una proporción de 1:2, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9, 1:10, 10:1, 9:1,8:1, 7:1,6:1, 5:1,4:1, 3:1, o 2:1. Además, todos estos componentes, es decir, ARNgu y Cas9, pueden proporcionarse por separado, por ejemplo, como complejos ensamblados por separado, usando construcciones de a Dn o ARN separadas, o juntas, en una sola construcción, o en cualquier combinación.

Los complejos ARNgu/Cas9 pueden introducirse en diferentes puntos temporales. Por ejemplo, los complejos ARNgu/Cas9 se pueden introducir al menos con 1 minuto de diferencia, 5 minutos de diferencia, 10 minutos de diferencia, 30 minutos de diferencia, 1 hora de diferencia, 5 horas de diferencia o 15 horas de diferencia o más. Los complejos ARNgu/Cas9 se pueden introducir como máximo con 1 minuto de diferencia, 5 minutos de diferencia, 10 minutos de diferencia, 30 minutos de diferencia, 1 hora de diferencia, 5 horas de diferencia, o 15 horas de diferencia o más. Se puede purificar un conjunto de complejos antes de introducir otro conjunto de complejos. Los complejos de ARNgu/Cas9 pueden regularse diferencialmente (es decir, expresarse o estabilizarse diferencialmente) a través de agentes suministrados de forma exógena (por ejemplo, promotores de ADN inducibles o proteínas Cas9 inducibles).

Por lo tanto, en realizaciones ejemplares como se describe anteriormente, un ARNgu, que forma complejo con Cas9 (complejo ARNgu/Cas9) se dirige a un locus genómico de interés para inducir roturas de doble cadena. La especificidad de unión se determina mediante el emparejamiento de bases de ARNgu-ADN y la secuencia PAM yuxtapuesta a la región complementaria de ADN.

En todas las realizaciones de los procedimientos descritos anteriormente, los diversos componentes se pueden producir mediante síntesis, o por ejemplo, usando casetes de expresión que codifican una endonucleasa programable, tal como una proteína Cas, polinucleótido guía, etc. Los diversos componentes se pueden proporcionar a una célula o usarse in vitro. Estos componentes pueden estar presentes en un solo casete o en múltiples casetes, en la misma o diferentes construcciones. Los casetes de expresión habitualmente comprenden secuencias reguladoras que están implicadas en una o más de las siguientes: regulación de la transcripción, regulación postranscripcional y regulación de la traducción. Pueden introducirse casetes de expresión en una amplia diversidad de organismos incluyendo células bacterianas, células de levadura, células vegetales y células de mamífero. Los casetes de expresión habitualmente comprenden secuencias reguladoras funcionales correspondientes al organismo(s) en los que se introducen.

En un aspecto, todos o una parte de los diversos componentes para su uso en los procedimientos se producen en vectores, incluyendo vectores de expresión, que comprenden polinucleótidos que codifican para los mismos. Los vectores útiles para producir componentes para su uso en los presentes procedimientos incluyen plásmidos, virus (incluido el fago) y fragmentos de ADN de la tabla Integra (es decir, fragmentos integrables en el genoma hospedador mediante recombinación homóloga). Un vector se replica y actúa de forma independiente del genoma hospedador, o puede, en algunos casos, se puede integrar en el propio genoma. Los vectores de replicación adecuados contendrán un replicón y secuencias de control procedentes de especies compatibles con la célula hospedadora de expresión pretendida. Las células hospedadoras transformadas son células que se han transformado o transfectado con los vectores construidos usando técnicas de ADN recombinante.

Se conocen en la materia procedimientos generales para la construcción de vectores de expresión. Están disponibles en el mercado vectores de expresión para la mayoría de células hospedadoras. Existen varios productos de software comerciales diseñados para facilitar la selección de vectores apropiados y construcción de los mismos, tales como vectores de células de insectos para transformación de células de insectos y expresión génica en células de insectos, plásmidos bacterianos para transformación bacteriana y expresión génica en células bacterianas, plásmidos de levadura para transformación celular y expresión génica en levadura y otros hongos, vectores de mamífero para transformación de células de mamífero y expresión génica en células de mamífero o mamíferos, vectores víricos (que incluyen vectores retrovíricos, lentivíricos y adenovíricos) para transformación celular y expresión génica y procedimientos para permitir fácilmente la clonación de dichos polinucleótidos. SnapGene™ (GSL Biotech LLC, Chicago, Ill.; snapgene.com/resources/plasmid_files/your_time_is_valuable/), por ejemplo, proporciona una lista exhaustiva de vectores, secuencias de vectores individuales y mapas de vectores, así como fuentes comerciales para muchos de los vectores.

Los casetes de expresión habitualmente comprenden secuencias reguladoras que están implicadas en una o más de las siguientes: regulación de la transcripción, regulación postranscripcional y regulación de la traducción. Pueden introducirse casetes de expresión en una amplia diversidad de organismos incluyendo células bacterianas, células de levadura, células de mamíferos y células de plantas. Los casetes de expresión habitualmente comprenden secuencias reguladoras funcionales correspondientes a las células u organismo u organismos hospedadores en los que se introducen. Los vectores de expresión también pueden incluir polinucleótidos que codifican marcadores proteicos (por ejemplo, marcadores de poli-His, marcadores de hemaglutinina, marcadores de proteínas fluorescentes, marcadores bioluminiscentes, marcadores de localización nuclear). Las secuencias codificantes para dichos marcadores proteicos pueden fusionarse con una secuencia codificante pueden incluirse en un casete de expresión, por ejemplo, en un vector de dirección.

En algunas realizaciones, los polinucleótidos que codifican uno o más de los diversos componentes se unen operativamente con un promotor inducible, un promotor reprimible o un promotor constitutivo.

Se han diseñado varios vectores de expresión para expresar polinucleótidos guía. Véase, por ejemplo, Shen, B. y col., "Efficient genome modification by CRISPR-Cas9 nickase with minimal off-target effects" (2014) Mar 2. doi: 10.1038/nmeth.2857. 10.1038/nmeth.2857. Además, los vectores y los sistemas de expresión están disponibles comercialmente, como los de New England Biolabs (Ipswich, MA) y Clontech Laboratories (Mountain View, CA). Los vectores se pueden diseñar para expresar simultáneamente un ARNgu específico de diana utilizando un promotor U2 o U6, una Cas9 y/o dCas9, y si se desea, una proteína marcadora, para controlar la eficacia de la transfección y/o enriquecer/aislar aún más las células transfectadas mediante citometría de flujo.

Los vectores pueden diseñarse para la expresión de diversos componentes de los procedimientos descritos en células procariotas o eucariotas. Alternativamente, la transcripción puede ser in vitro, por ejemplo usando secuencias reguladoras de promotor T7 y polimerasa T7. Se pueden usar otras secuencias promotoras y ARN polimerasa.

Los vectores se pueden introducir y propagar en un procariota. Se conocen bien en la materia vectores procariotas. Habitualmente un vector procariota comprende un origen de replicación adecuado para la célula hospedadora diana (por ejemplo, oriC procedente de E. coli, pUC procedente de pBR322, pSC101 procedente de Salmonella), origen 15A (procedente de p15A) y cromosomas artificiales bacterianos). Los vectores pueden incluir un marcador seleccionable (por ejemplo, genes que codifican resistencia para ampicilina, cloranfenicol, gentamicina y kanamicina). Zeocin™ (Life Technologies, Grand Island, NY) puede usarse como una selección en bacterias, hongos (incluyendo levadura), plantas y líneas celulares de mamíferos. En consecuencia, pueden diseñarse vectores que portan solamente un gen de resistencia a fármacos para zeocin para trabajo de selección en varios organismos. Se conocen promotores útiles para expresión de proteínas en procariotas, por ejemplo, T5, T7, ramnosa (inducible), arabinosa (inducible) y PhoA (inducible). Además, se usan ampliamente promotores T7 en vectores que también codifican la ARN polimerasa T7. Los vectores procariotas también pueden incluir sitios de unión a ribosomas de diversa fuerza y señales de secreción (por ejemplo, mal, sec, tat, ompC y pelB). Además, los vectores pueden comprender promotores de ARN polimerasa para la expresión de ARNgu. También se conocen bien secuencias de terminación de la transcripción de ARN polimerasa procariota (por ejemplo, secuencias de terminación de la transcripción de Streptococcus pyogenes).

También se conocen en la materia vectores de integración para transformación estable de procariotas (véase, por ejemplo, Heap, J. T., y col., "Integration of DNA into bacterial chromosomes from plasmids without a counter-selection marker", Nucleic Acids Res. (2012) 40:e59).

La expresión de proteínas en procariotas se lleva a cabo habitualmente en Escherichia coli con vectores que contienen promotores constitutivos o inducibles que dirigen la expresión de proteínas de fusión o no de fusión.

Están disponibles una amplia diversidad de promotores de ARN polimerasa adecuados para la expresión de diversos componentes (véase, por ejemplo, Jiang, Y., y col., "Multigene editing in the Escherichia coli genome via the CRISPR-Cas9 system", Environ Microbiol. (2015) 81:2506-2514); Estrem, S.T., y col., (1999) "Bacterial promoter architecture: subsite structure of UP elements and interactions with the carboxy-terminal domain of the RNA polymerase alpha subunit", Genes Dev.15;13(16):2134-47).

Un vector puede ser un vector de expresión de levadura que comprende uno o más componentes de los procedimientos descritos anteriormente. Los ejemplos de vectores para expresión en Saccharomyces cerivisae incluyen, pero sin limitación, los siguientes: pYepSec1, pMFa, pJRY88, pYES2 y picZ. Se conocen en la materia procedimientos para expresión génica en células de levadura (véase, por ejemplo, Methods in Enzymology, Volumen 194, "Guide to Yeast Genetics and Molecular and Cell Biology, Part A", (2004) Christine Guthrie y Gerald R. Fink (eds.), Elsevier Academic Press, San Diego, CA). Normalmente, la expresión de genes que codifican proteínas en levaduras requiere un promotor unido operativamente a una región codificante de interés más un terminador transcripcional. Pueden usarse diversos promotores de levadura para construir casetes de expresión para expresión de genes en levadura. Los ejemplos de promotores incluyen, pero sin limitación, promotores de genes que codifican las siguientes proteínas de levadura: alcohol deshidrogenasa 1 (ADH1) o alcohol deshidrogenasa 2 (ADH2), fosfoglicerato cinasa (PGK), triosa fosfato isomerasa (TPI), gliceraldehído-3-fosfato deshidrogenasa (GAPDH; también conocida como TDH3 o triosa fosfato deshidrogenasa), galactosa-1-fosfato uridil-transferasa (GAL7), UDP-galactosa epimerasa (GAL10), citocromo ci (CYC1), ácido fosfatasa ácida (PHO5) y el gen de glicerol-3-fosfato deshidrogenasa (GPD1). También se pueden usar promotores híbridos, tales como el ADH2/GAPDH, CYC1/GAL10 y el promotor ADH2/GAPDH (que se induce a bajas concentraciones de glucosa celular, por ejemplo, de aproximadamente 0,1 por ciento a aproximadamente 0,2 por ciento). En S. pombe, los promotores adecuados incluyen el promotor nmtl reprimido por tiamina y el promotor de citomegalovirus constitutivo en pTL2M.

Los promotores de ARN polimerasa III de levadura (por ejemplo, promotores de genes 5S, U6 o RPR1) así como las secuencias de terminación de polimerasa III son conocidos en la materia (véase, por ejemplo, www.yeastgenome.org; Harismendy, O., y col., (2003) "Genomewide location of yeast RNA polymerase III transcription machinery", The EMBO Journal. 22(18):4738-4747.)

Además de un promotor, se pueden usar varias secuencias de activación cadena arriba (UAS, de sus siglas en inglés), también llamadas potenciadores, para mejorar la expresión de polipéptidos. Las secuencias de activación cadena arriba ejemplares para expresión en levadura incluyen las UAS de genes que codifican estas proteínas: CYC1, ADH2, GAL1, GAL7, GAL10 y ADH2. Las secuencias de terminación de la transcripción ejemplares para expresión en levadura incluyen las secuencias de terminación de los genes de factor a, CYCl, GAPDH y PGK. Pueden usarse una o múltiples secuencias de terminación.

Pueden clonarse promotores, terminadores y regiones codificantes adecuados en vectores lanzadera de E. colilevadura y transformarse en células de levadura. Estos vectores permiten la propagación de cepas en cepas tanto de levadura como de E. coli. Normalmente, el vector contiene un marcador seleccionable y secuencias que permiten la replicación autónoma o integración cromosómica en cada hospedador. Son ejemplos de plásmidos usados habitualmente en levadura los vectores lanzadera pRS423, pRS424, pRS425 y pRS426 (Colección Americana de Cultivos Tipo, Manassas, VA). Estos plásmidos contienen un origen de replicación de levadura de 2 micrómetros, un origen de replicación de E. coli (por ejemplo, pMB1) y un marcador seleccionable.

Los diversos componentes también se pueden expresar en insectos o células de insectos. Las secuencias de control de expresión adecuadas para su uso en dichas células son bien conocidas en la materia. Puede ser deseable que la secuencia de control de la expresión comprenda un promotor constitutivo. Los ejemplos de promotores fuertes adecuados incluyen, pero sin limitación, los siguientes: los promotores de baculovirus para el piO, polihedrina (polh), p 6.9, cápside, UAS (contiene un sitio de unión a Gal4), Ac5, genes de tipo catepsina, el promotor del gen de actina de B. mori; hsp70 de Drosophila melanogaster, actina, a-1-tubulina o promotores del gen de ubiquitina, promotores de VSR o VTMR, promotor de copia, promotor de gypsy y el promotor del gen de IE de citomegalovirus. Los ejemplos de promotores débiles que pueden usarse incluyen, pero sin limitación, los siguientes: los promotores de baculovirus para los genes iel, ie2, ieO, etl, 39K (aka pp31), y gp64. Si se desea aumentar la cantidad de expresión génica desde un promotor débil, pueden usarse elementos potenciadores, tales como el elemento potenciador de baculovirus, hr5, junto con el promotor.

Para la expresión de algunos de los componentes de la presente invención en insectos, son conocidos en la materia promotores de ARN polimerasa III, por ejemplo, el promotor U6. También se conocen elementos conservados de promotores de ARN polimerasa III en insectos (véase, por ejemplo, Hernandez, G., (2007) "Insect small nuclear RNA gene promoters evolve rapidly yet retain conserved features involved in determining promoter activity and RNA polymerase specificity", Nucleic Acids Res. enero de 2007; 35(1):21-34).

En otro aspecto, los diversos componentes se incorporan en vectores de mamíferos para su uso en células de mamífero. Están disponibles en el mercado un gran número de vectores de mamíferos adecuados para su uso con los sistemas de la presente invención (por ejemplo, de Life Technologies, Grand Island, NY; NeoBiolab, Cambridge, MA; Promega, Madison, WI; DNA2.0, Menlo Park, CA; Addgene, Cambridge, MA).

También pueden usarse vectores procedentes de virus de mamíferos para expresar los diversos componentes de los presentes procedimientos en células de mamíferos. Estos incluyen vectores procedentes de virus tales como adenovirus, papovirus, herpesvirus, poliomavirus, citomegalovirus, lentivirus, retrovirus, vaccinia y virus de simio 40 (SV40) (véanse, por ejemplo, Kaufman, R. J., (2000) "Overview of vector design for mammalian gene expression", Molecular Biotechnology, Volumen 16, Issue 2, págs 151-160; Cooray S., y col., (2012) "Retrovirus and lentivirus vector design and methods of cell conditioning", Methods Enzymol.507:29-57). Las secuencias reguladoras unidas operativamente con los componentes pueden incluir secuencias de unión a activadores, potenciadores, intrones, secuencias de reconocimiento de poliadenilación, promotores, secuencias de unión a represores, estructuras de tallobucle, secuencias de inicio de la traducción, secuencias líderes de la traducción, secuencias de terminación de la transcripción, secuencias de terminación de la traducción, sitios de unión a cebadores y similares. Son promotores usados habitualmente los promotores de mamíferos constitutivos CMV, EF1a, SV40, PGK1 (de ratón o humano), Ubc, CAG, CaMKIIa y beta-Act, y otros conocidos en la materia (Khan, K. H. (2013) "Gene Expression in Mammalian Cells and its Applications", Advanced Pharmaceutical Bulletin 3(2), 257-263). Además, pueden usarse promotores de ARN polimerasa III de mamífero, incluidos HI y U6.

Un vector de expresión de mamífero recombinante puede ser capaz de dirigir preferentemente la expresión del ácido nucleico en un tipo celular particular (por ejemplo, usando elementos reguladores específicos de tejido para expresar un polinucleótido). Se conocen en la materia elementos reguladores específicos de tejido e incluyen, pero sin limitación, el promotor de la albúmina, promotores específicos linfoides, promotores específicos de neuronas (por ejemplo, el promotor de neurofilamentos), promotores específicos del páncreas, promotores específicos de glándulas mamarias (por ejemplo, promotor de suero de leche) y, en particular, promotores de receptores de linfocitos T e inmunoglobulinas. Los promotores regulados por el desarrollo también están abarcados, por ejemplo, los promotores de hox murino y el promotor de alfa-fetoproteína.

Se han utilizado numerosas líneas celulares de mamíferos para la expresión de productos génicos que incluyen HEK 293 (riñón embrionario humano) y CHO (ovario de hámster chino). Estas líneas celulares pueden transfectarse mediante procedimientos convencionales (por ejemplo, usando fosfato de calcio o polietilenimina (PEI), o electroporación). Otras líneas celulares de mamíferos típicas incluyen, pero sin limitación: HeLa, U2OS, 549, HT1080, CAD, P19, NIH 3T3, L929, N2a, células 293 de riñón embrionario humano, MCF-7, Y79, SO-Rb50, Hep G2, DUKX-X11, J558L y células de riñón de cría de hámster (BHK, de sus siglas en inglés).

Se conocen en la materia procedimientos de introducción de polinucleótidos (por ejemplo, un vector de expresión) en células hospedadoras y se seleccionan normalmente basándose en el tipo de célula hospedadora. Dichos procedimientos incluyen, por ejemplo, infección vírica o de bacteriófago, transfección, conjugación, electroporación, precipitación con fosfato cálcico, transfección mediada por polietilenimina, transfección mediada por DEAE-dextrano, fusión de protoplastos, lipofección, transfección mediada por liposomas, tecnología de pistola de partículas, microinyección directa y suministro mediado por nanopartículas.

La presente invención también incluye procedimientos de modulación de transcripción in vitro o in vivo usando los diversos componentes y complejos descritos en el presente documento. En una realización, un complejo de polinucleótido guía/proteína Cas puede reprimir la expresión génica mediante interferencia con la transcripción cuando el polinucleótido guía dirige la unión del a Dn diana del complejo a la región promotora del gen. El uso de los complejos para reducir la transcripción también incluye complejos en los que la proteína Cas se fusiona con un regulador negativo conocido de un gen diana (por ejemplo, un polipéptido represor). Por ejemplo, la expresión de un gen está bajo el control de secuencias reguladoras con las que puede unirse un polipéptido represor. Un polinucleótido guía puede dirigir la unión a diana de DNA de un complejo de proteína represora con las secuencias de ADN que codifican la secuencias reguladoras o adyacentes a las secuencias reguladoras de modo que la unión del complejo de proteína represora pone la proteína represora en contacto operativo con las secuencias reguladoras. De manera similar, Cas9 se puede fusionar con un polipéptido activador para activar o aumentar la expresión de un gen bajo el control de secuencias reguladoras con las que puede unirse un polipéptido activador.

La presente invención también abarca procedimientos de terapia génica para prevenir o tratar enfermedades, trastornos y afecciones usando los diversos procedimientos descritos en el presente documento. En una realización, un procedimiento de terapia génica usa la introducción de secuencias de ácido nucleico en un organismo o células de un organismo (por ejemplo, paciente) para lograr la expresión de componentes de la presente invención para proporcionar modificación de una función diana. Por ejemplo, pueden genomodificarse células de un organismo, ex vivo, mediante (i) introducción de vectores que comprenden casetes de expresión que expresan varios componentes, (ii) introducción directa de ARNgu y/o polinucleótidos donantes y proteínas Cas9, o (iii) introducción de combinaciones de estos componentes. Las células genomodificadas se proporcionan a un organismo (por ejemplo, paciente) para tratar.

Se conocen en la materia ejemplos de terapia génica y técnicas de administración para terapia (véase, por ejemplo, Kay, M.A., (2011) "State-of-the-art gene-based therapies: the road ahead", Nature Reviews Genetics 12, 316-328; Wang y col., "State-of-the-art human gene therapy: part I. Gene delivery technologies", Discov Med. (2014) 18:67-77; Wang y col., "State-of-the-art human gene therapy: part II. Gene therapy strategies and clinical applications", Discov Med. (2014) 18:151-61; "The Clinibook: Clinical Gene Transfer State of the Art", Odile Cohen-Haguenauer (Editor), EDP Sciences (31 de octubre de 2012), ISBN-10:2842541715).

En algunos aspectos, los componentes de la presente invención se administran usando sistemas de administración de nanoescala, tales como nanopartículas. Además, se pueden usar liposomas y otros sistemas de administración de partículas. Por ejemplo, los vectores que incluyen los componentes de los presentes procedimientos se pueden empaquetar en liposomas antes de la administración al sujeto o a las células procedentes del mismo, tal como se describe en las patentes de Estados Unidos n° 5.580.859; 5.264.618; 5.703.055. La encapsulación de lípidos generalmente se logra usando liposomas que son capaces de unirse de manera estable o atrapar y retener ácido nucleico.

Los procedimientos descritos en el presente documento también pueden usarse para generar organismos genéticamente modificados no humanos. En general, en estos procedimientos se introducen casetes de expresión que comprenden secuencias polinucleotídicas de los diversos componentes, así como un vector de dirección en células de cigotos para introducir de forma específica de sitio una secuencia polinucleotídica seleccionada en una secuencia diana de ADN en el genoma para generar una modificación del ADN genómico. La secuencia polinucleotídica seleccionada está presente en el vector de dirección. Las modificaciones del ADN genómico normalmente incluyen, inserción de una secuencia polinucleotídica, supresión de una secuencia polinucleotídica o mutación de una secuencia polinucleotídica, por ejemplo, corrección génica, reemplazo génico, marcaje génico, inserción de transgén, alteración génica, mutación génica, mutación de secuencias reguladoras génicas, y así sucesivamente. En una realización de procedimientos para generar organismos modificados genéticamente no humanos, el organismo es un ratón. Generar ratones transgénicos implica cinco etapas básicas (Cho A., y col., "Generation of Transgenic Mice", Current protocols in cell biology, (2009); CHAPTER.Unit-19.11): (1) purificar una construcción transgénica (por ejemplo, casetes de expresión que comprenden los diversos componentes de los diversos procedimientos descritos en el presente documento, así como un vector de direccionamiento); (2) recoger cigotos donantes; (3) microinyectar la construcción transgénica en el cigoto de ratón; (4) implantar los cigotos microinyectados en ratones receptores pseudo-preñados; y (5) realizar genotipado y análisis de la modificación del ADN genómico establecido en ratones fundadores.

En otra realización de procedimientos para generar organismos modificados genéticamente no humanos, el organismo es una planta. Por lo tanto, los componentes descritos en el presente documento se usan para realizar una edición y manipulación de genes eficaz y rentable en células vegetales. Es en general, es preferible insertar un ADN recombinante funcional en un genoma vegetal en una localización inespecífica. Sin embargo, en determinados casos, puede ser útil usar integración específica de sitio para introducir una construcción de ADN recombinante en el genoma. Se conocen en la materia vectores recombinantes para su uso en planta. Los vectores pueden incluir, por ejemplo, regiones de unión a armazón (SAR), orígenes de replicación y/o marcadores seleccionables.

Los procedimientos y composiciones para transformar plantas introduciendo una construcción de ADN recombinante en un genoma vegetal incluye cualquiera de varios procedimientos conocidos en la materia. Un procedimiento para construir plantas transformadas es bombardeo con microproyectiles. La transformación mediada por Agrobacterium es otro procedimiento para construir plantas transformadas. Alternativamente, pueden usarse otras especies distintas de Agrobacterium (por ejemplo, Rhizobium) y otras células procariotas que son capaces de infectar células vegetales e introducir secuencias de nucleótidos heterólogas en el genoma de una célula vegetal infectada. Otros procedimientos de transformación incluyen electroporación, liposomas, transformación usando polen o virus, productos químicos que aumentan la captación de ADN libre o suministro de ADN libre por medio de bombardeo de microproyectiles. Las construcciones de ADN de la presente invención pueden introducirse en el genoma de un hospedador vegetal usando técnicas de transformación convencionales que son bien conocidas por los expertos en la materia (véase, por ejemplo, "Methods to Transfer Foreign Genes to Plants", Y Narusaka, y col., cdn.intechopen.com/pdfs-wm/30876.pdf).

Aunque en el presente documento se han mostrado y descrito realizaciones preferidas de la presente invención, será obvio para los expertos en la técnica que tales realizaciones se proporcionan solo a modo de ejemplo.

EXPERIMENTAL

Se ilustran adicionalmente aspectos de la presente invención en los siguientes ejemplos. Se ha intentado asegurar la precisión con respecto a los números usados (por ejemplo, cantidades, concentraciones, porcentajes de cambio, etc.) pero deberían tenerse en cuenta algunos errores y desviaciones experimentales. Salvo que se indique de otro modo, la temperatura está en grados centígrados y la presión es atmosférica o cercana a la atmosférica. Debería entenderse que estos ejemplos, aunque indican algunas realizaciones de la invención, se proporcionan solamente como ilustración.

Los siguientes ejemplos no pretenden limitar el alcance de los que los inventores consideran como diversos aspectos de la presente invención.

Materiales y procedimientos

Cas9 y ARNgu

La Cas9 de Streptococcus pyogenes recombinante (Spy) y los ARN de guía única (ARNgu) transcritos in vitro se generaron como describen Briner y col., "Guide RNA Functional Modules Direct Cas9 Activity and Orthogonality", Molecular Cell (2014) 56:333-339). Los oligonucleótidos utilizados en la generación de plantillas de ARNgu se enumeran en la Tabla 1, la Tabla 3 y la Tabla 5. Las reacciones de transcripción se digirieron con 2 Unidades de desoxirribonucleasa I sin ribonucleasa (NEB) a 37 °C durante 15 minutos; la reacción se detuvo mediante la adición de EDTA a una concentración final de 5 mM e incubación a 75 °C durante 10 minutos.

Formación de RNPgu y nucleofección

Se preparó un conjunto único de ribonucleoproteínas de guía única (RNPgu) para tres reacciones de nucleofección independientes. El ARNgu se desnaturalizó mediante incubación a 98 °C durante 2 minutos y luego se dejó enfriar a temperatura ambiente durante 10 minutos. Se colocaron 2,9 pl de ARNgu desnaturalizado en una placa de 96 pocillos (concentración promedio 4 pg/ml) y se combinaron con 3,1 pl de mezcla Cas9/CCE (1,9 pl de proteína Cas9 a 10 mg/ml 1,2 pl 5 x tampón CCE (HEPES 100 mM, pH 7,4, KCl 500 mM, MgCh 25 mM, DTT 5 mM, glicerol al 25 %). La mezcla de ARNgu y Cas9 se agitó suavemente en vórtex y se incubó a 37 °C durante 10 minutos para formar RNPgu. Se añadieron 60 pl de suspensión celular (10.000 células/pl) a cada pocillo y se mezcló. Se transfirieron 20 pl de la mezcla de células/RNPgu a tres placas de nucleofección de 96 pocillos. Las células se nucleofectaron usando la lanzadera amaxa nucleofector II de 96 pocillos (Lonza) usando el programa recomendado por el fabricante para cada línea celular. Las líneas celulares HEK293 y K562 se nucleofectaron usando el kit de línea celular SF (Lonza V4SC-2960). La línea celular HCT116 se nucleofectó usando el kit de línea celular SE (Lonza V4SC-1960). Las células madre hematopoyéticas (HSC) se nucleofectaron usando el kit de células primarias P3 (Lonza V4SP-3960).

Cultivo celular

Las líneas celulares HEK293 y HCT116 se cultivaron en DMEM Glutamax (Gibco, 10569-010) con suero bovino fetal al 10 % (FBS; Gibco, 16000-044) y antibiótico-antimitótico al 1 % (Gibco, 15240-062). La línea celular K562 se cultivó en IMDM Glutamax (Gibco, 31980-097) FBS al 10 % (Gibco, 16000-044) antibiótico-antimitótico al 1 % (Gibco, 15240-062). Todas las líneas celulares se cultivaron a 37 °C y CO²al 5 %. Las líneas celulares HEK293 y HCT116 se dividieron cuando alcanzaron una confluencia del 90 % y se tripsinizaron con TrypLE Express (Gibco, 12604-021). La línea celular K562 se dividió antes de alcanzar una densidad de 1 x 106 células/ml. Las tres líneas celulares se colocaron en placas 48 horas antes de la nucleofección y estaban al 70-80 % de confluencia (HEK293 y HCT116) antes de la cosecha. Las células se contaron usando el sistema Countess II FL (Life Technologies). Todas las líneas celulares se cultivaron en placas de cultivo de tejidos de 96 pocillos después de la nucleofección (Santa Cruz Biotechnologies, sc-204447). Las líneas celulares adherentes (HEK293 y HCT116) se colocaron en placas de 96 pocillos recubiertas con colágeno después de la nucleofección (Corning, 354236). Todas las líneas celulares se autenticaron utilizando Geneprint 10 de Promega y la base de datos ATCC STR. Para cada línea celular, se creó una placa de control de tipo silvestre (TS) mediante la colocación de 200.000 células/pocillo. Las células se cultivaron durante 48 horas y el lisado genómico se preparó como se describe a continuación.

Las células madre hematopoyéticas (HSC) de sangre periférica movilizadas (AllCells n.° mPB018F) se descongelaron el día anterior a la nucleofección en DMEM/F12 Glutamax (Medio esencial mínimo de Dulbecco, 10565-018, Gibco) complementado con solución 100X MNEAA (Aminoácidos no esenciales de Medio mínimo esencial, 11140-050, Gibco) y 1000X 2-mercaptoetanol (21985-023, Gibco). Las HSC se contaron con un hemocitómetro y se colocaron en placas a 1,5 x 105/ml en el mismo medio con 100x StemSpan™ CC100 (02690, tecnologías StemCell), 1000X TPO recombinante humano (TromboPOetina, 02522, StemCell Tecnologies) y 10.000X GM-CSF recombinante humano (Factor estimulante de colonias de granulocitos y macrófagos, PHC6025, Gibco). 40 minutos después de la nucleofección, se añadió a las células un volumen igual de 2 x antibiótico-antimitótico (Gibco, 15240-062). Las HSC se incubaron a 37 °C y CO²al 5 % y se cosecharon 48 horas después de la nucleofección.

Tratamientos compuestos

Para tratamientos compuestos, la formación de RNPgu y la nucleofección de células 293T se realizaron como se describió anteriormente y las células se sembraron en placas en 150 pl de medio de cultivo. Una hora después del cultivo en placas, se administraron a las células 50 pl de medio que contenía el compuesto a 4x la concentración final. El inhibidor de ADN-PK NU7441 (Leahy y col., "Identification of a highly potent and selective DNA-dependent protein kinase (DNA-PK) inhibitor (NU744l) by screening of chromenone libraries" Bioorg. Med. Chem. Lett. (2004) 14:6083-6087) se administró en una respuesta de dosis de cinco puntos en un intervalo de concentración de 25 pM -1,56 pM (diluciones 1:2). 48 horas después de la adición del compuesto, las células se cosecharon y procesaron para la preparación del ADN genómico como se describe a continuación.

Lisado Genómico

Las células K562 y las HSC se transfirieron a una placa compatible con termociclador y se sedimentaron mediante centrifugación. Después de que los medios se aspiraron suavemente, se añadieron 50 pl de solución de extracción de ADN EpiBio QuickExtract (Epicentro, QE09050) a cada pocillo y la placa se incubó a 37 °C durante 15 minutos. Para las células HEK293 y HCT116, los medios se aspiraron suavemente de placas de cultivo de 96 pocillos y las células se enjuagaron suavemente con 1 x solución salina tamponada con fosfato (PBS). Se añadieron 50 pl de solución de extracción de ADN EpiBio QuickExtract a cada pocillo y las placas se incubaron a 37 °C durante 15 minutos. Para todos los tipos de células, se añadió a cada pocillo agua de grado de biología molecular (Teknova) para alcanzar una concentración de 1000 copias genómicas/pl para las reacciones de PCR posteriores. Después de la adición de agua, las células adherentes se transfirieron a placas compatibles con termociclador. Todos los tipos de células se lisaron (75 °C 10 min, 95 °C 5 min) y el lisado se almacenó a -80 °C.

Clonación de lentivirus

Para la expresión de Cas9, un ADNc de Cas9 de Streptococcus pyogenes optimizado por codones para la expresión en células humanas que incluye un marcador N-terminal 3 x FLAG, así como una señal de NLS N y C-terminal como se describió previamente (Smurnyy y col., "DNA sequencing and CRISPR-Cas9 gene editing for target validation in mammalian cells" Nat. Chem. Biol. (2014) 10:623-625), se sintetizó como un gBlock y se ligó en pLenti6 (Thermo Scientific). La construcción Cas9 se expresa bajo un promotor constitutivo de CMV y expresa un marcador de resistencia a blasticidina co-transcripcionalmente con Cas9 usando una secuencia T2A. Los ARNgu se clonaron mediante la síntesis de un oligo correspondiente a la secuencia espaciadora en una versión modificada del plásmido lentivírico pRSI16 (Cellecta) que contiene una secuencia de ARNcrtra modificada como se describió anteriormente, que incluye un casete de expresión de RFP y puromicina (Chen y col., "Dynamic imaging of genomic loci in living human cells by an optimized CRISPR/Cas system" Cell (2013) 155:1479-1491).

Cultivo celular de lentivirus

Las partículas lentivíricas se generaron de acuerdo con los procedimientos descritos previamente (Hoffman y col., "Functional epigenetics approach identifies BRM/SMARCA2 as a critical synthetic lethal target in BRG1-deficient cancers" Proc. Natl. Acad. Sci. U.S.A. (2014) 111:3128-3133). Se colocaron en placa 0,75 x 106 células 293T en un pocillo de placas de 6 pocillos 24 horas antes de la transfección. Para cada pocillo, las células se transfectaron usando 1,5 pl de reactivo TransIT diluido en 55,1 pl de OPTI-MEM que se combinó con 0,23 pg del plásmido lentivírico y 0,28 pg de la mezcla de empaquetamiento Cellecta (que contiene los plásmidos psPAX2 y pMD2 que codifican Gag/Pol y VSV-G respectivamente). El virus se cosechó 72 horas después de la transfección, se dividió en partes alícuotas y se congeló a -80 °C para su uso posterior. El título vírico se midió usando el kit LentiX de qPCR y normalmente estuvo en el intervalo de 5 x 106 TU/ml usando este procedimiento. La expresión estable de Cas9 se estableció mediante transducción lentivírica a una MOI de aproximadamente 1,0 seguido de tratamiento con blasticidina durante 96 horas para seleccionar las células que expresan Cas9. La expresión de Cas9 se confirmó mediante transferencia Western y mediante IF usando un anticuerpo monoclonal de ratón anti-Flag M2 (Sigma). Para la expresión de ARNgu, las células se transdujeron a una MOI de aproximadamente 1 y se trataron con puromicina durante 72 horas para seleccionar las células que expresan ARNgu.

Generación de la biblioteca de secuenciación para la administración de RNPgu

Para los sitios de secuenciación de reparación de ADN después de la administración de RNP de ARNgu, los cebadores de PCR se diseñaron para amplificar de forma única una región de 180-220 pares de bases de ADN genómico que rodea el sitio diana utilizando el paquete de programa informático Primer3 (Untergasser y col., "Primer3 - new capabilities and interfaces" Nucleic Acids Res. (2012) 40:e115). Se agregaron secuencias a los cebadores de PCR de modo que el adaptador Illumina P5 (CACTCTTTCCCTACACGACGCTCTTCCGATCT; SEQ ID NO: 643) estaría en el extremo 5' del amplicón y el adaptador P7 (GGAGTTCAGACGTGTGCTCTTCCGATCT; SEQ ID NO: 644) estaría en el extremo 3' del amplicón (los cebadores de secuencia se enumeran en la Tabla 6 y la Tabla 7).

En la primera PCR, se utilizaron 8.000 copias del molde genómico en una reacción de 25 pl con Q5 Master Mix (NEB, M0494L) y una concentración final de 500 nM de cebadores directos e inversos (cada uno). El programa del termociclador para la primera PCR es el siguiente: 1 ciclo x 1 minuto a 98 °C, 35 ciclos x 10 segundos a 98 °C, 20 segundos a 60 °C, 30 segundos a 72 °C, 1 ciclo x 2 minutos a 72 °C.

Se realizó una segunda PCR para añadir códigos de barras de índice a cada muestra. Para esta PCR, el producto de la primera PCR se diluyó 100x y se usaron 8 j l de esta dilución como plantilla en una reacción de 25 j l con Q5 Master Mix y una concentración final de 500 nM de cada uno de los cebadores directo (i5, véase la Tabla 6) e inverso (i7, véase la Tabla 7). El programa del termociclador para la PCR2 es el siguiente: 1 ciclo x 1 minuto a 98 °C, 12 ciclos x 10 segundos a 98 °C, 20 segundos a 60 °C, 30 segundos a 72 °C, 1 ciclo x 2 minutos a 72 °C.

Todos los pocillos se agruparon después de la segunda PCR y se mezclaron mediante vórtice para formar un conjunto de muestras indexadas (ISP). Se agregaron 450 j l de perlas SPRISelect (Beckman Coulter, B24965AA) a un nuevo tubo de microcentrífuga. Se añadieron 500 j l del ISP a las perlas. La mezcla de perlas e ISP se incubó durante 10 minutos a temperatura ambiente. El tubo se transfirió a un separador magnético y se incubó durante 4 minutos hasta que la solución se aclaró. Las perlas se enjuagaron cuidadosamente (para no perturbar el sedimento) con 1 ml de etanol al 85 %, y se incubaron durante 30 segundos antes de eliminar el etanol. Las perlas se secaron al aire en el separador magnético durante 10 minutos. La biblioteca se eluyó luego de las perlas mediante la adición de 500 j l de tampón TE con bajo EDTA (Tris 10 mM, EDTA 0,5 mM, pH 8,0). Las bibliotecas de secuenciación se evaluaron mediante electroforesis en gel de alta sensibilidad (Fragment Analyzer (Advanced Analytical Technologies)). Las bibliotecas de secuenciación se cuantificaron luego utilizando el kit de cuantificación de biblioteca KAPA para Illumina Systems (Kapa Biosystems, KK4824) y se secuenciaron en un secuenciador MiSeq (Illumina). Se usó el kit de reactivos MiSeq v2 (300 ciclos) (Illumina MS-102-2002) para la secuenciación de pares (2 x 151), produciendo 4.000-20.000 lecturas/muestra dependiendo del nivel de multiplexación.

Generación de la biblioteca de secuenciación para la administración de RNPgu lentivíricas

Los protocolos para la generación de la biblioteca y la secuenciación de las estructuras de reparación de ADN después de la administración lintivírica del ARNgu fueron similares a los descritos anteriormente con las siguientes modificaciones menores. Para los cebadores de PCR1 se añadieron secuencias de adaptador parcial P5 Illumina 'Nextera' (TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG; SEQ ID NO: 645) y de adaptador P7 (GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG; SEQ ID NO: 646) (los cebadores de secuenciación se enumeran en las Tablas 6 y 7). Para la PCR2, se usaron los cebadores de secuenciación y el índice v2 Nextera convencional de modo que el adaptador TCGTCGGCAGCGTC (SEQ ID NO: 647) estaría en el extremo 5' y GTCTCGTGGGCTCGG (SEQ ID NO: 648) estaría en el extremo 3' del amplicón. Las bibliotecas se cuantificaron utilizando un protocolo SYP green de qPCR interno utilizando cebadores para P5 y P7, y posteriormente se secuenciaron con lecturas de 2 x 250 b utilizando el kit de reactivos MiSeq v2 (500 ciclos) (Illumina MS-102-2003).

Espaciador único de diana múltiple

Se identificaron aproximadamente 16.000 secuencias diana que existen con al menos una copia exacta de la secuencia diana en el genoma de referencia hg38 que produce 192.955 sitios con un promedio de 12 sitios por secuencia diana. Se aplicó un filtro a esta lista para extraer las secuencias diana en las que al menos un 50 % de los sitios podrían amplificarse de forma única, lo que daría como resultado 51 dianas que cubren 494 sitios en el genoma con un promedio de 10 sitios por secuencia diana. De este grupo, se probaron 29 dianas que cubrían experimentalmente 179 sitios con un promedio de 6 sitios que podrían amplificarse de forma única por diana y se perfilaron sus resultados de reparación de ADN. Se colocó un filtro en los datos resultantes para excluir sitios con una eficacia de escisión de menos de un 1 %, produciendo un grupo final de 21 dianas que cubren 127 sitios en el genoma.

Fase de desarrollo de la secuenciación de amplicones y clasificación de la reparación

Los pares de lectura FASTQ generados mediante Illumina MiSeq se procesaron primero utilizando cutAdapter para recortar secuencias de adaptador. Los pares de lectura se unieron en un solo contig utilizando FLASH (Magoc y Salzberg, "FLASH: fast length adjustment of short reads to improve genome assemblies" Bioinformatics (2011) 27:2957-2963).

). Los contigs se alinearon con el genoma de referencia utilizando el algoritmo "mem" de bwa. Los archivos SAM resultantes se filtraron posteriormente para retener solo las lecturas que se superponen con la ubicación del amplicón en la diana utilizando una base de datos relacional de la ubicación conocida del amplicón en la diana. La ubicación de una indel dentro de una lectura dada se determinó a partir de la cadena CIGAR (Li y col., "The Sequence Alignment / Map format and SAMtools" Bioinformatics (2009) 25: 2078-2079).

Cuando un alineador, tal como bwa, intenta alinear una lectura que contiene una indel con un genoma de referencia y descubre múltiples alineamientos locales igualmente buenos de la indel, el alineador selecciona arbitrariamente uno de los alineamientos indel locales. Para eliminar esta ambigüedad y lograr una justificación indel consistente, se realizó una "alineación secundaria" de la indel en cada lectura mutante. Este alineador secundario es una función de Python personalizada que vuelve a descubrir las múltiples alineaciones locales igualmente buenas para cada indel y luego selecciona una alineación indel local de manera determinista utilizando el siguiente algoritmo. Primero, identifica el inicio y el final de cada indel posible en relación con el sitio de corte. Segundo, para cada posible alineación local, calcula su "distancia al borde", es decir, el mínimo de la distancia del inicio de indel al sitio de corte y la distancia del extremo de indel al sitio de corte. Tercero, selecciona la alineación indel local con la menor distancia al borde. Si dos alineaciones indel locales tienen la misma distancia al borde, elige la que tiene el sitio de inicio más pequeño. Hablando en términos prácticos, el alineador secundario elige la alineación más cercana al sitio de corte, ya que es biológicamente más plausible.

Después de la alineación secundaria, las lecturas se clasificaron como "mutantes" si contenían una indel dentro de ± 5 pares de bases del sitio de corte; de lo contrario, se clasificaron como "tipo silvestre". Cada lectura mutante se asignó a una "clase indel" basada en el tipo indel (inserción o eliminación), sitio de inicio y longitud.

Matrices cromáticas

Las matrices cromáticas se generaron a partir de los datos de secuenciación procesados de la siguiente manera. Para un sitio diana dado, las frecuencias de inserciones y deleciones se contabilizaron por longitud (para inserciones de 1 nucleótido, los cuatro nucleótidos se contabilizaron por separado). Cada columna en la matriz cromática representa un sitio diana diferente. Las intensidades de color en las células corresponden a la frecuencia como una fracción de las lecturas mutantes, con una escala de color de 0 a 0,2 (saturación). La eficacia de edición de cada sitio diana se indica en el diagrama de barras naranja arriba de la matriz cromática.

Máscara de MH

Se aplicó una máscara estricta para deleciones de microhomología (Figura 12D). Para eliminaciones con múltiples posibles alineaciones locales (véase arriba), primero se calculó una puntuación de microhomología prevista para cada una de las alineaciones locales y luego se conservó el máximo (más conservador) en todas ellas. Luego se enmascararon las deleciones con una puntuación máxima de microhomología > 3 (es decir, las eliminaciones con más de un par de bases de microhomología) se enmascararon (Bae y col., "Microhomology-based choice of Cas9 nuclease target sites" (2014) Nat. Methods 11:705-706).

Agrupamiento

El análisis de grupos se aplicó a los resultados de reparación en diferentes loci genómicos de la siguiente manera. Primero, se usó un vector binario, o cadena de bits, según Willett y col., "Implementation of Nearest-Neighbor Searching in an Online Chemical Structure Search System" Journal of Chemical Information and Computer Sciences (1986) 26:36-41, para codificar las indeles observadas en cada locus. Se consideraron todas las inserciones posibles (basadas en el sitio de inicio y la longitud) que comienzan dentro de ± 5 pb del sitio de corte y con una longitud < 10 (había 110 posibilidades); se consideraron todas las eliminaciones posibles (basadas en el sitio de inicio y la longitud) completamente encerradas en ± 25 pb del sitio de corte y con al menos 1 pb presente en ± 5 pb del sitio de corte (había 906 posibilidades). Para un locus genómico dado, este vector de posibles indeles se calificó de la siguiente manera: a cualquier indel entre los 10 más frecuentes por fracción de lecturas mutantes para ese locus se le asignó un valor 1, de lo contrario 0. Los loci genómicos que tenían menos de 500 contigs de lectura alineados o que tenían menos de 10 clases indel observadas se filtraron para evitar sesgar las métricas de rendimiento de agrupación cadena abajo.

A continuación, dadas estas cadenas de bits para los loci genómicos, se calculó una matriz de similitud utilizando el coeficiente de similitud Jaccard/Tanimoto (Jaccard, P, "The distribution of flora in the alpine zone" New Phytologist (1912) 11:37-50); Rogers y Tanimoto, "A computer program for classifying plants" Science (1960) 132:1115-1118), que es la relación entre el número de elementos en la intersección de las cadenas de dos bits y el número de elementos en su unión:

J= M¹¹/ (M¹⁰+ M⁰¹+ M¹¹)

en la que M¹¹es el número de elementos para los que ambas cadenas de bits tienen un valor de 1, M¹⁰es el número de elementos para los cuales la primera cadena de bits (pero no la segunda) tiene un valor de 1, y M⁰¹es el número de elementos para los cuales la segunda cadena de bits (pero no la primera) tiene un valor de 1. Esta matriz de similitud se utilizó como entrada para la agrupación de Propagación de afinidad (AP, de sus siglas en inglés) (Jaccard, P, "The distribution of flora in the alpine zone" New Phytologist (1912) 11:37-50), en un algoritmo para el cual el número de grupos se optimiza internamente, en lugar de especificarse como un parámetro. El algoritmo AP identifica "ejemplos" - puntos de datos que son representativos de otros puntos de datos - actualizando iterativamente una de las dos matrices en función de los valores de la otra matriz: una matriz de "responsabilidad", en la que r(i, k) indica qué tan representativa es un posible ejemplo k de un punto de datos i en comparación con otros posibles ejemplos, y una matriz de "disponibilidad", en la que a(i, k) indica cuán "apropiado" sería para el punto de datos i elegir el posible ejemplo k basado en la evidencia de que k también podría ser un ejemplo para otros puntos de datos (Frey y Dueck, "Clustering bypassing messages between data points" Science (2007) 315:972-976). El número de ejemplos identificados se convierte entonces en el número de grupos, y cada punto de datos no ejemplar se asigna a un ejemplo.

Para determinar si el grupo basado en los resultados de reparación condujo a particiones similares a las correspondientes a los marcadores de secuencia espaciadora, se empleó el Índice de Rand Ajustado (ARI) (Hubert y Arabie, "Comparing partitions" Journal of Classification (1985) 2:193-218.). Dada una partición U de "datos reales" de un conjunto de puntos de datos marcados y una partición V observada, el Índice Rand (RI, de sus siglas en inglés) (Rand, "Objective criteria for the evaluation of clustering methods" Journal of the American Statistical Association 66:846-850) es la fracción de pares de puntos de datos que son concordantes entre U y V (es decir, divididos juntos en U y divididos juntos en V, o en diferentes particiones en U y en diferentes particiones en V). El ARI es una versión del RI que se corrige según las expectativas bajo aleatoriedad, de modo que un ARI de 0 indica que la pertenencia a la partición de V es aleatoria y un ARI de 1 indica que la pertenencia a la partición de V coincide perfectamente con la de U. Para obtener una explicación detallada y una demostración, véase la Información complementaria de (Yeung y Ruzzo, "Principal component analysis for clustering gene expression data" Bioinformatics (2001) 17:763-774).

Las siguientes figuras muestran datos y resultados de los ejemplos en el presente documento:

Las Figuras 1A-1C representan el perfil de resultados de reparación de ADN después de la escisión mediante Cas9. Figura 1A: (i), Flujo de trabajo de edición de células. (ii) Secuenciación de las etapas de la biblioteca. (iii) Visualización de la clase Indel después de la escisión mediante Cas9 en una diana (SEQ ID NO: 624) en JAK1 (Espaciador 54, Tabla 1). La posición de cada clase de inserción y clase de eliminación se traza en relación con el sitio de corte. A lo largo del texto, las visualizaciones indel se anotan de la siguiente manera: (derecha) cada clase se anota con frecuencia (fracción de lecturas totales y fracción de lecturas mutantes) y el número de lecturas observadas. Las clases se clasifican mediante frecuencia (no se muestran las clases con frecuencia < 0,01 (fracción de lecturas mutantes)). Figura 1B: Visualización de las cinco clases indel más frecuentes y de tipo silvestre (TS) en la misma diana en tres líneas celulares (se muestra la primera réplica (R1) de cada una). Figura 1C: Una matriz cromática de frecuencia indel por longitud para cada línea celular (se muestran tres repeticiones y control TS). A lo largo del texto, las matrices cromáticas se anotan de la siguiente manera: se muestran inserciones de 1 a 8 nucleótidos. Las inserciones de bases individuales están separadas por nucleótidos (A, T, C, G). Se muestran longitudes de eliminación de 1 a 50 nucleótidos. La intensidad del color se escala con frecuencia como una fracción de lecturas mutantes de hasta 0,2. El gráfico de barras de la derecha muestra la frecuencia media de cada indel 1. El gráfico de barras anterior muestra la eficacia de edición ("Efi. Edic.") como una fracción de las lecturas totales.

Las Figuras 2A-2C muestran que los perfiles de reparación de ADN son únicos para cada secuencia espaciadora. Figuras 2A y 2B: Una matriz de la similitud (Jaccard/Tanimoto) de las diez mejores clases indel en pares de 69 sitios diana en las líneas celulares HEK293, K562 y HCT116 que compara la administración de reactivos solo RNPgu (Figura 2A) y RNPgu y administración constitutiva de reactivos (Figura 2B). Las dianas con el mismo marcador espaciador (dentro de las marcas) son diferentes réplicas experimentales de cada tipo de célula dirigida por el mismo ARNgu. Una puntuación de similitud de 1 representa la superposición completa de las diez mejores clases de indel entre dos sitios, mientras que 0 representa ninguna superposición de las diez mejores clases de indel entre dos sitios. Figura 2C: Valores del índice Rand ajustados (ARI, de sus siglas en inglés) del análisis de grupos (véanse los ejemplos) de la Figura 2A y la Figura 2B.

Las Figuras 3A-3F muestran los resultados de un experimento que utiliza secuencias de espaciador único de diana múltiple (MTSS) y muestran que los resultados de reparación de ADN en las DSB mediadas por Cas9 dependen de la secuencia. Figura 3A: Coordenadas genómicas (hg38) que contienen copias exactas de la secuencia espaciadora 15 (SEQ ID NO: 649). Figura 3B: Una matriz cromática de las frecuencias de indeles por longitud para las siete dianas enumerados en la Figura 3A de experimentos replicados más controles de tipo silvestre (TS) 48 horas después de la nucleofección en células HEK293. Figura 3C: Una matriz cromática de las frecuencias de indeles por longitud en células HEK293 para 22 grupos espaciadores diferentes (indicados en recuadros grises). Cada secuencia diana ocurre en 2-14 veces en el genoma. Para cada sitio diana dentro de cada grupo espaciador, se muestran tres réplicas experimentales y un control TS (dentro de las marcas menores). Figura 3D: Una matriz cromática de las frecuencias de indeles por longitud en células K562 para los mismos 22 grupos espaciadores (indicados en recuadros grises) como se describe en la Figura 3C. Figuras 3E y 3F: Una matriz de la similitud (Jaccard/Tanimoto) de las diez mejores clases indel en pares de sitios diana en las células HEK293 (Figura 3E) y las células K562 (Figura 3F). Las dianas con el mismo marcador espaciador (dentro de las marcas) son diferentes loci genómicos dirigidos por el mismo ARNgu. Se muestran los valores de ARI del análisis de grupos posterior.

Las Figuras 4A-4I muestran que la distribución de resultados de reparación de ADN después de la escisión mediante Cas9 cambia con el tiempo. Figura 4A: Matriz cromática de resultados de reparación de ADN en células HEK293 para 96 espaciadores diferentes, cada uno con tres réplicas experimentales para múltiples puntos temporales (4, 8, 16, 24 y 48 horas) y un control de tipo silvestre (dentro de las marcas menores). Figuras 4B y 4F: Matrices cromáticas para el espaciador indicado (Figura 4B: espaciador 13; Figura 4F: espaciador 54) que muestran experimentos individuales en cada punto temporal para tres líneas celulares. Figuras 4C y 4G: Gráficos de barras de frecuencias indel por longitud para el espaciador indicado (Figura 4C: espaciador 13; Figura 4G: espaciador 54) mostrados como una fracción de lecturas mutantes (desviación media y estándar entre triplicados) en tres líneas celulares en el punto temporal de 48 horas. Figuras 4D y 4H: Una matriz cromática del espaciador 13 (Figura 4D) o espaciador 54 (Figura 4H) que muestra experimentos individuales en cada punto temporal para tres líneas celulares después de aplicar una máscara de microhomología estricta (puntuación MH > 3, véase la Figura 12D). Figuras 4E y 4I: Gráfico de barras de frecuencias indel por longitud que se muestra como una fracción de lecturas mutantes (desviación media y estándar entre triplicados) en el punto temporal de 48 horas para el espaciador 13 (Figura 4E) o el espaciador 54 (Figura 4I) después de aplicar una máscara de microhomología estricta MH_puntuación > 3).

Las Figuras 5A-5D muestran que la perturbación química de c-NHEJ promueve un subconjunto de resultados de reparación de ADN después de la escisión mediante Cas9. Figura 5A: Matriz cromática que representa las clases de reparación de ADN se presenta 48 horas después de la introducción de RNPgu en las células HEK293T (Espaciador 93, Tabla 1). Las células se trataron con el inhibidor de ADN-PK NU7441 Leahy y col., "Identification of a highly potent and selective DNA-dependent protein kinase (DNA-PK) inhibitor (NU7441) by screening of chromenone libraries" Bioorg. Med. Chem. Lett. (2004) 14:6083-6087) en una serie de dilución de 2 veces que oscilaba entre 1,56 jM y 25 |jM. Cada concentración se realizó por duplicado. Las réplicas de control no tratadas se muestran a la derecha. Los gráficos de frecuencia media se muestran a la izquierda comparando muestras no tratadas con muestras tratadas con el inhibidor de ADN-PK NU7441 (se muestra la frecuencia media promedio de toda la serie de dilución 1,56 jM-25 jM ). Las flechas indican las clases de reparación que cambian la frecuencia después del tratamiento con NU7441 (la flecha hacia abajo indica una disminución en la frecuencia media en presencia de inhibidor, la flecha hacia arriba indica un aumento en la frecuencia media en presencia de inhibidor). Figura 5B: Visualización de las cinco clases indel más frecuentes y de tipo silvestre (TS) en la misma diana que se muestra en la Figura 5A (se muestra la primera réplica (R1) de cada una). Se muestran las concentraciones de inhibidor NU7441 1,56, 3,13 y 6,25 jM . Figura 5C: Igual que en la Figura 5A para el espaciador diana 54 (Tabla 1). Figura 5D: Igual que en la Figura 5B para el espaciador diana 54.

Las Figuras 6A-6E muestran una mutación en marco de alta frecuencia después de la escisión mediante Cas9 de una diana en CD34. Figura 6A: Ubicación genómica (coordenadas hg19; SEQ ID NOS: 625 y 626) de una diana en el gen CD34 con el motivo adyacente al protoespaciador (PAM) y el sitio de corte Cas9 indicado por una flecha. Toda la secuencia del protoespaciador está encuadrada (Espaciador 16 en la Tabla 1). La eliminación de la secuencia de tres nucleótidos, TTG, sombreada, es la indel más frecuente después de la administración de RNPgu o la expresión constitutiva de ARNgu para dirigir la actividad de escisión mediante Cas9 a este sitio. Figura 6B: Una visualización de un subconjunto de las clases indel (las cinco más frecuentes) y de tipo silvestre (TS) en la diana CD34 en tres líneas celulares diferentes usando la administración de RNPgu y en dos líneas celulares diferentes para la expresión constitutiva de Cas9/ARNgu como se indica en a la izquierda (se muestra una sola réplica de cada uno). Figura 6C: Matriz cromática de las frecuencias de indeles por longitud en la diana CD34 en las líneas celulares HEK293, K562 y HCT116 (tres réplicas experimentales de cada una y un control TS) 48 horas después de la administración con RNPgu. Figura 6D: Matriz cromática de las frecuencias de indeles por longitud en la diana CD34 en las líneas celulares HEK293 y HCT116 11 y 14 días después de la expresión constitutiva de Cas9/ARNgu (réplica única de dos puntos temporales diferentes y un control TS (solo Cas9)). Figura 6E: Gráfico de barras de las frecuencias indel por longitud que se muestra como una fracción de lecturas mutantes (desviación media y estándar en tres réplicas experimentales) en tres líneas celulares 48 horas después de la administración de RNPgu.

Las Figuras 7A-7F muestran que el perfil de resultados de reparación de ADN en líneas celulares es predictivo para células primarias humanas. El resultado de reparación de ADN después de la escisión de una diana BRCA2 da como resultado dos productos dominantes. Figura 7A: Ubicación genómica (coordenadas hg19) de una diana en el gen BRCA2 (SEQ ID NOS: 627 y 628); PAM, encuadrada en gris claro; protoespaciador, recuadro gris. El sitio de corte Cas9 se indica con una flecha. Toda la secuencia del protoespaciador está encuadrada en gris (Espaciador 19 en la Tabla 1). La eliminación de la secuencia de cuatro nucleótidos, sombreada, y una única inserción de nucleótidos representan los indeles más frecuentes después de la escisión mediante Cas9. Figura 7B: Visualización de un subconjunto (las cinco más frecuentes) de las clases indel y de tipo silvestre (TS) en la diana BRCA2 en tres líneas celulares diferentes y células madre hematopoyéticas (HSC) para RNPgu y tres líneas celulares diferentes para la expresión constitutiva de Cas9/ARNgu como se indica a la izquierda (se muestra una única réplica de cada uno). Figuras 7C y 7D: Matrices cromáticas de las frecuencias de indeles por longitud en la diana BRCA2 en varios tipos de células (tres réplicas experimentales y un control TS) 48 horas después de la administración con RNPgu (Figura 7C) u 11 y 14 días después de la expresión constitutiva de Cas9/ARNgu (Figura 7D). Figura 7E: Gráfico de barras de las frecuencias indel por longitud que se muestra como una fracción de lecturas mutantes (desviación media y estándar en tres réplicas experimentales) en tres líneas celulares y HSC 48 horas después de la administración de RNPgu. Figura 7F: Uso de perfiles de reparación de ADN para restaurar el marco de lectura de alelos mutantes específicos de BRCA2. 1. Locus BRCA2 de tipo silvestre (coordenadas hg19; (SEQ ID NOS: 627 y 628). 2. Secuencia del alelo mutante BRCA2 (dbSNP ID: 80359550; (SEQ ID NOS: 629 y 630) sin un nucleótido "C" que desplaza el marco de BRCA2 dando como resultado un codón de parada prematura (recuadro con asterisco). 3. Ubicación genómica de un sitio diana en el alelo mutante BRCA2 que se muestra en (2) con el motivo adyacente al protoespaciador (PAM) encuadrado en gris claro y el sitio de corte Cas9 indicado por una flecha. Toda la secuencia del protoespaciador está encuadrada en gris. 4. Una inserción de un solo nucleótido después de la escisión mediante Cas9 (SEQ ID NOS: 631 y 632) en el sitio diana que se muestra en (3) restauraría el marco del alelo mutante BRCA2. Dependiendo del nucleótido que se insertó durante la reacción de reparación de ADN, el quinto aminoácido de la izquierda sería una Fenilalanina, Isoleucina, Valina o Leucina (TS). 5. Secuencia de un alelo mutante BRCA2 (dbSNP ID: 397507830; SEQ ID NOS: 633 y 634) que contiene una duplicación de "CTTA" que da como resultado un cambio de marco y un codón de parada prematura (recuadro con asterisco). 6. Ubicación genómica de un sitio diana en el alelo mutante BRCA2 que se muestra en (5) con el motivo adyacente al protoespaciador (PAM) encuadrado en gris claro y el sitio de corte Cas9 indicado por una flecha. Toda la secuencia del protoespaciador está encuadrada en gris.

7. Una eliminación de cuatro bases después de la escisión mediante Cas9 en el sitio diana que se muestra en (6) restauraría el marco del alelo mutante BRCA2 (SEQ ID NOS: 635 y 636). El alelo resultante diferiría del alelo TS por un solo aminoácido (Leucina en lugar de una Treonina, cuarto aminoácido de la izquierda).

Las Figuras 8A-8E muestran que los resultados de reparación de ADN son similares en comparación con las réplicas y los procedimientos de administración de reactivos en una diana JAK1. Figura 8A: Ubicación genómica (coordenadas hg19; SEQ ID NOS: 637 y 638) de una diana en el gen JAK1 con el motivo adyacente al protoespaciador (PAM) recuadrado en gris claro y el sitio de corte Cas9 indicado por una flecha. Toda la secuencia del protoespaciador está encuadrada en gris. Este es la misma diana que se muestra en la Figura 1 (Espaciador 54 en la Tabla 1). Figura 8B: Una visualización de un subconjunto de las clases indel (las cinco más frecuentes) y de tipo silvestre (TS) en la diana JAK1 comparando tres réplicas experimentales en células HEK293, como se indica a la izquierda, 48 horas después de la administración de RNPgu. Figura 8C: Una matriz cromática de las frecuencias de indeles por longitud en la diana JAK1 de las mismas tres réplicas experimentales y un control TS en HEK293. Figura 8D: Una visualización de un subconjunto de las clases indel (las cinco más frecuentes) y de tipo silvestre (TS) en la diana JAK1 comparando las líneas celulares HEK293, K562 y HCT116, como se indica a la izquierda, 14 días después de la expresión constitutiva de Cas9/ARNgu. Figura 8E: Una matriz cromática de las frecuencias de indeles por longitud en la diana JAK1 (tres réplicas y un control TS) en las líneas celulares HEK293, K562 y HCT11648 horas después de la administración de RNPgu en comparación con 11 y 14 días después de la expresión constitutiva de Cas9/ARNgu en las mismas líneas celulares parentales (más control TS (solo Cas9)).

Las Figuras 9A-9F muestran que los perfiles de reparación de ADN son únicos para cada diana. Figura 9A: Ubicación genómica de una diana en el gen XRCC5 (SEQ ID NOS: 639 y 640) con el motivo adyacente al protoespaciador (PAM) encuadrado en gris claro y sitio de corte Cas9 indicado por una flecha (espaciador 51 en la Tabla 1). Figura 9B: Ubicación genómica de una diana en el gen JAK3 (SEQ ID NOS: 641 y 642); (Espaciador 66 en la Tabla 1). Figura 9C: Visualización de un subconjunto de las clases indel (las cinco más frecuentes) y de tipo silvestre (TS) en la diana XRCC5 comparando las líneas celulares HEK293, K562 y HCT116 para ambos RNPgu y 14 días después de la expresión constitutiva de Cas9/ARNgu, como se indica en la izquierda (se muestra una sola réplica de cada uno). Figura 9D: Una matriz cromática de las frecuencias de indeles por longitud en la diana XRCC5 (tres réplicas experimentales y un control TS) en las líneas celulares HEK293, K562 y HCT116 48 horas después de la administración de RNPgu en comparación con 11 y 14 días después de la expresión constitutiva de Cas9/ARNgu en las mismas líneas celulares parentales (Lenti) más control TS (solo Cas9)). Figuras 9E y 9F: igual que las Figuras 9C y 9D en la diana JAK3.

Las Figuras 10A y 10B muestran visualizaciones de resultados de reparación de ADN en siete sitios en el genoma humano con la misma secuencia espaciadora. Figura 10A: Visualización de un subconjunto (los cinco más frecuentes) de las clases indel y de tipo silvestre (TS) para siete sitios en el grupo espaciador 15 en HEK293 (15a-15 g), como se indica a la izquierda (se muestra una sola réplica de cada uno). Las coordenadas genómicas para cada sitio se describen en la Figura 3A. La visualización de la matriz cromática correspondiente de la distribución indel para cada sitio se muestra en la Figura 3B. Figura 10B: Visualización de las cinco clases indel más frecuentes para los controles espaciadores 15 TS (sin editar) en los sitios a y e en HEK293 (relacionado con las Figuras 3A y 3B). Cada clase expresada como una fracción de las lecturas mutantes. El número de lecturas atribuidas a cada clase se muestra en la segunda columna a la derecha. El pequeño número de lecturas que contienen indeles en los controles TS se atribuyen a errores de secuencia.

Las Figuras 11A-11D muestran que los resultados de reparación de ADN son más similares dentro de los grupos espaciadores que entre los grupos espaciadores. Figuras 11A y 11B: Una matriz de la similitud (Jaccard/Tanimoto) de las clases indel con una frecuencia > 0,01 (como fracción de lecturas mutantes) a través de pares de sitios diana en células HEK293 (Figura 11A) y células K562 (Figura 11B). Los marcadores de grupo espaciador se indican en los ejes horizontal y vertical. Las dianas con el mismo marcador espaciador (dentro de las marcas menores) indican diferentes loci genómicos dirigidos por el mismo ARNgu (Espaciador único de diana múltiple (MTSS). Un valor de 1 representa la superposición completa de las diez mejores clases de indel entre dos sitios. Un valor de 0 representa ninguna superposición de las diez mejores clases de indel entre dos sitios. Figura 11C: Análisis de grupos de los 127 sitios diana mediante resultados de reparación de ADN utilizando la matriz de similitud Jaccard como entrada para la agrupación de Propagación de afinidad (AP, de sus siglas en inglés). La pertenencia al grupo "datos reales", en el que las dianas se organizan simplemente mediante el marcador de grupo espaciador, se muestra en la columna izquierda. La pertenencia al grupo resultante del análisis de grupos de resultados de reparación de ADN para las células HEK293 y K562 se muestra en las columnas central y derecha, respectivamente. Cada sitio diana se muestra como su marcador espaciador (1-22). El número de sitios por grupo espaciador es el número de puntos en cada celda de la columna de datos reales. Figura 11D: Las puntuaciones de ARI se calculan en función de la superposición por pares y la agrupación de los 10 mejores indeles o clasificados por frecuencia para los 127 sitios espaciadores.

Las Figuras 12A-12D muestran que la microhomología no explica completamente la similitud de resultados de reparación de ADN dentro de los grupos espaciadores. Figura 12A: Una matriz de la similitud (Jaccard/Tanimoto) de las diez mejores clases indel en pares de sitios diana en las líneas celulares HEK293. Los marcadores de grupo espaciador se indican en los ejes superior e izquierdo. Las dianas con el mismo marcador espaciador (dentro de las marcas menores) indican diferentes loci genómicos dirigidos por el mismo ARNgu (Espaciador único de diana múltiple (MTSS). Un valor de 1 representa la superposición completa de las diez mejores clases de indel entre dos sitios. Un valor de 0 representa ninguna superposición de las diez mejores clases de indel entre dos sitios. Se aplicaron máscaras de microhomología con rigurosidad variable como se indica a la derecha de cada matriz (véase Figura 12D) para más detalles). Figura 12B: igual que en la figura 12A para K562. Figura 12C: Las puntuaciones de ARI calculadas se basan en la superposición por pares y la agrupación de las 10 indeles principales para los 127 sitios espaciadores con y sin máscaras de microhomología (véase Figura 12D). Figura 12D: Definición de máscaras de microhomología.

Las Figuras 13A-13B muestran datos de curso temporal de RNPgu de células K562 y HCT116 para 96 sitios diana. Figura 13A: Matriz cromática de resultados de reparación de ADN en células K562 para 96 espaciadores diferentes. Para cada espaciador, se muestran cinco puntos temporales en cada una de las tres réplicas experimentales y un control de tipo silvestre (4, 8, 16, 24 y 48 horas) para un total de 16 puntos de datos por espaciador (dentro de las marcas menores). Los sitios diana se organizan en función de los resultados de la agrupación jerárquica (los sitios diana que se muestran para HEK293 en la Figura 4A están dispuestos en el mismo orden). Figura 13B: Igual que en la Figura 13A para HCT116. Los sitios diana están dispuestos en el mismo orden que en las Figuras 13A y 4A. Los zoom de espaciadores individuales en esta serie se muestran en las Figuras 4 y 14.

Las Figuras 14A-14L muestran que la distribución de resultados de reparación de ADN después de la escisión mediante Cas9 cambia con el tiempo de forma dependiente del tipo de célula. Figuras 14A, l4E y 14I: Zooms de matrices cromáticas para el espaciador indicado (Figura 14A: espaciador 1; Figura 14E: espaciador 51; Figura 14I: espaciador 66) que muestran réplicas individuales en cada punto temporal para tres líneas celulares. (Figuras 14B, 14F y 14J) Gráficos de barras de frecuencias indel por longitud para el espaciador indicado (Figura 14B: espaciador 1; Figura 14F: espaciador 51; Figura 14J: espaciador 66) mostrados como una fracción de lecturas mutantes (desviación media y estándar entre triplicados) en tres líneas celulares en el punto temporal de 48 horas. Resultados de reparación de ADN para tres espaciadores con una máscara computacional de deleciones de microhomología (Figuras 14C y 14D; Figuras 14G y 14H; Figuras 14K y 14L) (véase Figura 12D). Figuras 14C, 14G y 14K: Zooms de matrices cromáticas para el espaciador indicado (Figura 14C: espaciador 1; Figura 14G: espaciador 51; Figura 14K: espaciador 66) que muestra réplicas individuales de cada punto temporal comparando tres tipos de células después de aplicar una estricta máscara computacional de deleciones de microhomología (puntuación de MH > 3). Figuras 14D, 14H y 14L: Gráficos de barras de frecuencias indel por longitud para el espaciador indicado (Figura 14D: espaciador 1; Figura 14H: espaciador 51; Figura 14L: espaciador 66) mostrado como una fracción de lecturas mutantes (desviación media y estándar entre triplicados) en tres líneas celulares en el punto temporal de 48 horas después de aplicar una máscara computacional estricta de eliminaciones de microhomología (puntuación de MH > 3).

Ejemplo 1

Resultados de reparación de ADN en roturas mediadas por Cas9

Los resultados de reparación después de la escisión mediante Cas9 del ADN bicatenario, que da como resultado productos finales romos, (Gasiunas y col., "Cas9-ARNcr ribonucleoprotein complex mediates specific DNA cleavage for adaptive immunity in bacteria" Proc. Natl. Acad. Sci. U.S.A. (2012) 109:E2579-86; Jinek y col., "A programmable dual-RNA-guided d Na endonuclease in adaptive bacterial immunity", Science (2012) 337:816-821), se perfilaron utilizando herramientas computacionales desarrolladas para clasificar las indeles del ensayo basado en células. Los resultados se muestran en las Figuras 1A-1C.

Con este fin, las células HEK293 se transfectaron con complejos preensamblados de proteína Cas9 y ARNgu (complejos de ribonucleoproteína de ARN de guía única (RNPgu)) (Lin y col., "Enhanced homology-directed human genome engineering by controlled timing of CRISPR/Cas9 delivery" Elife (2014) 3:e04766.2014; Schumann y col., "Generation of knock- in primary human T cells using Cas9 ribonucleoproteins" Proc. Natl. Acad. Sci. U.S.A.(2015) 112:10437-10442). Los patrones de reparación de ADN después de la escisión mediante Cas9 se analizaron mediante secuenciación de amplicones (Figura 1A). Las lecturas de secuenciación se asignaron a una clase indel específica en función del tipo indel (inserción o eliminación), el sitio de inicio y la longitud (o la clase de tipo silvestre), y luego la frecuencia de cada clase se calculó como una fracción de lecturas alineadas o como una fracción de lecturas mutantes (véase, Figura 1A). Se capturó un intervalo de 50 pares de bases a cada lado del sitio de corte Cas9 para todas las dianas, que define el intervalo dentro del cual se monitorizó la distribución de resultados de reparación de ADN. Sorprendentemente, las identidades y frecuencias de clases indel específicas fueron similares entre réplicas experimentales independientes, y esta reproducibilidad se extendió a las coordenadas específicas de inicio y finalización para cada clase (Figuras 8B, 8C). Además, las clases indel de mayor frecuencia también se conservaron cuando el mismo sitio se cortó en tres líneas celulares diferentes (HCT116, HEK293, K562; Figura 1B). Sin embargo, las frecuencias relativas de esas clases no eran idénticas entre las líneas celulares. Las células HCT116 mostraron una mayor frecuencia de inserción de una sola base de adenina y una menor frecuencia de una eliminación de 19 pares de bases en comparación con las líneas celulares HEK293 o K562 como una fracción de ediciones totales. HCT116 es una línea celular deficiente de reparación de desapareamientos y este atributo podría contribuir al patrón observado, potencialmente a través de la falta de reclutamiento de Exo1 en las DSB (De las Alas y col., "Loss of DNA mismatch repair: effects on the rate of mutation to drug resistance" J. Natl. Cancer Inst. (1997) 89:1537-1541; Goellner y col., "Exonuclease 1-dependent and independent mismatch repair" DNA Repair (2015) 32:24-32).

A continuación, se evaluaron resultados de reparación de ADN en los mismos sitios diana espaciadores mediante la administración de ARNgu a través de la transducción lentivírica en células que expresan Cas9 constitutivamente (Zhou y col., "High-throughput screening of a CRISPR/Cas9 library for functional genomics in human cells" Nature (2014) 509:487-491; Wang y col., "Genetic screens in human cells using the CRISPR-Cas9 system" Science (2014) 343:80-84). Los resultados de reparación de ADN se midieron en un momento posterior en los experimentos de administración lentivírica que en los experimentos de administración de RNPgu (11 y 14 días después de la administración en comparación con las 48 horas posteriores a la administración) para medir lo que constituía un perfil de reparación de ADN maduro y cuándo se logró este perfil en cada procedimiento de administración. Las RNPgu son transitorias y son metabolizadas por la célula; mientras que la expresión constitutiva de Cas9 y ARNgu proporciona un entorno en el que un sitio diana puede volver a dividirse hasta que se logre un resultado de edición que evite un mayor corte de la diana.

Los resultados de reparación se cuantificaron para determinar si los resultados de una diana espaciadora (en todas las réplicas, tipos de células y procedimientos de administración de reactivos) eran más similares entre sí que a los resultados de reparación de las muestras correspondientes a una diana espaciadora diferente de un conjunto de 69 espaciadores. Primero, se generó una matriz de similitud en los resultados de reparación de ADN entre todos los pares de muestras, usando la similitud Jaccard/Tanimoto (Figuras 2A-2C). Se puntuaron las 10 principales indeles para cada uno de los 69 loci genómicos (en una lista binaria de posibles indeles) y la superposición en esta lista se comparó por pares en todos los loci (Figuras 2A-2C). El paisaje de las clases indel fue consistente en un sitio individual cuando se comparó a través de réplicas, tipos de células y procedimientos de administración de reactivos (puntuación de similitud media Jaccard/Tanimoto de 0,70 /- 0,06 (véanse, Figuras 6-9). Por el contrario, cuando se compararon resultados de reparación de ADN en diferentes sitios diana espaciadores, el paisaje de las clases indel no fueron consistentes (puntuación de similitud madia de 0,09 /- 0,03) (Figuras 5, 6, 8 y 9). Las muestras correspondientes a la misma secuencia diana tuvieron puntuaciones de similitud más altas, lo que indica una mayor superposición en paisajes de indeles, que las muestras correspondientes a diferentes secuencias diana (Figuras 2a , 2B, a lo largo de la diagonal). Además, el análisis de grupos (a través del grupo de Propagación de afinidad) se aplicó a la matriz de similitud indel para dividir las muestras mediante la reparación de la similitud de resultados (sin hacer referencia a los marcadores espaciadores) y la pertenencia del grupo resultante se comparó con el de "datos reales" en el que las muestras simplemente se agruparon mediante el marcador espaciador. Se alcanzó un valor de ARI (Índice de Rand Ajustado) de 0,92 para la administración solo de RNPgu y se alcanzó un valor de ARI de 0,76 cuando se combinaron la administración de RNPgu y lentivirus (Figura 2C) (Un valor de ARI de 1 indica que el grupo observado coincide perfectamente con el de datos reales, mientras que un valor de ARI de 0 indica una distribución aleatoria de marcadores en el grupo observado). Estas estadísticas de similitud corroboran fuertemente las visualizaciones de la matriz cromática e indican que cada secuencia diana tiene un paisaje indel de reparación de ADN característico.

Por lo tanto, los resultados de reparación de ADN en las roturas mediante Cas9 no son aleatorios y son únicos para cada diana.

Ejemplo 2

Características de reparación de ADN después de la escisión mediante Cas9

Los patrones característicos de resultados de reparación de ADN observados para diferentes secuencias diana podrían ser consecuencia de factores dependientes de la secuencia o dependientes del contexto genómico. Para distinguir entre la dependencia de la secuencia y del contexto, se diseñaron una serie de ARNgu de modo que la secuencia espaciadora de cada ARNgu coincidiera perfectamente con múltiples ubicaciones en el genoma humano (espaciador único de diana múltiple; MTSS), mientras que las secuencias que flanquean el protoespaciador aseguraron que cada uno de estos sitios podrían amplificarse únicamente mediante PCR (Tablas 3; 4A; y 4B). Se seleccionaron veintidós secuencias espaciadoras que cumplían con estos criterios; cada una de las secuencias diana se produce 2-14 veces en el genoma, proporcionando un total de 127 sitios para el análisis (Figuras 3A-3F). De acuerdo con las observaciones iniciales, se conservaron patrones distintos de las clases indel de frecuencia más alta a través de réplicas experimentales en cada uno de los sitios individuales (Figuras 3B, 10A). Además, los patrones de reparación de ADN en cada uno de los sitios diana de la misma secuencia espaciadora fueron sorprendentemente similares entre sí. Por ejemplo, el "espaciador 15" se dirige a siete sitios en el genoma que pueden amplificarse de manera única; para cada uno de estos sitios, dos resultados de reparación dominantes, una sola inserción de "A" y una eliminación de base única, comprenden un 53-67 % del total de los eventos de reparación observados. Además, se observaron eventos de reparación menos frecuentes pero reproducibles que dan como resultado deleciones de 8 y 10 pares de bases y una inserción de 2 pares de bases (Figuras 3B, 10A). Además, para todos los sitios diana para una secuencia espaciadora dada, también se observó el mismo patrón en diferentes tipos de células (Figuras 3C-3D). Las eficacias de edición relativas fueron diferentes entre sitios del mismo grupo espaciador y entre el mismo sitio comparando entre tipos de células; sin embargo, el patrón general de resultados de reparación de ADN fue el mismo. La distribución de las frecuencias medias indel por longitud en todas las muestras en los veintidós grupos espaciadores fue casi idéntica en comparación con diferentes tipos de células (Figuras 3C-3D (distribuciones derechas)). Se utilizaron los mismos procedimientos descritos anteriormente para evaluar si los resultados de reparación de los sitios diana genómicos de un grupo espaciador eran más similares entre sí que los resultados de reparación de los sitios diana genómicos de los otros 21 grupos espaciadores (Figuras 3E, 3F, 11A, 11B). Los loci genómicos correspondientes a la misma secuencia espaciadora tuvieron puntuaciones de similitud más altas, lo que indica una mayor superposición en paisajes de indeles, que los sitios diana genómicos correspondientes a diferentes secuencias espaciadoras (Figuras 3E-3F, a lo largo de la diagonal).

El análisis de grupos se aplicó a la matriz de similitud indel para dividir los 127 loci mediante la similitud del resultado de reparación, y se obtuvo un valor de ARI de 0,87 para las líneas celulares HEK293 y K562 a partir de este análisis que indica que los resultados de reparación en sitios con la misma secuencia diana ubicada en diversas regiones del genoma son más similares entre sí que con los resultados de reparación resultantes de diferentes ARNgu (Figura 11D). Se obtuvieron resultados comparables cuando se usó un umbral basado en la frecuencia de indel en lugar de un umbral basado en el rango para puntuar indeles (Figuras 11A-11B, 11D). Estos análisis computacionales demuestran que los resultados de reparación en los sitios diana se agrupan principalmente dentro de grupos espaciadores. Hubo un pequeño número de casos en los que las muestras correspondientes al mismo grupo espaciador se dividieron en múltiples grupos o se agruparon con muestras correspondientes a otros grupos espaciadores (por ejemplo, grupos 12 y 14 de HEK293, y grupos 2 y 5 de K562 (Figura 11C)). En el caso del grupo espaciador 2, hubo diferencias de secuencia en 5' de la secuencia dina de tal manera que una región de microhomología estaba presente en el sitio 1 pero no en el sitio 2, coincidiendo con una eliminación de 12 pares de bases en el sitio 1 pero no en el sitio 2. Tomados en conjunto, estos hallazgos evidencian firmemente que los patrones de reparación de ADN observados después de la escisión de RNPgu no son aleatorios y dependen de la secuencia de a Dn en lugar del contexto genómico funcional.

Se ha propuesto que un subconjunto de resultados de eliminación después de la escisión mediante Cas9 se debe a MMEJ en la que ocurre una eliminación reproducible entre regiones de microhomología (Nakade y col., "Microhomology-mediated end-joining-dependent integration of donor DNA in cells and animals using TALENs and CRISPR/Cas9" Nat Commun (2014) 5:5560; Bae y col., "Microhomology-based choice of Cas9 nuclease target sites" Nat. Methods (2014) 11:705-706). Se analizaron los patrones de reparación de ADN del experimento MTSS para determinar si la microhomología podría ser un impulsor de los patrones no aleatorios. Se predijo una puntuación de microhomología (MH) para cada clase de reparación en cada sitio diana (Figura 12D). Las puntuaciones de MH se usaron para filtrar posibles sitios dependientes de MH de los patrones de reparación en varias restricciones. Después del enmascaramiento de MH, los valores de ARI cayeron a un intervalo de 0,66-0,74 dependiendo de la rigurosidad de la máscara de MH, sin embargo, la agrupación fuerte de los 127 loci permaneció indicando que los resultados de reparación de c-NHEJ son una parte sustancial de cada paisaje de reparación (Figura 12C). Además, las matrices de similitud generadas después del enmascaramiento de MH revelaron menos superposición de clase indel entre loci con la misma secuencia espaciadora, pero se mantuvo un patrón fuerte (Figuras 12A-12B). El examen del cambio en el patrón de indel general después del enmascaramiento de MH mostró que se enmascararon las deleciones grandes, lo que respalda la hipótesis de que la formación de deleciones grandes puede depender de MH (Figuras 4, 14). El patrón que permanece después de la máscara de MH más estricta (puntuación > 3, Figura 12D) contiene todas las inserciones y principalmente pequeñas eliminaciones que son específicas de una secuencia espaciadora particular y que probablemente sean el resultado de la reparación de DSB por la maquinaria de c-NHEJ; mientras que, las eliminaciones más grandes son probablemente el resultado de la microhomología y la reparación dependiente de MMEJ. Sin embargo, incluso la máscara de MH computacional más estricta, en la que solo se requieren 1-2 nucleótidos de homología, probablemente solo proporciona una aproximación del paisaje de reparación dependiente de MMEJ. También se debe tener en cuenta que, aunque las eliminaciones más grandes se filtraron utilizando la máscara de MH, las puntuaciones de MH no fueron predictivas para las eliminaciones de frecuencia más altas observadas para un sitio diana dado.

Ejemplo 3

Distribución de resultados de reparación de ADN después de la escisión mediante Cas9

Los resultados de la edición del genoma están determinados por la ruta de reparación de ADN que está comprometida. Estas rutas están, a su vez, influenciadas por la etapa del ciclo celular. La MMEJ se inicia con la resección final en una DSB (Truong y col., "Microhomology-mediated End Joining and Homologous Recombination share the initial end resection step to repair DNA double-strand breaks in mammalian cells" Proc. Natl. Acad. Sci. U.S.A. (2013) 110:7720-7725), una actividad que depende de los niveles de CDK (Huertas y col., "CDK targets Sae2 to control DNA-end resection and homologous recombination" Nature (2008) 455:689-692; Huertas y Jackson, "Human CtIP mediates cell cycle control of DNA end resection and double strand break repair" J. Biol. Chem. (2009) 284:9558-9565). La c-NHEJ, sin embargo, puede operar durante todo el ciclo celular (Aylon y col., "The CDK regulates repair of double-strand breaks by homologous recombination during the cell cycle". (2004) EMBO J. 23:4868-4875; Ira y col., "DNA end resection, homologous recombination and DNA damage checkpoint activation require CDK1" Nature (2004) 431:1011-1017). Dado que el perfil de la matriz cromática y el enmascaramiento de MH podían distinguir entre pequeñas indeles dependientes de c-NHEJ y eliminaciones dependientes de MH, se investigó la evolución de resultados de reparación durante un período de 48 horas. El ADN genómico se recogió 4, 8, 16, 24 y 48 horas después de la nucleofección de las líneas celulares HEK293, K562 y HCT116 editadas con 96 RNPgu diferentes (Figuras 4A, 13A, 13B). La distribución general de las clases de reparación fue similar para las líneas celulares HEK293 y K562 en cada punto temporal, mientras que las frecuencias de inserciones y deleciones más pequeñas fueron relativamente más altas en las células HCT116 (Figuras 4A, 13A, 13B, distribución derecha de frecuencias medias). Por ejemplo, cuando se comparó la distribución de frecuencias indel por longitud para el espaciador 13 entre diferentes líneas celulares recolectadas a las 48 horas, las células HCT116 tenían una frecuencia más baja de eliminaciones de 3 y 8 pares de bases y una frecuencia más alta de inserciones de pares de bases individuales (Figuras 4B-4C). De manera similar, con el espaciador 54, las células HCT116 tenían una frecuencia más baja de eliminaciones de 4 y 19 pares de bases en comparación con las células HEK293 y K562; sin embargo, otras clases de eliminación estaban a frecuencias similares a las observadas en las células HEK293 y K562 (Figuras 4F, 4G). Cuando se aplicó la máscara de MH a estos sitios, desaparecieron las longitudes de deleción con frecuencia diferente en células HCT116 (Figuras 4D, 4E, 4H, 4I).

El análisis del conjunto completo de 96 espaciadores en cada punto temporal reveló un patrón consistente en el que las inserciones de pares de bases individuales y las pequeñas eliminaciones (1-2 pares de bases) eran dominantes en los puntos temporales tempranos (expresados como una fracción de las clases totales) y las eliminaciones más grandes se hicieron más prominentes en momentos posteriores (Figuras 4, 13, 14). Sin embargo, las eliminaciones grandes (> 5 pares de bases) fueron generalmente menos prominentes en las células HCT116 a lo largo del tiempo como una fracción de las clases de reparación total, de acuerdo con el patrón general (Figuras 4, 13, 14). Cuando se aplicó una máscara de MH estricta a los datos del curso temporal, se eliminaron las eliminaciones más grandes que aparecen en los puntos temporales posteriores, lo que indica que al menos un subconjunto de eliminaciones probablemente depende de m H y que el nivel reducido de eliminaciones grandes en HCT116 es potencialmente debido a una deficiencia en MMEJ (Figuras 4D, 4E, 4H, 4I, 14C, 14D, 14G, 14H, 14K, 14L).

Por lo tanto, la distribución de resultados de reparación de ADN después de la escisión mediante Cas9 cambia con el tiempo.

Ejemplo 4

Efecto de la perturbación química de la c-NHEJ después de la escisión mediante Cas9

Para probar la hipótesis de que la supresión de c-NHEJ alteraría los paisajes de reparación de ADN, favoreciendo los resultados de reparación de la MMEJ, se agregó un inhibidor químico de ADN-PK, NU7441, a las células HEK293T una hora después de la nucleofección en una respuesta de dosis de cinco puntos (Leahy y col., "Identification of a highly potent and selective DNA-dependent protein kinase (DNA-PK) inhibitor (NU7441) by screening of chromenone libraries" Bioorg. Med. Chem. Lett. (2004) 14:6083-6087; Robert y col., "Pharmacological inhibition of DNA-PK stimulates Cas9-mediated genome editing" Genome Med (2015) 7:93). El lisado genómico se cosechó 48 horas después de la nucleofección y se procesó como en experimentos anteriores (véase la descripción de la Figura 5A). Los inhibidores químicos de la ruta de c-NHEJ se han usado junto con la administración de Cas9/ARNgu antes (Maruyama y col., "Increasing the efficiency of precise genome editing with CRISPR-Cas9 by inhibition of nonhomologous end joining" Nat. Biotechnol. (2015) 33:538-542; Chu y col., "Increasing the efficiency of homologydirected repair for CRISPR-Cas9-induced precise gene editing in mammalian cells" Nat. Biotechnol. (2015) 33:543-548; Robert y col., "Pharmacological inhibition of DNA-PK stimulates Cas9-mediated genome editing" Genome Med (2015) 7:93); sin embargo, esto fue en el contexto de utilizar una plantilla de donante exógeno e intentar promover la HDR mediante la supresión de la formación de indel mediante c-NHEJ.

A la concentración más baja de inhibidor (1,56 pM), fue evidente un cambio en los patrones de reparación de ADN en 12 sitios diana diferentes en comparación con las muestras no tratadas (Figura 5). A medida que aumentaba la concentración de inhibidor, disminuía la frecuencia media de inserciones de base única y pequeñas deleciones (< 3 pares de bases), mientras que aumentaba la frecuencia media de un subconjunto de deleciones grandes (> 3 pares de bases) presentes en los perfiles de reparación de ADN (Figuras 5A, 5C). Este experimento evidencia que la supresión de c-NHEJ mejora la reparación del ADN por las rutas de MMEJ después de la formación de DSB mediante Cas9. Estos datos también indican que podemos segregar de manera eficaz los eventos de edición de ADN producidos mediante diferentes mecanismos de reparación de ADN mediante perfiles de reparación de ADN y que los perfiles de reparación individuales se pueden modular mediante la supresión o mejora de los componentes individuales de estas rutas. La capacidad de promover un subconjunto de resultados de edición mediante perturbación química, como ya se ha descrito para la HDR, se puede aplicar para corregir un alelo mutante en ausencia de una plantilla de donante (por ejemplo, Figura 7E).

Por lo tanto, la perturbación química de c-NHEJ altera los perfiles de reparación de ADN después de la escisión mediante Cas9.

Ejemplo 5

Predicción del nucleótido insertado con más frecuencia en los sitios diana de Cas9

Uno de los resultados de reparación de ADN más comunes después de la escisión de dianas Cas9 es una inserción de un solo par de bases. Además, las frecuencias con las que se inserta cada nucleótido (A, T, T, C o G) varían ampliamente entre las dianas. Para probar la hipótesis de que los nucleótidos del sitio de corte de la secuencia del protoespaciador pueden predecir qué nucleótido se inserta con mayor frecuencia (Cas9 escinde entre las posiciones 17 y 18 en el protoespaciador), se realizó el siguiente experimento.

Se generó un conjunto de datos de resultados de reparación para 216 sitios diana de Cas9 en células K562. Se realizó un clasificador multiclase utilizando análisis discriminante lineal (James y col., An Introduction to Statistical Learning, Primera edición, 2013, Springer, ISBN 978-1461471370) a través de la biblioteca Python Scikit-learn (Pedregosa y col., "Sckit-learn: Machine Learning in Python" J. Mach. Learn Res. (2011) 12:2825-2830). Para cada sitio diana, el nucleótido de interés del sitio de corte (posición espaciadora 17 o 18) se representó en un vector de características con tres variables indicadoras. El rendimiento predictivo se evaluó utilizando la precisión estratificada, cinco veces validada cruzada (porcentaje de predicciones que eran verdaderos positivos o verdaderos negativos). La precisión inicial se determinó permutando los marcadores de resultado y evaluando el rendimiento.

Usando los procedimientos anteriores, se determinó que el nucleótido del sitio de corte proximal al PAM (posición protoespaciador 18), no era predictivo de qué nucleótido se insertó con mayor frecuencia en las dianas Cas9. La precisión de validación cruzada fue de un 33 % ± 6 % (en comparación con unos valores iniciales de un 29 % ± 7 % cuando se permutaron los marcadores). Sin embargo, el nucleótido de sitio de corte distal al PAM (posición protoespaciador 17), fue altamente predictivo de qué nucleótido se insertó con mayor frecuencia. La precisión con validación cruzada fue de un 83 % ± 4 %. La Figura 15 muestra las frecuencias de inserciones de nucleótidos en función del nucleótido de posición 17 en el protoespaciador.

A continuación, se utilizó la regresión lineal para evaluar el rendimiento del uso del nucleótido de posición 17 para predecir las frecuencias con las que se insertó cada nucleótido. La regresión lineal se realizó a través de la biblioteca Python Scikit-learn (Pedregosa y col., "Sckit-learn: Machine Learning in Python" J. Mach. Learn Res. (2011) 12:2825-2830). El rendimiento predictivo se evaluó utilizando el R2 estratificado, cinco veces con validación cruzada. Los valores de R2 con validación cruzada fueron 0,52 ± 0,12 para la inserción de A ; 0,54 ± 0,13 para la inserción de T; 0,30 ± 0,10 para la inserción de C; y no significativamente diferente de 0 para la inserción de G.

En resumen, el nucleótido de la posición 17 del protoespaciador predice con precisión qué nucleótido se inserta con mayor frecuencia en las dianas Cas9 y también explica porciones sustanciales de la varianza en las frecuencias de inserción de A e inserción de T.

Tabla 2

Secuenciación de cebadores de biblioteca para los espaciadores 1-96 (PCR1)

Secuencia de cebador de ILMN CACTCTTTCCCTACACGACGCTCTTCCGATCTCAGATGCGATGACCTTTGTG GG AGTT CAG ACGT GTGCT CTTCCG AT CT AGTCACCAT G ACG ACAGTGC CACTCTTTCCCTACACGACGCTCTTCGGATCTCAGGTCCCCTAAAATGGGTT GG AGTT CAG ACGT GTGCT CTTCCG AT CTGCTTT ATG GTCCGCT CAGTC CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT CT CACCTTTGGG AAGCAT GT GGAGTTCAGACGTGTGCTCTTCCGATCTAGCTCTGGCACACCCTCTAA CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT cagGTTT G GG ATTTCC AG AG GGAGTTCAGACGTGTGCTCTTCCGATCTCCTGCAAGTGCGCAACAG CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTCCT CAAATTTGG AT CTGGC GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCCCACT AT CTCCTT G ACA CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTT CT G AGCAAG AG AAG GGG A GGAGTTCAGACGTGTGCTCTTCCGATCTctgcAGCAGCAGCAAACT

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTCCT CAAATTTGG AT CTGGC GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCCCACT AT CTCCTT G ACA CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTGCACCCCTTT CAT CT CT CT GGAGTTCAGACGTGTGCTCTTCCGATCTCACCTCTCCTCTTCCTCCCT CACTCTTTCCCTACACGACGCTCTTCCGATCTGAGACTTTCCCCCTTGTTCC GGAGTTCAGACGTGTGCTCTTCCGATCTACAGGCAGAAGGAAAACCCT CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTtGCCGTTT AAAAACATCC AA GGAGTTCAGACGTGTGCTCTTCCGATCTAAGTGGTAGGAAAGCCTCACTG CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AAGG AACCTG G AG ACCAT CA GGAGTTCAGACGTGTGCTCTTCCGATCTGAAAGGCACTGAGTGGGAAG CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTGG AAAG AAACAGCTT G CCTG GGAGTTCAGACGTGTGCTCTTCCGATCTGAAGCCTAGCCTGTCACCTG CACTCTTTCCCTACACG ACG CTCTTCCG ATCTCGTGTTG AAG ACCTGACTG G GG AGTT CAG ACGT GTGCT CTTCCG AT CT CAAT G ACCACAGCAAAG AGC CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AT CT GTCAGCAACCT CACCC GG AGTT CAG ACGT GTGCT CTTCCG AT CT ACTGGCACT CACCTCCCT C CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AACAAG ACCAAGG CACTGCT GGAGTTCAGACGTGTGCTCTTCCGATCTCTCAACCCTGGAGGTCTTTG CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTCCAT GTT G AG ACACAGG GT G GGAGTTCAGACGTGTGCTCTTCCGATCTTCAGGAAATTGCATCAGGTG CACTCTTTCCCTACACGACGCTCTTCCGATCTCAGATGCGATGACCTTTGTG GGAGTTCAGACGTGTGCTCTTCCGATCTGTTCCGACGCTCCTTGAA CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTT CAGT G AAGTGCT GTGG GTC GGAGTTCAGACGTGTGCTCTTCCGATCTTGCCAATTTAAGAGAACGGG CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTGG GTCGTCAG ACACCAAAAC GG AGTT CAG ACGT GTGCT CTTCCG AT CT CAACCT CAT CTGCT CTTT CTT G CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTT CT G AGCAAG AG AAG GGG A GGAGTTCAGACGTGTGCTCTTCCGATCTCCGGGTTCTGGATCACTTC (continuación)

Secuencia de cebador de ILMN

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AGG G AGCAT GTGTGTGT G AG GGAGTTCAGACGTGTGCTCTTCCGATCTGGAAGTCCTTCCCATGCTT C CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTCCCTTTTT CACACCTTTCC GGAGTTCAGACGTGTGCT CTTCCGATCTCTGTCGCTGTACAAACATGG CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTTCCACAAAGGG AG ATCAG C GGAGTTCAGACGTGTGCTCTTCCGATCTTTGCCTTTCATTGCACACTC CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTTCCAT AGGCCATT CT CT CT C

GGAGTTCAGACGTGTGCTCTTCCGATCTGCTGCCTCACAAACTTCACA

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AGG CAGCCACT G ACATT CTT

GGAGTTCAGACGTGTGCTCTTCCGATCTGGGGTTGTCTTCATTGGTGA

CACTCTTTCCCTACACGACGCTCTTCCGATCTTGCGCATGCTCAGAGTTC

GGAGTTCAGACGTGTGCTCTTCCGATCTCCAAGTCCATGGCTTTCTTT

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTT G AGTTTGG AGG AGCATTT G

GGAGTTCAGACGT GTGCTCTTCCGATCTCAAT GAGAAATGCCT GTGGA

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT CAGTGG GGG AAG ACT G AT GT

GGAGTTCAGACGTGTGCTCTTCCGATCTCCGCAAACCTGAGATAGCAT

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AGTCAGG ACTTCCCCACCTT

GGAGTTCAGACGTGTGCTCTTCCGATCTTGGTTCTACATCCCGAGGAG

CACTCTTTCCCTACACGACGCTCTTCCGATCTGACTCCCTCTGGTTCTGTGG

GGAGTTCAGACGT GTGCTCTTCCGATCT GATGCCAAAAAGAGGCT GAC

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AG AAGTCCAG CTCCGCAC

GGAGTTCAGACGTGTGCTCTTCCGATCTAAAAAGACGGGAAAGGAGGA

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT G ACAG CACCTTCT ACCGCTC

GGAGTTCAGACGTGTGCTCTTCCGATCTGGTAAGCAGACAGCCACACA

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTGCT G ACAG AGCCCAACT CTT

GG AGTT CAG ACGT GTGCT CTTCCG ATCTGCCTTCCACCGTT CATT CT A

CACTCTTTCCCTACACGACGCTCTTCCGATCTCTGGTGCCACTCTGGAAAG

GGAGTTCAGACGTGTGCTCTTCCGATCTGTTCTCTGCCGTAGGTGTCC

CACTCTTTCCCTACACGACGCTCTTCCGATCTCCTCACAGCAGGGTCTTCTC

GGAGTTCAGACGTGTGCTCTTCCGATCTCCTGGTGTCAGGAAAATGCT

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT cCTGCTT CTCCT CAGCTT CA

GGAGTTCAGACGTGTGCTCTTCCGATCTGAGCTGCTCACCACGACG

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT cCTGCTT CTCCT CAGCTT CA

GGAGTTCAGACGTGTGCTCTTCCGATCTGAGCTGCTCACCACGACG

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT ACACT CACCACTTCCGT GTG

GGAGTTCAGACGTGTGCTCTTCCGATCTGCGGAGTATCCTGGAGCTG

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AT CACCCTGG ACAACCTCC

GGAGTTCAGACGT GTGCTCTTCCGATCTAAGAT GT GT GACCCAGAGGG

CACTCTTTCCCTACACGACGCTCTTCCGATCTGCTTAGCTAGGCCGAAGTCA

GGAGTTCAGACGTGTGCTCTTCCGATCTGCTCGGGGGTAGGGTTATAG

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTGCACCT G AAG AG AT G AGGCT

GGAGTTCAGACGTGTGCTCTTCCGATCTGGAGATTGGGGTGGGTCTAT

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTTT CTT CAG AAGCTCCACCC (continuación)

Espaciador Secuencia de cebador de ILMN SEQ ID NO.:

42 GG AGTT CAG ACGT GTGCT CTTCCG AT CTT CAGCCCTTGCT CTTTG AAT 174

43 CACTCTTTCCCTACACGACGCTCTTCCGATCTCCCGAGGACTCTGTCCCT 175

43 GGAGTTCAGACGTGTGCTCTTCCGATCTCTTTTCTCCTGCCGGGTAGT 176

44 CACTCTTTCCCTACACGACGCTCTTCCGATCTTATCTGGGGATTTGATGCCT 177

44 GGAGTTCAGACGTGTGCTCTTCCGATCTGAGTGGTTATCTGCCATTGGA 178

45 CACTCTTTCCCTACACGACGCTCTTCCGATCTGAAAGGTCCTGCCAAGGAAT 179

45 GGAGTTCAGACGTGTGCTCTTCCGATCTGTGTTTCCTGGGGGAAAGTT 180

46 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTTTT GTTTT G GGTGCCATTT 181

46 GGAGTTCAGACGTGTGCTCTTCCGATCTTTTCCCTGACCTTGAACCAG 182

47 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AATTTCCTTTCGCCACACT G 183

47 GGAGTTCAGACGTGTGCTCTTCCGATCTGGTCACAAATCTGTCCCCTC 184

48 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTTT CTT CAG AAGCTCCACCC 173

48 GGAGTTCAGACGTGTGCTCTTCCGATCTACAGGAGATTGGTACAGCGG 185

49 CACTCTTTCCCTACACGACGCTCTTCCGATCTCTTCTGAAACTAGGCGGCAG 186

49 GGAGTTCAGACGT GTGCTCTTCCGATCT GACTGGGACTGCGG AAGAC 187

50 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT ccctggcctAACAATT CAGA 188

50 GGAGTTCAGACGT GTGCTCTTCCGATCT GACCCCAACTGGAATGTCAC 189

51 CACTCTTTCCCTACACGACGCTCTTCCGATCTTTTCAGGCCTAGCAGGAAAC 190

51 GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCATT CTTT GTCTT G ACCG 191

52 CACTCTTTCCCTACACGACGCTCTTCCGATCTCAGATGCGATGACCTTTGTG 97

52 GGAGTTCAGACGTGTGCTCTTCCGATCTGTTCCGACGCTCCTTGAA 127

53 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT G AG GTCT G GTTGTCCTG CTC 192

53 GGAGTTCAGACGTGTGCT CTTCCG AT CTCAATGTCCTCCAGCAAATCA 193

54 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTT GT GTACT CTCCACTGCCCA 194

54 GG AGTT CAG ACGT GTGCT CTTCCG AT CTT CAG AACACTCCCTTTT G CC 195

55 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTGCAAT G AG AATTTT AAT CACCC 196

55 GG AGTT CAG ACGT GTGCT CTTCCG AT CTTGCCT AACAATGG ACACCAA 197

56 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT CAGCAAACT CAGCAAG CAAA 198

56 GGAGTTCAGACGTGTGCTCTTCCGATCTGGAGGGGAGAAGAGAGGAAA 199

57 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT CAGTCCT CACCCTT GTCCTC 200

57 GG AGTT CAG ACGT GTGCT CTTCCG AT CTT AAG AGCCCACCACAG ATCC 201

58 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTCCTGCAAAG AGG ACCCTTA 202

58 GGAGTTCAGACGTGTGCTCTTCCGATCTGCGTCCTTCTGAAAAGCAAA 203

59 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTGCAAT GAG AATTTT AAT CACCC 196

59 GG AGTT CAG ACGT GTGCT CTTCCG AT CTTGCCT AACAATGG ACACCAA 197

60 CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT CAGTGG GGG AAG ACT G AT GT 147

60 GGAGTTCAGACGTGTGCTCTTCCGATCTAGGGTTGAGTTTTGCATTGG 204

61 CACTCTTTCCCTACACGACGCTCTTCCGATCTTAGAAGCTGGTTGGGGAGTG 205

61 GGAGTTCAGACGTGTGCTCTTCCGATCTCTAGCTGGCGAACAACACAA 206

62 ACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AATTTCCTTTCGCCACACT G 183

62 GGAGTTCAGACGTGTGCTCTTCCGATCTGGTCACAAATCTGTCCCCTC 184

63 CACTCTTTCCCTACACGACGCTCTTCCGATCTGGATAGGTAGGCATGGCAAG 207

63 GGAGTTCAGACGTGTGCTCTTCCGATCTTACCATGGCTGGCTCTCAAT 208 (continuación)

Secuencia de cebador de ILMN

CACT CTTT CCCT AC ACG ACG CTCTTCCG AT CTCTCCTT GG AGTCCAGTGC AT

GGAGTTCAGACGTGTGCTCTTCCGATCTACTCACACCTCATCTTGCCC

CACTCTTTCCCTACACGACGCTCTTCCGATCTCCAGATGGCACATTGTCAGA

GGAGTTCAGACGTGTGCTCTTCCGATCTCCTAGTGACTGCCGTCTGC

CACT CTTT CCCT AC ACG ACG CTCTTCCG AT CT G AAAACTT G ACCCCT GTCCA

GGAGTTCAGACGTGTGCTCTTCCGATCTCTCGTGGACGGCTACTTCC

CACTCTTTCCCTAC ACG ACG CTCTTCCG ATCTACCGAG G AG CTTTC CAG AAT

GGAGTTCAGACGTGTGCTCTTCCGATCTTGGGGAGAACCATCCTCAC

CACT CTTT CCCT AC ACG ACG CTCTTCCG AT CTGTACAG ACG CCT CACCTTCC

GGAGTTCAGACGTGTGCTCTTCCGATCTGCTGCACATTGAATAAGTGGTT

CACTCTTTCCCTACACGACGCTCTTCCGATCTGACTCCCTCTGGTTCTGTGG

GGAGTTCAGACGTGTGCTCTTCCGATCTGATGCCAAAAAGAGGCTGAC

CACT CTTT CCCT AC ACG ACG CTCTTCCG AT CT AACATCTTCCTT G ATGGG AAAA

GGAGTTCAGACGTGTGCTCTTCCGATCTCAATTTCCTCCTCTGTTACCC

CACT CTTT CCCT AC ACG ACG CTCTTCCG AT CTT CAT GT CACTTTGGCCT G AA

GGAGTTCAGACGTGTGCTCTTCCGATCTCTAGGGAGAGCCTCACAGGA

CACT CTTT CCCT AC ACG ACG CTCTTCCG AT CTCTCTCCCCCT CTT CTTCCAT

GGAGTTCAGACGTGTGCTCTTCCGATCTGTTGTTTCTGTGGGTGCCTT

CACT CTTT CCCT AC ACG ACG CTCTTCCG AT CT AAGCAT G AGTG CCTCTTTCC

GGAGTTCAGACGTGTGCTCTTCCGATCTTCGGTTAATCCCTTCCCTTC

CACTCTTTCCCTACACGACGCTCTTCCGATCTCATGCGTGATGACGTAGAGG

GGAGTTCAGACGTGTGCTCTTCCGATCTTCGCACACTTAAGGCTAACG

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AAG ACG CCATT ACAAGTGCC

GGAGTTCAGACGTGTGCTCTTCCGATCTGCGTGTCTAAAGGTCCCTCA

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT CT CACCAAGTAGCT CAGG GC

GGAGTTCAGACGTGTGCTCTTCCGATCTGGACTGTCGTAAGGGGATGA

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT G AATT CT G AAAGCCGCT G G

G G AGTTC AG ACGTGTGCTCTTCCG ATCTCG CTCCACTTCTCTACTC G C

CACTCTTTCCCTACACGACGCTCTTCCGATCTCCAACTTTGGGGACTGAAGA

G G AGTT C AG ACGT GTGCT CTTCCG AT CTGCTTCCAGG ATTTGG AAT G A

CACTCTTTCCCTACACGACGCTCTTCCGATCTGCTTCTCCCTGTCTGAGGTG

GGAGTTCAGACGTGTGCTCTTCCGATCTGCAGGTAGGTGAGTTCCAGG

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CTTCCT ACGTCAAGCAGTTCCC

GGAGTTCAGACGTGTGCTCTTCCGATCTGGCATTCTCTGAAGAGTGGG

CACTCTTTCCCTACACGACGCTCTTCCGATCTCTGCTCGGTCTGGGGTCT

GGAGTTCAGACGTGTGCTCTTCCGATCTGAAGCCGGCGGAAATACC

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AGTCT GTAAACTCGCGCAG G

G GAGTTCAGACGTGTGCT CTTCCGATCTCAGATGAGTTGCAGTTCCCA

CACTCTTTCCCTACACGACGCTCTTCCGATCTTCACAGGGAACCTTTGCTCT

GGAGTTCAGACGTGTGCTCTTCCGATCTCTTACCAGGCAGTCGCTCTC

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT ACAT G AAATT CAAGGCCG AA

GGAGTTCAGACGTGTGCTCTTCCGATCTACCTGTCTGTGAGGTGGAGG

CACT CTTTCCCT ACACG ACG CTCTTCCG AT CT AGG G AT G G AGCT G ACTGCT A (continuación)

Secuencia de cebador de ILMN

GGAGTTCAGACGTGTGCTCTTCCGATCT ACCCCAGACACCCAGTATGA

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CTTTTCCT CT CTT CTGCCCTCC

GGAGTTCAGACGGTGCTCTTCCGATCTCTGCCACAAAGGGGTTAAAA

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CT GTTT CT CAT CTGTGCCCCTC

GGAGTTCAGACGTGTGCTCTTCCGATCTGTTGCCCACCCTAGTCATT G

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CT GTTT CT CAT CTGTGCCCCTC

GGAGTTCAGACGTGTGCTCTTCCGATCTGTTGCCCACCCTAGTCATT G

CACTCTTTCCCTACACGACGCTCTTCCGATCTaagaaaggCAAGAAGCCTGG

GGAGTTCAGACGTGTGCTCTTCCGATCTGCTGGCCTGAGACATTCCTA

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CTTTGG AACTTT GTTTCCAGGC

GGAGTTCAGACGTGTGCTCTTCCGATCTGGCAACAAGCAGTTCAAACA

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CTTGGCT CT CACCT G ACAGTCTT

GGAGTTCAGACGTGTGCTCTTCCGATCTACAACAGGGCTTGAAGTTGG

CACTCTTTCCCTACACGACGCTCTTCCGATCTagaggagcgatgcttctgAG

GG AGTT CAG ACGT GTGCT CTTCCG AT CT ACTTGGTCCATCCATTT CCA

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CT CAGG AGCTCCAGT G ACAGC

GGAGTTCAGACGT GTGCTCTTCCGAT CTGGCACCCAGAGT GAGTG AGT

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CT AGG CAGCCACT G ACATT CTT

GGAGTTCAGACGTGTGCTCTTCCGATCTGGGGTTGTCTTCATTGGTGA

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CT AG AG ACCG AGCCCT AAGG AG

GG AGTT CAG ACGT GTGCT CTTCCG AT CT CT CACACACT CACCTCGGTC

CACT CTTT CCCT ACACG ACG CTCTTCCG AT CT AG AAAATTCCCACGGCT ACC

GGAGTTCAGACGT GTGCTCTTCCGAT CT GACTGCTCAGGAGGAG GAAG

Tabla 4A

Biblioteca de secuenciación de espaciador único de diana múltiple (MTSS) cebadores ILMN_P5 (PCR1)

Grupo ILMN_P5 SEQ ID espaciador* NO.: 1a CAGTCTTTCCCTACAGGAGGGTCTTGGGATCTAGATAGGCATGGAAGACGGT 292 1b CACTCTTTCCCTACACGACGCTCTTCCGATCTAGGCATTGAAGACGCTCACT 293 1c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CTT G GG AAGCACAT AGG CAT 294 2a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT ACAAAGCACACATGCAACCT 295 2b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTT CT G CACACCTTCAG ACCAG 296 3a CACTCTTTCCCTACACGACGCTCTTCCGATCTAATCGGCTTCGTCTATGCAC 297 3b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTT G G AAATG ACAG ATTT G GG A 298 3c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGG ACCAATCCT G AACG AAAG 299 3d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGGTATCGTGG ACGG AG AGTC 300 3e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT caaaaT AAG GGTT CT ATT AGG CAAA 301 3f CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGG ATTGGTGTG CAAGT GTTG 302 3 g CACTCTTTCCCTACACGACGCTCTTCCGATCTATATTTGTATTGCCGTGGGC 303 3h CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CT AACGCCT AAAACGG AAGC 304 4a CACTCTTTCCCTACACGACGCTCTTCCGATCTAATCGGCTTCGTCTATGCAC 297 4b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGG ACCAATCCT G AACG AAAG 299 4c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGGTATCGTGG ACGG AG AGTC 300 4d CACTCTTTCCCTACACGACGCTCTTCCGATCTAGGCATTAGGAAATACGCCC 305 5a CACTCTTTCCCTACACGACGCTCTTCCGATCTGCTGGAGGTGGAGTGTGTCT 306 5b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTT CAG AT AC AAG CTTCTGG G ACA 307 6a CACTCTTTCCCTACACGACGCTCTTCCGATCTaagagaaagGTGCCTGGGTT 308 6b CACTCTTTCCCTACACGACGCTCTTCCGATCTAAGAAGCCAAAGAGCAAGGG 309 6c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGGTT CAACT G AAGCGCCA 310 6d CACTCTTTCCCTACACGACGCTCTTCCGATCTAGAAAGCTACCCGGGTTCA 311 6e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTTAAT AGCCTGCTCCACCC A 312 6f CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT ACCTGGGTT CAACT AAAG CG 313 6 g CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT ACT AAAG CACCAGCCTGCT C 314 6h CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT GTT CAACTG AAGCACCAG CC 315 6i CACTCTTTCCCTACACGACGCTCTTCCGATCTCAACTAAAGCGCCAGCCTAC 316 6j CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGCACT AGCTTGCTCCACT CA 317 6k CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGCCAAT G AG AAAGGTTCCT G 318 6l CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGGTACTTGGT GTCAGCCAG C 319 6m CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AACT G AAGCTCCAGCCTGC 320 6n CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT G ACAAACGTACCTGGGTT CAA 321 7a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCG ACCT CTGG AAGGAG ACT G 322 7b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCG ACCT CTGG AAG GAG ACAG 323 7c CACTCTTTCCCTACACGACGCTCTTCCGATCTCTTGTGGCTACAACATAGGGG 324 8a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AGG AATCG AT CTCGT G AAGC 325 8b CACTCTTTCCCTACACGACGCTCTTCCGATCTTGTGAGAGGATGGTGGTCAA 326 8c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT G AGT GTGCAATT CACAGCAAA 327 8d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT G AATCG AT CT CATG AAGCCC 328 8e CACTCTTTCCCTACACGACGCTCTTCCGATCTAATCGATCTCGTGAAGCCTG 329 8f CACTCTTTCCCTACACGACGCTCTTCCGATCTCAGGAATCGATCTCATGAAGG 330 8g CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT ATC AAT CTT GT GTAGCCCG C 331 9a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCG ACCT CTGG AAGGAG ACT G 322 9b CACTCTTTCCCTACACGACGCTCTTCCGATCTTAACCCCTGACCTCTGGAAG 332 (continuación)

Grupo SEQ ID espaciador* ILMN P5 NO.: 9c CACT CTTT CCCT ACACG ACGCT CTT CCG AT CT CT G ACTCCCAACCT CT GG AA 333 9d CACT CTTT CCCT ACACG ACGCT CTT CCG AT CT G ACCTACAG CT ACCT G ACCCC 334 9e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCG ACCT CTGG AAGG AG ACT G 322 9f CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCG ACCT CTGG AAGG AG ACAG 323 9 g CACTCTTTCCCTACACGACGCTCTTCCGATCTCTTGTGGCTACAACATAGGGG 324 10a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCCCT AG ACAGCAGCAACTCC 335 10b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AACCATCCAAAAG ACCACCA 336 10c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCCGCCAGG AT AGTGG ATG 337 11a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AAGCCCT G AACTTCT CTTT CAA 338 11b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTTT GTCTTTT CAG ATCCGCC 339 11c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCCTTCAAAACCC AGTTCCAA 340 11d CACTCTTTCCCTACACGACGCTCTTCCGATCTGCAATGTCCTGGGTCCTAAA 341 11e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT ATG ATG AG ATCCGCCAT CAC 342 11f CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTTGTAAGT G GT G ATTTT CAGTTT G A 343 11 g CACTCTTTCCCTACACGACGCTCTTCCGATCTGGTGGAAGCTATCAGGACCA 344 11h CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGT G ACAAAAGGT G ACCTGGG 345 11i CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTttcttcatccctttactttcttTTT 346 11j CACTCTTTCCCTACACGACGCTCTTCCGATCTTGGCTAAGCTGGTGGAAGTT 347 12a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTT AGTG ACAAACCCAAAGCCC 348 12b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CATTAACACT CAGCCCGT G A 349 13a CACTCTTTCCCTACACGACGCTCTTCCGATCTAGCAGAATGGCTATGATGGG 350 13b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGGG ACAAG CT AAGCCAATTTT 351 13c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTTCCG G AAG AAGG CTAAAACT 352 13d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTGCATGCATTCAC AC ACAAT 353 13e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTTTGCAATGCTTTGCTTT AAAT A 354 14a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AGGTAGTTT CAT G G ATGCCG 355 14b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGCT CACAACACCT ACCCAGG 356 14c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CAAG AAGG AAGGCTG G AACA 357 15a CACTCTTTCCCTACACGACGCTCTTCCGATCTATCCTGGAATTCGGTGAGG 358 15b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CACCAT AACAGCACTGGTGG 359 15c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CTGGTCCAT CT AT G GGG AG A 360 15d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CAGTGGTGGTAAGCCCAT CT 361 15e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTGGGG AG AAATTCG AT G AAG 362 15f CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGGT G ACTT CACACGCCAT AA 363 15 g CACTCTTTCCCTACACGACGCTCTTCCGATCTTCCGGAGTTTATATGCCAGG 364 16a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTGCT CTACAAG GTCACATGCTT 365 16b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTGCCATGG ACTT AGG AT G ACT 366 16c CACTCTTTCCCTACACGACGCTCTTCCGATCTGGCCAAAGGCTGTTCACTAA 367 16d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTttcTGCACAT GTATCCCGTG 368 16e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTCCACGTAATG ATG ACTTCCAA 369 16f CACTCTTTCCCTACACGACGCTCTTCCGATCTtgtaaaggtgctcaacatTTCTTT 370 16 g CACTCTTTCCCTACACGACGCTCTTCCGATCTAAACAATGCTAAATGATGGCAA 371 16h CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCCAT CAG ACTTGTGTCC ACG 372 16i CACTCTTTCCCTACACGACGCTCTTCCGATCTGGGCTTATGCCCAAGACTTT 373 17a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTGCCATGG ACTT AGG AT G ACT 366 17b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTttcTGCACAT GTATCCCGTG 368 17c CACTCTTTCCCTACACGACGCTCTTCCGATCTGGCCAAAGGCTGTTCACTAA 367 17d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTCCACGTAATG ATG ACTTCCAA 369 (continuación)

Grupo SEQ ID espaciador* ILMN P5 NO.: 17e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AAACAAT G CTAAAT G ATGG CAA 371 17f CACTCTTTCCCTACACGACGCTCTTCCGATCTGGGCTTATGCCCAAGACTTT 373 18a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTGGTTTT ATGTTGCCTG CTTT 374 18b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTGGCCAT ACACTCCAAT G AA 375 18c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGG ATGCTCCCT G AGTTT CTT C 376 18d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTCCACCT GTTCCAAG AG ACT G 377 19a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTGCAAT G ACTCCAG AG GG AAG 378 19b CACTCTTTCCCTACACGACGCTCTTCCGATCTATTCACAGGGAAAAGGTCCC 379 19c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTT CTCCTCAG CCT G G AAACAT 380 20a CACTCTTTCCCTACACGACGCTCTTCCGATCTGGTAACACTTGTGGGGCATT 381 20b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CAGCCATTCCCTTG ATGTCT 382 20c CACTCTTTCCCTACACGACGCTCTTCCGATCTGGTAACACTTGTGGGGCATT 381 20d CACT CTTTCCCT ACACG ACGCTCTTCCGAT CT cggccG ATAT CAACTTT CTT 383 20e CACTCTTTCCCTACACGACGCTCTTCCGATCTGCATATACGTGGCCAAAGGA 384 20f CACTCTTTCCCTACACGACGCTCTTCCGATCTTTTGAACAGTACCCGTTCCC 385 20 g CACT CTTTCCCT ACACG ACGCTCTTCCGAT CT aagcctggccT CACCTTT 386 20h CACTCTTTCCCTACACGACGCTCTTCCGATCTGGTAACACTTGTGGGGCATT 381 20i CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CT CTTCCAGTTTTGCCAAGG 387 21a CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AAAGTGCTCCCGTT CTG CTA 388 21b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CACT AACCAT G CAGG ACACG 389 21c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT accacgcttggccTT AATTT 390 21d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT CTTCTGC ATTTT CACATT AGCAA 391 21e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT ccacacctggcT CAG AGG 392 21f CACTCTTTCCCTACACGACGCTCTTCCGATCTgattlcatccttgaagcctcC 393 22a CACTCTTTCCCTACACGACGCTCTTCCGATCTGGAAGACAGCCAGGACTTCA 394 22b CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTCCCT AG ACAGCAGCAACTCC 335 22c CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AACCATCCAAAAG ACCACCA 336 22d CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT gcctcccaggttcaaacA 395 22e CACT CTTTCCCT ACACG ACGCT CTTCCG AT CTTCCAT G CAAACCATT CAAAA 396 22f CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT G AAATTACCTATT AACAG ATGCT G ACA 397 22 g CACTCTTTCCCTACACGACGCTCTTCCGATCTcaagccagggttaagttacacaG 398 22h CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT AACCATCCAAAAG ACCACCA 336 22i CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT caggagaccataT GTTTATTT ATT G ATT 399 22j________ CACT CTTTCCCT ACACG ACGCT CTTCCG AT CT ATCCAAAAG ACCACCACCT G 400 *Subconjuntos de grupos espaciadores indicados con letras minúsculas; la ubicación genómica de los subconjuntos de grupos espaciadores se proporciona en la Tabla 3._____________________________________________________

Tabla 4B

Biblioteca de secuenciación de espaciador único de diana múltiple (MTSS) cebadores ILMN_P7 (PCR1)

Grupo ILMN_P7 SEQ espaciador* ID NO.: 1a GGAGTTCAGACGTGTGCTCTTCCGATCTTGCACATGAGCTCTCTCTGG 401 1 b GGAGTTCAGACGTGTGCTCTTCCGATCTGCTAACGAGGAACTTGGCAG 402 1c G G AG TT C AG AC GTGTGCTCTTCCGATCT CAG C ATTTT GGCTCCTCTCT 403 2a GGAGTTCAGACGTGTGCTCTTCCGATCTGGATGGTGGCCAAGAAGTTA 404 2b GGAGTTCAGACGTGTGCTCTTCCGATCTTCCTGTAAACACCCGTGACA 405 3a GGAGTT CAGACGT GTGCT CTTCCG AT CTGCAAAACGACCAG GAGGAT 406 (continuación)

Grupo ILMN_P7 SEQ espaciador* ID NO.: 3b G G AGTT CAG ACGT GTGCT CTTCCG AT CT AG C ATTCCT ACACAATT ACTGCT G 407 3c GG AGTT CAG ACGT GTGCT CTTCCG AT CTGCCCTGG G AG ACCTT ACAA 408 3d G G AGTT CAG ACGT GTGCT CTTCCG AT CTGG AAAAG ACAAG CAAGCCAG 409 3e G G AGTT CAG ACGT GTGCT CTTCCG AT CTAG GG GT G AGT G AAT G ACAGG 410 3f G G AGTT CAG ACGT GTGCT CTTCCG AT CT G AAG ACAACCG AATT AGG CG 411 3 g G G AGTT CAG ACGT GTGCT CTTCCG AT CTTTT GTCTTT G GTTCCTTCG G 412 3h G G AGTT CAG ACGT GTGCT CTTCCG AT CTGCCTTGCCTT AT CACCTTT G 413 4a G G AGTT CAG ACGT GTGCT CTTCCG AT CTGCAAAACG ACCAG G AG G AT A 414 4b G G AGTT CAG ACGT GTGCT CTTCCG AT CTGCCCTGG GAG ACCTT ACAA 408 4c G G AGTT CAG ACGT GTGCT CTTCCG AT CTGG AAAAG ACAAG CAAGCCAG 409 4d GGAGTTCAGACGTGTGCTCTTCCGATCTATACACTTCTGGGATTGGCG 415 5a GGAGTTCAGACGTGTGCTCTTCCGATCTGAAGATGAAGGTGGGTGGTG 416 5b G G AGTT CAG ACGT GTGCT CTTCCG AT CT ACACCCAACACCACG AAG AT 417 6a G G AGTT CAG ACGT GTGCT CTTCCG AT CT ACAACCCCTTT GTTCCCCTA 418 6b G G AGTT CAG ACGT GTGCT CTTCCG AT CT cccagccACAAGTTTGTTTT 419 6c G G AGTT CAG ACGT GTGCT CTTCCG AT CTtG AAG AAACAAGGCAAGG CT 420 6d G G AGTT CAG ACGT GTGCT CTTCCG AT CTTGTGGG AG ATG ACACCACAC 421 6e G G AGTT CAG ACGT GTGCT CTTCCG AT CTGGG AG AGG ACACCACACTT C 422 6f G G AGTT CAG ACGT GTGCT CTTCCG AT CT actgtgcctggccT G AAAT A 423 6 g G G AGTT CAG ACGT GTGCT CTTCCG AT CT CT CACG AACACGTATCCACG 424 6h GGAGTTCAGACGTGTGCTCTTCCGATCTGCATGAGGCCCATTGTAGTAA 425 6i G G AGTT CAG ACGT GTGCT CTTCCG AT CT ACTCATCTT CTGTG ATTTT GTTT CA 426 6j G G AGTT CAG ACGT GTGCT CTTCCG AT CT ATTCCCATGCT G ACTTTTGC 427 6k G G AGTT CAG ACGT GTGCT CTTCCG AT CTGG AAG GG ACACCACACTT CT 428 6l GGAGTTCAGACGTGTGCTCTTCCGATCTTGCCCTTTATGTGTGTGTGTG 429 6m G G AGTT CAG ACGT GTGCT CTTCCG AT CT ggacacttatgttgattccagtGT 430 6n G G AGTT CAG ACGT GTGCT CTTCCG AT CTT G CTGTT GG AG AAAAT GT GTTT 431 7a G G AGTT CAG ACGT GTGCT CTTCCG AT CTgcaagactctgtctcgtaaaCATT 432 7b G G AGTT CAG ACGT GTGCT CTTCCG AT CT AAAAG TT CCATT GGCTGTG G 433 7c G G AGTT CAG ACGT GTGCT CTTCCG AT CTGGTGCT AAAACAAACGTT AT CAAA 434 8a G G AGTT CAG ACGT GTGCT CTTCCG AT CTT CAG AATTT CACTGCATCGT G 435 8b G G AGTT CAG ACGT GTGCT CTTCCG AT CT AAATCCCCACCTT ATCTGGC 436 8c GGAGTTCAGACGTGTGCTCTTCCGATCTccagcactGGAAGCTCTTTT 437 8d G G AGTT CAG ACGT GTGCT CTTCCG AT CT AG G AT AT G CTTG AATT ATTTTCCG 438 8e GGAGTTCAGACGTGTGCTCTTCCGATCTACCTTGGGCCACTCTTCTTT 439 8f G G AGTT CAG ACGT GTGCT CTTCCG AT CTT CACCCT AGGTGGCAC AG AT 440 8 g GGAGTTCAGACGTGTGCTCTTCCGATCTgcacttcgctaagaactgtcttC 441 9a G G AGTT CAG ACGT GTGCT CTTCCG AT CTgatagcactgCTCCAGG G AT 442 9b GGAGTTCAGACGTGTGCTCTTCCGATCTaaacaaacaaacaaaCAATGCATAC 443 9c GGAGTTCAGACGTGTGCTCTTCCGATCTGTCTGCCCTGGATGGAAAC 444 9d G G AGTT CAG ACGT GTGCT CTTCCG AT CT AT CATCCCT AAT GCCAAAGC 445 (continuación)

Grupo ILMN_P7 SEQ espaciador* ID NO.: 9e GGAGTTCAGACGTGTGCTCTTCCGATCTgcaagactctgtctcgtaaaCATT 432 9f GGAGTTCAGACGTGTGCTCTTCCGATCTAAAAGTTCCATTGGCTGTGG 433 9g GG AGTT CAG ACGT GTGCT CTTCCG AT CTGGTGCT AAAACAAACGTT AT CAAA 434 10a GGAGTTCAGACGTGTGCTCTTCCGATCTcattttatgattttaattgttGGGG 446 10b GGAGTTCAGACGTGTGCTCTTCCGATCTGTTGGGTTAGGGCATTTGTG 447 10c GG AGTT CAG ACGT GTGCT CTTCCG AT CT attgcacctggcCT ATGTCT 448 11a GGAGTTCAGACGTGTGCTCTTCCGATCTTCCAAAATCTGTGGCTTGTG 449 11b GG AGTT CAG ACGT GTGCT CTTCCG AT CT CAACAG ACACTGGCTG AAG G 450 11c GGAGTTCAGACGTGTGCTCTTCCGATCTGGTCCTAAGTCTGTGGCTCG 451 11d GG AGTT CAG ACGT GTGCT CTTCCG AT CTTCCAAAG AAT ACCAGCCACC 452 11e GGAGTTCAGACGTGTGCTCTTCCGATCTTCCACCCCTGTAAAAGTACCA 453 11f GGAGTTCAGACGTGTGCTCTTCCGATCTGGTCCTAAGTCTGTGGCTCG 451 11 g GGAGTTCAGACGTGTGCTCTTCCGATCTtgtggttctctttctagattcctTTT 454 11h GGAGTTCAGACGTGTGCTCTTCCGATCTGGTGGAAGCTATCAGGACCA 455 11i GG AGTT CAG ACGT GTGCT CTTCCG AT CT AG AT AT G AT G AG ATCCGCCG 456 11j GG AGTT CAG ACGT GTGCT CTTCCG AT CT cccagcAT CTTT ACATGCTTTT 457 12a GGAGTTCAGACGTGTGCTCTTCCGATCTAGTACACAGTGGCTGCCCAT 458 12b GG AGTT CAG ACGT GTGCT CTTCCG AT CTGCCG AG G AAGCATT GTAAAG 459 13a GG AGTT CAG ACGT GTGCT CTTCCG AT CT AAT AAAGG AT G ACACTTT AG AACTGG A 460 13b GG AGTT CAG ACGTGTG CT CTTCCG AT CT acccggccAT AAACT CAAG 461 13c GGAGTTCAGACGTGTGCTCTTCCGATCTGTTAAAACAAATGCTTTGGGCT 462 13d GGAGTTCAGACGTGTGCTCTTCCGATCTCCTTGTCTCCAACTCCCAAA 463 13e GG AGTT CAG ACGT GTGCT CTTCCG AT CTTTGCACCTTCCACCCAT AAT 464 14a GG AGTT CAG ACGT GTGCT CTTCCG AT CT AGCT ACAT CTT CACCGCCAC 465 14b GGAGTTCAGACGTGTGCTCTTCCGATCTGAGGCTACAGCTTCACCACC 466 14c GG AGTT CAG ACGT GTGCT CTTCCG AT CT CT CACCAAGCTT CACCAT CA 467 15a GG AGTT CAG ACGT GTGCT CTTCCG AT CTGCCTCCACAAT ATT CATGCC 468 15b GG AGTT CAG ACGT GTGCT CTTCCG AT CTT GTGGCCTCCACAAT ATT CA 469 15c GGAGTTCAGACGTGTGCTCTTCCGATCTTGGTGATCTTGCTGGTCTTG 470 15d GG AGTT CAG ACGT GTGCT CTTCCG AT CT ATT G ATT CATGCCCT CTTGC 471 15e GGAGTTCAGACGTGTGCTCTTCCGATCTggccATAGCAATGGTGATCT 472 15f GGAGTTCAGACGTGTGCTCTTCCGATCTTAGTGTTTGTTCCGTTCCCC 473 15 g GG AGTT CAG ACGT GTGCT CTTCCG AT CTTT CACCCTGCCAAAG AT CA 474 16a GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCT ACT G AAG ACTGG AG CG 475 16b GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCTCTGTGCCT ATT CAGCAGT 476 16c GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCT ACT G AAG ACTGG AG CG 475 16d GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCT ACT G AAG ACTGG AG CG 475 16e GGAGTTCAGACGTGTGCTCTTCCGATCTTGAACAATGGAGCACTCAGC 477 16f GGAGTTCAGACGTGTGCTCTTCCGATCTCAGACTGGTCTGAAAG CGTG 478 16 g GG AGTT CAG ACGT GTGCT CTTCCG AT CTT G AAG ACTGG AG CACTC AG C 479 16h GG AGTT CAG ACGT GTGCT CTTCCG AT CTTCCAGCACCT G AGTT CACT G 480 (continuación)

Grupo ILMN_P7 SEQ espaciador* ID NO.: 16i GG AGTT CAG ACGT GTGCT CTTCCG AT CTTGCCT ATT CAGCAGTTCCCT 481 17a GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCTCTGTGCCT ATT CAGCAGT 476 17b GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCT ACT G AAG ACTGG AG CG 475 17c GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCT ACT G AAG ACTGG AG CG 475 17d GGAGTTCAGACGTGTGCTCTTCCGATCTTGAACAATGGAGCACTCAGC 477 17e GG AGTT CAG ACGT GTGCT CTTCCG AT CT AAG ACTGG AG CACTC AG CGT 482 17f GG AGTT CAG ACGT GTGCT CTTCCG AT CTTGCCT ATT CAGCAGTTCCCT 481 18a GGAGTTCAGACGTGTGCTCTTCCGATCTTAGAAGGTGGAGATGCTGGC 483 18b GGAGTTCAGACGTGTGCTCTTCCGATCTGGCAACAGACAGGACCAGAT 484 18c GGAGTTCAGACGTGTGCTCTTCCGATCTTAGAAGGTGGAGATGCTGGC 483 18d GGAGTTCAGACGTGTGCTCTTCCGATCTTAGAAGGTGGAGATGCTGGC 483 19a GG AGTT CAG ACGT GTGCT CTTCCG AT CTTT GTGCACGTT AAGCACTCTG 485 19b GG AGTT CAG ACGT GTGCT CTTCCG AT CT AAG AG AGCTTCCT G ACACG C 486 19c GG AGTT CAG ACGT GTGCT CTTCCG AT CTT CT AAG AGCCAAG ACAGCTTCC 487 20a GG AGTT CAG ACGT GTGCT CTTCCG AT CT AGCTT GTTCCTTT CAGCCG 488 20b GG AGTT CAG ACGT GTGCT CTTCCG AT CT CAATGCGTTTCCTTTT AGCC 489 20c GG AGTT CAG ACGT GTGCT CTTCCG AT CT AGTATT CTTTT G CCTTTCGG C 490 20d GG AGTT CAG ACGT GTGCT CTTCCG AT CTT ATCCATTT CTGCCTCTGCC 491 20e GG AGTT CAG ACGT GTGCT CTTCCG AT CTCCCTTTT CTTTTCCCAG AGG 492 20f GG AGTT CAG ACGT GTGCT CTTCCG AT CT AAAAG AAAATCGCCTTTCGG 493 20g GG AGTT CAG ACGT GTGCT CTTCCG AT CTtcttTTCCTTT CAGCCGG A 494 20h GG AGTT CAG ACGT GTGCT CTTCCG AT CTTT GTCTGCCT CAGCT CAAG A 495 20i GGAGTTCAGACGTGTGCTCTTCCGATCTaaaacTCCCTTCCTTTTGGC 496 21a GG AGTT CAG ACGT GTGCT CTTCCG AT CTCG ACCT CTGG AAG G AG ACT G 497 21b GG AGTT CAG ACGT GTGCT CTTCCG AT CTCG ACCT CTGG AAG G AG ACT G 497 21c GGAGTTCAGACGTGTGCTCTTCCGATCTCACTGACCACCTCGTCAAGA 498 21d GGAGTTCAGACGTGTGCTCTTCCGATCTCACTGACCACCTCGTCAAGA 498 21e GG AGTT CAG ACGT GTGCT CTTCCG AT CTCG ACCT CTGG AAG G AG ACT G 497 21f GGAGTTCAGACGTGTGCTCTTCCGATCTGACCTACAGCTACCCGACCC 499 22a GGAGTTCAGACGTGTGCTCTTCCGATCTGAACGTCAAGCATCCCAAGT 500 22b GGAGTTCAGACGTGTGCTCTTCCGATCTcattttatgattttaattgttGGGG 446 22c GGAGTTCAGACGTGTGCTCTTCCGATCTGTTGGGTTAGGGCATTTGTG 447 22d GG AGTT CAG ACGT GTGCT CTTCCG AT CT AAAAG ACGACCATCCACCAG 501 22e GGAGTTCAGACGTGTGCTCTTCCGATCTatgatgctcacccagaGACC 502 22f GGAGTTCAGACGTGTGCTCTTCCGATCTGAGCAGCTCCTCCTTGAGAG 503 22 g GGAGTTCAGACGTGTGCTCTTCCGATCTAGCAAAGTGGGGTGTGAGAC 504 22h GGAGTTCAGACGTGTGCTCTTCCGATCTtgccagtgggatgataagaaA 505 22i GGAGTTCAGACGTGTGCTCTTCCGATCTCGGATAGTGGATGGCAAAGT 506 22j GG AGTT CAG ACGT GTGCT CTTCCG AT CTT CATT AT ATTT AGCTTT GTT AGCG AG A 507 *Subconjuntos de grupos espaciadores indicados con letras minúsculas; la ubicación genómica de los subconjuntos de grupos espaciadores se proporciona en la Tabla 3.

Tabla 5

Cebadores de ensamblaje de ARNgu para RNPgu

Cebador 1 AGTAATAATACGACTCACTATAG (SEQ ID NO: 508)

Cebador 2 AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGC (SEQ ID NO: 509) Cebador 3 Exclusivo de ARNgu y enumerado en la Tabla 1 como SEQ ID NOS: 1-4, respectivamente

Cebador 4 GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAAC (SEQ ID NO: 510) Cebador 5 AAAAAAAGCACCGACTCGGTGCC (SEQ ID NO: 511)

Claims

REIVINDICACIONES

1. Un procedimiento implementado por ordenador para diseñar un polinucleótido guía para insertar de manera predecible un nucleótido de adenina (A) o de timina (T) en un sitio de corte producido por una escisión de ADN mediada por Cas9 en una célula, comprendiendo el procedimiento:

seleccionar una región diana en el ADN en la célula que se va a modificar; y

diseñar un polinucleótido guía complementario a un protoespaciador de 20 nt en la región diana, de tal manera que el nucleótido en la posición 17 del protoespaciador se corresponde con una A o una T; en la que (i) para la inserción de una A en el sitio de corte, la posición 17 del protoespaciador es A, o (ii), para la inserción de una T en el sitio de corte, la posición 17 del protoespaciador es T;

en donde el ADN es ADN genómico.

2. El procedimiento implementado por ordenador de la reivindicación 1, que comprende adicionalmente: determinar una frecuencia de la que el nucleótido insertado es A si la posición 17 del protoespaciador es A, o una frecuencia de la que el nucleótido insertado es T si la posición 17 del protoespaciador es T.

3. El procedimiento implementado por ordenador de la reivindicación 1, en el que la región diana comprende un gen que codifica un producto génico.

4. El procedimiento implementado por ordenador de la reivindicación 1, en el que la guía comprende un ARN de guía única.

5. El procedimiento implementado por ordenador de la reivindicación 1, en el que la proteína Cas9 comprende una proteína Cas9 de Streptococcus pyogenes o un ortólogo de la misma.

6. El procedimiento implementado por ordenador de la reivindicación 1, en el que la célula comprende una célula eucariota, opcionalmente una célula madre o una célula humana.

7. Un procedimiento de inserción de manera predecible de un nucleótido de adenina (A) o timina (T) en un sitio de corte producido por la escisión de ADN mediada por Cas9 en una célula, comprendiendo el método:

seleccionar una región diana en el ADN de la célula que se va a modificar; e

introducir en la célula un complejo que comprende una proteína Cas9 y un polinucleótido guía complementario a un protoespaciador de 20 nt en la región diana de tal manera que el nucleótido en la posición 17 del protoespaciador se corresponde con una A o una T; en el que (i) para la inserción de una A en el sitio de corte, la posición 17 del protoespaciador es A, o (ii) para la inserción de una T en el sitio de corte, la posición 17 del protoespaciador es T; y además, en el que el complejo escinde el ADN y produce el sitio de corte, facilitando así la inserción de la A o la T, respectivamente, en el sitio de corte;

en el que el ADN es ADN genómico;

en el que el procedimjento no modifica la identidad genética de la línea germinal de un ser humano y no es un procedimiento para el tratamiento del cuerpo humano o animal mediante terapia.

8. Un procedimiento in vitro de inserción de manera predecible de un nucleótido de adenina (A) o timina (T) en un sitio de corte producido por una escisión de ADN mediada por Cas9 en una célula, comprendiendo el procedimiento:

seleccionar una región diana en el ADN de la célula que se va a modificar; e

introducir en la célula un complejo que comprende una proteína Cas9 y un polinucleótido guía complementario a un protoespaciador de 20 nt en la región diana, de tal manera que el nucleótido en la posición 17 del protoespaciador se corresponde con una A o una T; en el que (i) para la inserción de una A en el sitio de corte, la posición 17 del protoespaciador es A, o (ii) para la inserción de una T en el sitio de corte, la posición 17 del protoespaciador es T; y en el que además, el complejo escinde el ADN y produce un sitio de corte, facilitando así la inserción de la A o la T, respectivamente, en el sitio de corte;

en el que el ADN es ADN genómico;

en el que el procedimiento no modifica la identidad genética de la línea germinal de un ser humano y no es un procedimiento para el tratamiento del cuerpo humano o animal mediante terapia.

9. El procedimiento de la reivindicación 7 o la reivindicación 8, que comprende además:

determinar una frecuencia de la que el nucleótido insertado es A si la posición 17 del protoespaciador es A, o una frecuencia de la que el nucleótido insertado es T si la posición 17 del protoespaciador es T.

10. El procedimiento de la reivindicación 7 o la reivindicación 8, en el que la región diana comprende un gen que codifica un producto génico, preferentemente en el que el procedimiento comprende además reducir o restaurar la función de un producto génico.

11. El procedimiento de la reivindicación 7 o la reivindicación 8, en el que la guía comprende un ARN de guía única.

12. El procedimiento de la reivindicación 7 o la reivindicación 8, en el que la proteína Cas9 comprende proteína Cas9 de Streptococcus pyogenes o un ortólogo de la misma.

13. El procedimiento de la reivindicación 7 o la reivindicación 8, en el que la célula comprende una célula eucariota, opcionalmente una célula madre, opcionalmente una célula humana.

14. Uso de un polinucleótido guía de Cas9 en un procedimiento de inserción de manera predecible de un nucleótido de adenina (A) o timina (T) como un sitio de corte producido por la escisión de ADN mediada por Cas9 en una célula, comprendiendo el procedimiento:

seleccionar una región diana en el ADN de la célula que se va a modificar; e

introducir en la célula un complejo que comprende una proteína Cas9 y dicho polinucleótido guía, siendo el polinucleótido guía complementario a un protoespaciador de 20 nt en la región diana, de tal forma que el polinucleótido en la posición 17 del protoespaciador se corresponde con una A o una T; en el que (i) para la inserción de una A en el sitio de corte, la posición del protoespaciador es A, o (ii) para la inserción de un T en el sitio de corte, la posición 17 del protoespaciador es T; y además, en la que el complejo escinde el ADN y produce el sitio de corte, facilitando así la inserción de la A o la T, respectivamente, en el sitio de corte;

15. Uso de un polinucleótido guía de Cas9 en un procedimiento in vitro de inserción de manera predecible de un nucleótido de adenina (A) o timina (T) en un sitio de corte producido por escisión de ADN mediada por Cas9 en una célula, comprendiendo el procedimiento:

seleccionar una región diana en el ADN de la célula que se va a modificar; e

introducir en la célula un complejo que comprende una proteína Cas9 y dicho polinucleótido guía, siendo el polinucleótido guía complementario a un protoespaciador de 20 nt en la región diana, de tal manera que el nucleótido en la posición 17 del protoespaciador se corresponde con una A o una T; en el que (i) para la inserción de una A en el sitio de corte, la posición 17 del protoespaciador es A, o (ii) para la inserción de una T en el sitio de corte, la posición del protoespaciador es T; y además, en el que el complejo escinde el ADN y produce el sitio de corte, facilitando así la inserción de la A o la T, respectivamente, en el sitio de corte;

16. El uso de un polinucleótido guía de Cas9 de acuerdo con la reivindicación 14 o la reivindicación 15, en el que la inserción del único nucleótido da como resultado la modulación de una función de un producto génico o la restauración de un producto génico.

17. El uso de un polinucleótido guía de Cas9 de acuerdo con la reivindicación 14 o la reivindicación 15 para la generación de un organismo no humano modificado genéticamente.

18. Un polinucleótido guía de Cas9 para su uso en un procedimiento de terapia génica para la prevención o el tratamiento de una enfermedad o trastorno insertando de manera predecinle una adenina (A) o una timina (T) en el sitio de corte producido por escisión de ADN mediada por Cas9 en una célula, comprendiendo el procedimiento:

seleccionar una región diana en el ADN de la célula que se va a modificar; e

introducir en la célula un complejo que comprende una proteína Cas9 y un polinucleótido guía complementario a un protoespaciador de 20 nt en la región diana, de tal manera que el nucleótido en la posición 17 del protoespaciador se corresponde con una A o una T; en el que (i) para la inserción de una A en el sitio diana, la posición 17 del protoespaciador es A, o (ii) para la inserción de una T en el sitio de corte, la posición 17 del protoespaciador es T; y además, en el que el complejo escinde el ADN y produce el sitio de corte, facilitando así la inserción de la A o la T, respectivamente, en el sitio de corte;

en el que el ADN es ADN genómico.