BR112018074531B1

BR112018074531B1 - composição que compreende um sistema de nuclease e seu uso, kit, método in vitro para aumentar a eficiência da modificação do genoma-alvo e método para detectar uma sequência cromossômica

Info

Publication number: BR112018074531B1
Application number: BR112018074531-6A
Authority: BR
Inventors: Fuqiang Chen
Original assignee: Sigma-Aldrich Co. Llc
Priority date: 2016-06-02
Filing date: 2017-02-20
Publication date: 2021-01-19
Also published as: US10266851B2; EP3604527B1; JP7220737B2; EP3272867B1; AU2017274145B2; DK3272867T3; KR20190025565A; GB2582731A; IL275244B; JP2021121193A; GB2578802B; DK3604527T3; EP3907286A1; IL295358B2; PT3272867T; JP6878468B2; ES2760477T3; GB2582731B8; GB2578802A; GB201702743D0

Abstract

Composições e métodos para utilizar proteínas de ligação a DNA programáveis para aumentar a eficiência e/ou especificidade de modificação do genoma-alvo ou para facilitar a detecção de locos genômicos específicos em células eucarióticas.

Description

CAMPO

[001] A presente invenção refere-se a composições e métodos para aumentar a eficiência e/ou especificidade de modificação do genoma-alvo.

ANTECEDENTE

[002] As endonucleases programáveis tornaram-se cada vez mais uma importante ferramenta para a engenharia ou modificação do genoma-alvo em eucariotas. Recentemente, sistemas (Cas) (CRISPR/ Cas) associados a (CRISPR)/CRISPR de repetições palindrômicas curtas regularmente intercaladas agrupadas guiadas pelo RNA surgiram como uma nova geração de ferramentas de modificação do genoma. Essas novas endonucleases programáveis melhoraram muito a capacidade de edição do genoma em comparação com as gerações anteriores de nucleases, tais como as nucleases dedo de zinco (ZFNs) e nucleases efetoras semelhantes a ativador de transcrição (TALENs).

[003] Entretanto, nem todos os alvos genômicos são acessíveis à modificação eficiente por essas endonucleases programáveis. De fato, algumas endonucleases CRISPR-Cas parecem ter pouca ou nenhuma atividade nas células humanas. Entre outras coisas, a estrutura da cromatina pode apresentar uma barreira a estas endonucleases programáveis e impedir que se liguem à sequência-alvo. Desse modo, existe uma necessidade de melhorar a acessibilidade destas endonucleases programáveis às sequências alvo e/ou melhorar a eficiência da modificação do genoma-alvo. Além disso, existe uma necessidade de aumentar a especificidade para a modificação do genoma-alvo, reduzindo os efeitos fora do alvo.

SUMÁRIO

[004] Entre os vários aspectos da presente invenção está uma composição compreendendo (a) uma proteína de modificação de DNA programável ou ácido nucleico codificando a proteína de modificação de DNA programável e (b) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável. Em geral, a proteína de modificação de DNA programável tem atividade de nuclease (isto é, cliva ambos as fitas de uma sequência de fita dupla) ou atividade não nuclease (por exemplo, atividade de modificação epigenética ou atividade de regulação transcricional) e a pelo menos uma proteína de ligação a DNA programável não possuiu atividade de nuclease.

[005] Em modalidades nas quais a proteína de modificação de DNA programável tem atividade de nuclease, por exemplo, a proteína de modificação de DNA programável pode ser selecionada de um sistema de nuclease (Cas) (CRISPR/Cas) associado a (CRISPR)/CRISPR de repetições palindrômicas curtas regularmente intercaladas agrupadas guiadas pelo RNA, um sistema de nicase dual CRISPR/Cas, uma nuclease dedo de zinco (ZFN), uma nuclease efetora semelhante a ativador de transcrição (TALEN), uma meganuclease, uma proteína de fusão compreendendo um domínio de ligação ao DNA programável ligado a um domínio de nuclease (isto é, gera um rompimento de DNA de fita dupla) e suas combinações.

[006] Em modalidades nas quais a proteína de modificação de DNA programável tem atividade não nuclease, por exemplo, a proteína de modificação de DNA programável pode ser uma proteína de fusão compreendendo um domínio de ligação ao DNA programável ligado a um domínio de modificação não nuclease. Em certas modalidades, o domínio de ligação a DNA programável da proteína de fusão pode ser um sistema CRISPR/Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco ou um efetor semelhante a ativador de transcrição e o domínio de modificação não nuclease da proteína de fusão pode ter atividade de acetiltransferase, atividade de desacetilase, atividade de metiltransferase, atividade de desmetilase, atividade de cinase, atividade de fosfatase, atividade de ubiquitina ligase, atividade de desubiquitinação, atividade de adenilação, atividade de desadenilação, atividade de SUMOilação, atividade de desSUMOilação, atividade de ribosilação, atividade de desribosilação, atividade de miristoilação, atividade de desmiristoilação, atividade de citrulinação, atividade de helicase, atividade de aminação, atividade de desaminação, atividade de alquilação, atividade de desalquilação, atividade de oxidação, atividade de ativação transcricional ou atividade repressora transcricional. Em modalidades específicas, o domínio de modificação não nuclease da proteína de fusão tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade repressora transcricional.

[007] De acordo com certas modalidades das composições aqui descritas, a pelo menos uma proteína de ligação a DNA programável pode ser um sistema CRISPR/Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco, um efetor semelhante a um ativador de transcrição, uma nicase CRISPR/ Cas, uma nicase ZFN, uma nicase TALEN ou uma nicase de meganuclease.

[008] Em geral, o ácido nucleico codificando a proteína de modificação de DNA programável e/ou a pelo menos uma proteína de ligação a DNA programável é mRNA ou DNA. Em algumas modalidades, o ácido nucleico codificando a proteína de modificação de DNA programável e/ou pelo menos uma proteína de ligação a DNA programável, faz parte de um vetor tal como, por exemplo, um vetor de plasmídeo, um vetor lentiviral, um vetor viral adenoassociado ou um vetor adenoviral.

[009] Em modalidades específicas, a proteína de modificação de DNA programável compreende um sistema de nuclease CRISPR/Cas, um sistema de nicase dual CRISPR/Cas, ou um sistema CRISPR/Cas cataliticamente inativo ligado a um domínio não nuclease e a pelo menos uma proteína de ligação a DNA programável compreende um CRISPR/Cas cataliticamente inativo, em que cada sistema CRISPR/ Cas compreende uma proteína CRISPR/Cas e um RNA guia. Em várias modalidades, cada sistema de nuclease CRISPR/Cas pode ser um sistema CRISPR/Cas tipo I, um sistema CRISPR/Cas tipo II, um sistema CRISPR/Cas tipo III ou um sistema CRISPR/Cas tipo V. Em algumas modalidades, cada RNA guia pode ser pelo menos parcialmente quimicamente sintetizado. Em outras modalidades, cada RNA guia pode ser enzimaticamente sintetizado. Em outras modalidades, o ácido nucleico codificando cada proteína CRISPR/Cas pode ser mRNA e o ácido nucleico codificando cada RNA guia pode ser DNA. Ainda em outras modalidades, o ácido nucleico codificando cada proteína CRISPR/Cas pode ser mRNA e o ácido nucleico codificando cada RNA guia pode ser DNA. Em certos aspectos, o ácido nucleico codificando a proteína CRISPR/Cas e/ou o ácido nucleico codificando o RNA guia podem ser parte de um vetor, por exemplo, um vetor de plasmídeo, um vetor lentiviral, um vetor viral adeno-associado ou um vetor adenoviral.

[0010] Outro aspecto da presente invenção abrange kits compreendendo qualquer uma ou mais das composições detalhadas acima.

[0011] Ainda outro aspecto da presente descrição fornece métodos para aumentar a eficiência de modificação do genoma-alvo e/ou especificidade em uma célula eucariótica. Os métodos envolvem introduzir em uma célula eucariótica (a) uma proteína de modificação de DNA programável ou ácido nucleico codificando a proteína de modificação de DNA programável e (b) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável. A proteína de modificação de DNA programável é direcionada a uma sequência cromossômica alvo e cada uma das pelo menos uma proteína de ligação a DNA programável é direcionada a um sítio proximal à sequência cromossômica alvo. A ligação da pelo menos uma proteína de ligação a DNA programável ao sítio proximal à sequência cromossômica alvo aumenta a acessibilidade da proteína de modificação de DNA programável à sequência cromossômica alvo, aumentando desse método a eficiência e/ou especificidade de modificação do genoma-alvo. O sítio proximal ligado por cada uma das pelo menos uma proteína de ligação a DNA programável está localizado, por exemplo, dentro de cerca de 250 pares de base em quaisquer dos lados da sequência cromossômica alvo. Em algumas modalidades, o sítio de ligação proximal está localizado menos de cerca de 200 pb ou menos de cerca de 100 pb em cada lado da sequência cromossômica alvo.

[0012] A proteína de modificação de DNA programável usada no método pode ser um sistema de nuclease CRISPR/Cas, um sistema de nicase dual CRISPR/Cas, uma nuclease dedo de zinco (ZFN), uma nuclease efetora semelhante a ativador de transcrição (TALEN), uma meganuclease, uma proteína de fusão compreendendo um domínio de ligação a DNA programável ligado a um domínio de nuclease, ou uma proteína de fusão compreendendo um domínio de ligação a DNA programável ligado a um domínio não nuclease. O domínio de ligação a DNA programável da proteína de fusão pode ser um sistema CRISPR/ Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco, ou um efetor semelhante a ativador de transcrição, e o domínio de modificação não nuclease da proteína de fusão pode ter atividade de acetiltransferase, atividade de desacetilase, atividade de metiltransferase, atividade de desmetilase, atividade de cinase, atividade de fosfatase, atividade de ubiquitina ligase, atividade de desubiquitinação, atividade de adenilação, atividade de desadenilação, atividade de SUMOilação, atividade de desSUMOilação, atividade de ribosilação, atividade de desribosilação, atividade de miristoilação, atividade de desmiristoilação, atividade de citrulinação, atividade de helicase, atividade de aminação, atividade de desaminação, atividade de alquilação, atividade de desalquilação, atividade de oxidação, atividade de ativação transcricional ou atividade repressora transcricional. Em modalidades específicas, o domínio de modificação não nuclease da proteína de fusão tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade repressora transcricional.

[0013] A pelo menos uma proteína de ligação a DNA programável usada no método liga-se ao DNA, mas não possui atividade de nuclease (isto é, atividade de clivagem de fita dupla). Em certas modalidades, a pelo menos uma proteína de ligação a DNA programável pode ser um sistema CRISPR/Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco, um efetor semelhante a ativador da transcrição, uma CRISPR/Cas nicase, uma nicase ZFN, uma nicase TALEN ou uma meganuclease nicase.

[0014] Em modalidades específicas, a proteína de modificação de DNA programável compreende um sistema de nuclease CRISPR/Cas, um sistema de nicase dual CRISPR/Cas, ou um sistema CRISPR/Cas cataliticamente inativo ligado a um domínio não nuclease, e pelo menos uma proteína de ligação a DNA programável compreende um sistema CRISPR/Cas cataliticamente inativo, em que cada sistema CRISPR/Cas compreende uma proteína CRISPR/Cas e um RNA guia.

[0015] Em várias modalidades, pelo menos duas, pelo menos três, ou mais de três proteínas de ligação a DNA programáveis são introduzidas na célula eucariótica. Em modalidades específicas, a célula eucariótica é uma célula mamífera ou uma célula humana.

[0016] Outro aspecto da presente invenção abrange métodos para detectar uma sequência cromossômica ou locus genômico em uma célula eucariótica. Os métodos envolvem introduzir na célula eucariótica (a) uma proteína de ligação a DNA programável, compreendendo pelo menos um domínio marcador detectável ou ácido nucleico codificando a proteína de ligação a DNA programável, compreendendo pelo menos um domínio marcador detectável e (b) pelo menos uma proteína de ligação a DNA programável, ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável, em que a proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável é direcionada para uma sequência cromossômica alvo e cada uma das pelo menos uma proteína de ligação a DNA programável destinada a um sítio proximal à sequência cromossômica alvo, em que a ligação da pelo menos uma proteína de ligação a DNA programável ao sítio proximal à sequência cromossômica alvo aumenta a acessibilidade da proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável à sequência cromossômica alvo. Os métodos podem ainda envolver a detecção da proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável ligado à sequência cromossômica alvo. A etapa de detecção pode ser em células vivas ou fixadas e pode envolver, por exemplo, imageamento dinâmico de células vivas, microscopia fluorescente, microscopia confocal, imunofluorescência, imunodetecção, ligação RNA-proteína ou ligação proteína-proteína.

[0017] A proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável que é usado no método de detecção compreende um domínio de ligação ao DNA programável, que pode ser um sistema CRISPR/Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco ou um efetor semelhante a ativador de transcrição. O pelo menos um domínio marcador detectável da proteína de ligação a DNA programável, que compreende pelo menos um domínio marcador detectável pode ser, por exemplo, uma proteína fluorescente, um marcador fluorescente, um marcador de epítopo, ou um epítopo de ocorrência natural dentro da proteína de ligação a DNA programável. Em algumas modalidades, a proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável pode ainda compreender uma modificação não nuclease. A pelo menos uma proteína de ligação a DNA programável liga-se ao DNA mas não tem atividade de nuclease (isto é, atividade de clivagem de fita dupla). Em algumas modalidades, a proteína de ligação a DNA programável, pode ser um sistema CRISPR/Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco, um efetor semelhante a ativador de transcrição, uma nicase CRISPR/Cas, uma nicase ZFN, uma nicase TALEN ou uma nicase de meganuclease. Em modalidades específicas, a proteína de ligação a DNA programável, compreendendo pelo menos um domínio marcador detectável pode ser um sistema CRISPR/Cas cataliticamente inativo ligado a pelo menos um domínio marcador detectável, e a pelo menos uma proteína de ligação a DNA programável, pode ser um sistema CRISPR/Cas cataliticamente inativo.

[0018] Outros aspectos e características da invenção são detalhados abaixo.

BREVE DESCRIÇÃO DAS FIGURAS

[0019] A FIG. 1 fornece um diagrama de uma modalidade dos métodos aqui descritos. A ligação proximal de proteína(s) de ligação ao DNA programáveis aumenta a acessibilidade do sítio-alvo para uma nuclease programável, aumentando assim a eficiência da clivagem no sítio-alvo.

[0020] A FIG. 2 ilustra que a ligação de SpCas9 cataliticamente inativa (SpdCas9) ao(s) sítio(s) proximal(is) aumenta a eficiência de clivagem por FnCas9. As sequências apresentadas na parte superior mostram as localizações relativas do sítio-alvo FnCas9 no locus POR e os sítios de ligação de SpdCas9. Os resultados de um ensaio de nuclease Cel-I são mostrados na parte inferior.

[0021] A FIG. 3A ilustra o planejamento de um experimento para determinar se a ligação de SpCas9 cataliticamente inativa (SpdCas9) aumenta a acessibilidade e ligação de CjCas9 cataliticamente inativa (isto é, marcado por FLAG®) (CjdCas9) a um sítio anteriormente inacessível no locus POR.

[0022] FIG. 3B fornece um diagrama do ensaio de ligação de imunoprecipitação da cromatina utilizado para detectar a ligação de CjdCas9 marcado com epítopo a sítios-alvo nos loci POR e AAVS1.

[0023] A FIG. 3 ilustra que a ligação de SppCas9 a sítios proximais aumenta a ligação de CjCas9 marcado com epítopo a um sítio anteriormente inacessível no locus POR.

[0024] A FIG. 4 ilustra que a ligação de SpCas9 cataliticamente inativa (SpdCas9) a sítios proximais aumenta a eficiência da clivagem por CjCas9. As sequências apresentadas na parte superior mostram as localizações relativas do sítio-alvo CjCas9 no locus POR e nos sítios de ligação de SpdCas9. Os resultados de um ensaio de Cel-I nuclease são mostrados na parte inferior.

[0025] A FIG. 5 ilustra que a ligação de SpCas9 cataliticamente inativa (SpdCas9) a sítios proximais aumenta a eficiência da clivagem por FnCpf1. As localizações relativas do sítio-alvo da FnCpf1 e sítios de ligação SpdCas9 no locus POR estão ilustradas na parte superior e os resultados de um ensaio da Cel-I nuclease são mostrados na parte inferior.

[0026] A FIG. 6 ilustra que a ligação de SpCas9 cataliticamente inativa (SpdCas9) ao(s) sítio(s) proximal(is) aumenta a clivagem específica por CjCas9. Os sítios-alvo de CjCas9 nos loci HBD e HBB, bem como os sítios de ligação de SpdCas9 no locus HBB, são mostrados na parte superior. Os resultados de um ensaio de Cel-I nuclease são mostrados na parte inferior.

[0027] A FIG. 7 ilustra que a ligação de FnCas9 cataliticamente inativa (FndCas9) a sítios proximais aumenta a clivagem específica por SpCas9. As localizações relativas do sítio-alvo SpCas9 e os sítios de ligação FndCas9 no locus POR são indicados na parte superior. Os resultados de um ensaio de Cel-I nuclease são mostrados na parte inferior.

[0028] A FIG. 8 ilustra o realce de edição de gene oligo-mediado por ssDNA. As localizações relativas dos sítios-alvo no locus POR e a sequência do oligo ssDNA são mostradas na parte superior. Os resultados da integração direcionada ao site EcoRI são mostrados na parte inferior. As eficiências de integração do sítio EcoRI (%) foram determinadas pelo ImageJ. M: Marcadores de DNA de amplo alcance. ND: não determinado.

DESCRIÇÃO DETALHADA

[0029] A presente descrição fornece composições e métodos para aumentar a acessibilidade do DNA cromossômico para direcionar endonucleases e outras proteínas de modificação de DNA programáveis, em que a acessibilidade aumentada leva à eficiência e/ou especificidade de modificação do genoma-alvo ou modificação epigenética aumentadas. Verificou-se que algumas endonucleases CRISPR/Cas têm reduzida ou nenhuma atividade em células humanas. É possível que a ocupação, posicionamento do nucleossoma e como uma sequência de DNA é envolvida em torno do octâmero de histona pode determinar quão acessível é a sequência a uma proteína de ligação a DNA (Cherejiet al., Briefing Functional Genomics, 2014, 14: 506-60). Desse modo, é possível que o impedimento imposto pela configuração da cromatina local possa desempenhar um papel na inatividade aparente de muitas endonucleases CRISPR/Cas em células humanas. Foi descoberto, como aqui detalhado, que a ligação de proteínas de ligação a DNA a sítios localizados proximais (isto é, dentro de cerca de 250 pares de base) ao sítio-alvo de uma proteína de modificação de DNA alvo aumenta a acessibilidade da proteína de modificação de DNA alvo ao sítio-alvo, desse método aumentando a eficiência e/ou especificidade de modificação do genoma-alvo ou modificação epigenética alvo. As composições e métodos aqui descritos, portanto, possibilitam eficiente modificação de genoma-alvo/modificação epigenética usando endonucleases CRISPR/Cas que se pensava anteriormente serem inativas nas células humanas. Além disso, as composições e métodos aqui descritos também melhoram a modificação seletiva do genoma entre os sítios-alvo quase idênticos, reduzindo assim os efeitos fora do alvo. (1) Composições

[0030] Um aspecto da presente invenção fornece composições compreendendo (a) proteínas de modificação de DNA programáveis ou ácido nucleico codificando as proteínas de modificação de DNA programáveis e (b) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável. Proteínas de modificação de DNA programáveis são detalhadas abaixo na seção (I) (a), proteínas de ligação a DNA programáveis são detalhadas abaixo na seção (I) (b) e os ácidos nucleicos que codificam estas proteínas são detalhados abaixo na seção (I) (c). (a) Proteínas de Modificação de DNA Programáveis

[0031] Uma proteína de modificação de DNA programável é uma proteína que se liga a uma sequência-alvo específica no DNA cromossômico e modifica o DNA ou uma proteína associada ao DNA na sequência ou perto dela. Desse modo, uma proteína de modificação de DNA programável compreende um domínio de ligação a DNA e um domínio de modificação cataliticamente ativo.

[0032] O domínio de ligação a DNA é programável, na medida em que pode ser planejado ou modificado para reconhecer e ligar diferentes sequências de DNA. Em algumas modalidades, por exemplo, a ligação ao DNA é mediada pela interação entre a proteína e o DNA alvo. Desse modo, o domínio de ligação a DNA pode ser programado para se ligar a uma sequência de DNA de interesse por engenharia de proteínas. Em outras modalidades, por exemplo, a ligação ao DNA mediada por um RNA guia que interage com o domínio de ligação a DNA programável da proteína e o DNA alvo. Em tais casos, o domínio de ligação ao DNA programável pode ser direcionado para uma sequência de DNA de interesse, designando o RNA guia apropriado.

[0033] Uma variedade de domínios de modificação pode ser incluída nas proteínas de modificação de DNA programáveis. Em algumas modalidades, o domínio de modificação é um domínio de nuclease, que tem atividade de nuclease e cliva ambos as fitas de uma sequência de DNA de fita dupla (isto é, gera um rompimento de fita dupla). O rompimento de fita dupla pode então ser reparado por um processo de reparo do DNA celular, tal como reparo de união de extremidade não homóloga (NHEJ) ou direcionado à homologia (HDR). Como uma consequência, a sequência de DNA pode ser modificada por uma deleção, inserção e/ou substituição de pelo menos um par de bases até, por exemplo, muitos milhares de pares de base. Exemplos de proteínas de modificação de DNA programáveis compreendendo domínios de nuclease incluem, sem limitar, sistemas de nuclease CRISPR/Cas, sistemas de nicase dual CRISPR/Cas, nucleases dedo de zinco, nucleases efetoras semelhantes a ativador de transcrição, meganucleases, proteínas de fusão compreendendo um domínio de nuclease ligado a um domínio de ligação a DNA programável, e combinações dos mesmos. Proteínas de modificação de DNA programáveis compreendendo domínios de nuclease são detalhadas abaixo nas seções (I) (a) (i) - (vi).

[0034] Em outras modalidades, o domínio de modificação da proteína de modificação de DNA programável tem atividade não nuclease (por exemplo, atividade de modificação epigenética ou atividade de regulação transcricional) de modo que a proteína de modificação de DNA programável modifique a estrutura e/ou atividade do DNA e/ou proteína(s) associada(s) ao DNA. Desse modo, a proteína de modificação de DNA programável é uma proteína de fusão compreendendo um domínio de modificação não nuclease ligado a um domínio de ligação ao DNA programável. Tais proteínas estão detalhadas abaixo na seção (I) (a) (vii).

[0035] As proteínas de modificação de DNA programáveis podem compreender domínios de ligação e/ou modificação de DNA do tipo selvagem ou de ocorrência natural, versões modificadas de domínios de ligação e/ou modificação de DNA de ocorrência natural, domínios de ligação e/ou modificação de DNA sintéticos ou artificiais, e combinações dos mesmos. (i) Sistemas de Nuclease CRISPR/Cas

[0036] Em algumas modalidades, a proteína de modificação de DNA programável pode ser um sistema de nuclease CRISPR/Cas guiado por RNA, que introduz um rompimento de fita dupla no DNA. O sistema de nuclease CRISPR/Cas compreende uma nuclease CRISPR/Cas e um RNA guia.

[0037] CRISPR/Cas Nuclease. Em certas modalidades, a nuclease CRISPR/Cas pode ser derivada de um sistema CRISPR tipo I (isto é, IA, IB, IC, ID, IE, ou IF), tipo II (isto é, IIA, IIB ou IIC), tipo III (isto é, IIIA ou IIIB), ou tipo V, que estão presentes em várias bactérias e archaea. Por exemplo, o sistema CRISPR/Cas pode ser de Streptococcus sp. (por exemplo, Streptococcus pyogenes), Campylobacter sp. (por exemplo, Campylobacter jejuni), Francisella sp. (por exemplo, Francisella novicida), Acaryocloris sp., Acetohalobium sp., Acidaminococcus sp., Acidithiobacillus sp., Alicyclobacillus sp., Allochromatium sp., Ammonifex sp., Anabaena sp., Arthrospira sp., Bacillus sp., Burkholderiales sp. Caldicelulosiruptor sp., Candidatus sp., Clostridium sp., Crocosphaera sp., Cyanothece sp., Exiguobacterium sp., Finegoldia sp., Ktedonobacter sp., Lachnospiraceaesp., Lactobacillus sp., Lyngbya sp., Marinobacter sp., Methanohalobium sp. , Microscilla sp., Microcoleus sp., Microcystis sp., Natranaerobius sp., Neisseria sp., Nitrosococcus sp., Nocardiopsis sp., Nodularia sp., Nostoc sp., Oscillatoria sp., Polaromonas sp., Pelotomaculum sp., Pseudoalteromonas. sp., Petrotoga sp., Prevotella sp., Staphylococcus sp., Streptomyces sp., Streptosporangium sp., Synechococcus sp., Thermosipho sp. ou Verrucomicrobia sp.. Em ainda outras modalidades, a nuclease CRISPR/Cas pode ser derivada de um sistema CRISPR archaeal, um sistema CRISPR-CasX ou um sistema CRISPR-CasY (Burstein et al., Nature, 2017, 542 (7640): 237- 241).

[0038] Em uma modalidade particular, a nuclease CRISPR/Cas pode ser derivada de um sistema CRISPR/Cas do tipo I. Em outra modalidade particular, a nuclease CRISPR/Cas pode ser derivada de um sistema CRISPR/Cas tipo II. Em outra modalidade particular, a nuclease CRISPR/Cas pode ser derivada de um sistema CRISPR/Cas tipo III. Em outra modalidade particular, a nuclease CRISPR/Cas pode ser derivada de um sistema CRISPR/Cas tipo V.

[0039] Exemplos não limitantes de proteínas CRISPR adequadas incluem proteínas Cas, proteínas Cpf, proteínas C2c (por exemplo, C2c1, C2c2, Cdc3), proteínas Cmr, proteínas Csa, proteínas Csb, proteínas Csc, proteínas Cse, proteínas Csf, proteínas Csm, Proteínas Csn, proteínas Csx, proteínas Csy, proteínas Csz, e seus derivados ou variantes. Em modalidades específicas, a nuclease CRISPR/Cas pode ser uma proteína Cas9 de tipo II, uma proteína Cpf1 de tipo V ou um seu derivado.

[0040] Em algumas modalidades, a nuclease CRISPR/Cas pode ser Streptococcus pyogenes Cas9 (SpCas9) ou Streptococcus thermophilus Cas9 (StCas9). Em outras modalidades, a nuclease CRISPR/Cas pode ser Campylobacter jejuni Cas9 (CjCas9). Em modalidades alternativas, a nuclease CRISPR/Cas pode ser Franscisella novicida Cas9 (FnCas9). Ainda em outras modalidades, a nuclease CRISPR/Cas pode ser Neisseria cinerea Cas9 (NcCas9). Em outras modalidades, a nuclease CRISPR/Cas pode ser Francisella novicida Cpf1 (FnCpf1), Acidaminococcus sp. Cpf1 (AsCpf1), ou Lachnospiraceae bacterium ND2006 Cpf1 (LbCpf1).

[0041] Em geral, a nuclease CRISPR/Cas compreende um domínio de reconhecimento de RNA e/ou de ligação de RNA, que interage com o RNA guia. A nuclease CRISPR/Cas também compreende pelo menos um domínio de nuclease que possui atividade de endonuclease. Por exemplo, uma proteína Cas9 compreende um domínio de nuclease semelhante a RuvC e um domínio de nuclease semelhante a HNH, e uma proteína Cpf1 compreende um domínio semelhante a RuvC. As nucleases CRISPR/Cas podem também compreender domínios de ligação ao DNA, domínios de helicase, domínios de RNase, domínios de interação proteína-proteína, domínios de dimerização, bem como outros domínios.

[0042] A nuclease CRISPR/Cas pode ainda compreender pelo menos um sinal de localização nuclear, domínio de penetração celular e/ou domínio marcador. Exemplos não limitantes de sinais de localização nuclear incluem PKKKRKV (SEQ ID NO: 1), PKKKRRV (SEQ ID NO: 2), KRPAATKKAGQAKKKK (SEQ ID NO: 3), YGRKKRRQRRR (SEQ ID NO: 28, RKKRRQRRR (SEQ ID NO: 29), PAAKRVKLD (SEQ ID NO: 30), RQRRNELKRSP (SEQ ID NO: 31), VSRKRPRP (SEQ ID NO: 32), PPKKARED (ID SEQ NO: 33), PQPKKKPL (SEQ ID NO: 34), SALIKKKKKMAP ( SEQ ID NO: 35), PKQKKRK (SEQ ID NO: 36), RKLKKKIKKL (ID SEQ NO: 37), REKKKFLKRR (ID SEQ NO: 38), KRKGDEVDGVDEVAKKKSKK (ID SEQ NO: 39), RKCLQAGMNLEARKTKK (SEQ ID NO: 40), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 41), e RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO: 42). Exemplos de domínio de penetração celular adequados incluem, sem limitar, GRKKRRQRRRPPQPKKKRKV (SEQ ID NO: 4), PLSSIFSRIGDPPKKKRKV (SEQ ID NO: 5) , GALFLGWLGAAGSTMGAPKKKRKV (ID SEQ NO: 6), GALFLGFLGAAGSTMGAWSQPKKKRKV (ID SEQ NO: 7), KETWWETWWTEWSQPKKKRKV (SEQ ID NO: 8), YARAAARQARA (ID SEQ NO: 43), THRLPRRRRRR (SEQ ID NO: 44), GGRRARRRRRR (SEQ ID NO: 45), RRQRRTSKLMKR (SEQ ID NO: 46), GWTLNSA GYLLGKINLKALAALAKKIL (ID SEQ NO: 47), KALAWEAKLAKALAKALAKHLAKALAKALKCEA (SEQ ID NO: 48) e RQIKIWFQNRRMKWKK (SEQ ID NO: 49). Domínios marcadores incluem proteínas fluorescentes e marcadores de purificação ou epítopo. As proteínas fluorescentes adequadas incluem, sem limitar, proteínas fluorescentes verdes (por exemplo, GFP, eGFP, GFP-2, tagGFP, turboGFP, Esmeralda, Azami Green, Monomífico Azami Green, CopGFP, AceGFP, ZsGreen1), proteínas fluorescentes amarelas (por exemplo, YFP, EYFP, Citrino, Vênus, YPet, PhiYFP, ZsYellow1), proteínas fluorescentes azuis (por exemplo, BFP, EBFP, EBFP2, Azurita, mKalama1, GFPuv, safira, T-safira), proteínas fluorescentes ciano (por exemplo, ECFP, Cerulean, CyPet, AmCyan1, Midoriishi-Cyan), proteínas fluorescentes vermelhas (por exemplo, mKate, mKate2, mPlum, monômero DsRed, mCherry, mRFP1, DsRed- Express, DsRed2, DsRed-Monômero, HcRed-Tandem, HcRed1, AsRed2, eqFP611, mRasberry, mStrawberry, Jred), e proteínas fluorescentes laranja (por exemplo, mOrange, mKO, Kusabira-Laranja, Monomérico Kusabira-Laranja, mTangerina, tdTomato). Exemplos não limitantes de marcadores de purificação ou epítopo adequados incluem 6xHis, FLAGH, HA, GST, Myc e similares.

[0043] O sinal de localização nuclear, o domínio de penetração celular e/ou o domínio marcador podem estar localizados na terminação N, na terminação C ou em uma localização interna da proteína. Em algumas modalidades, a nuclease CRISPR/Cas pode ainda compreender pelo menos um marcador detectável. O marcador detectável pode ser um fluoróforo (por exemplo, FAM, TMR, Cy3, Cy5, Vermelho Texas, Verde Oregon, Flúores Alexa, marcadores Halo ou marcador/corante fluorescente adequado), um cromóforo (por exemplo, biotina, digoxigenina e similares), pontos quânticos ou partículas de ouro. O marcador detectável pode ser ligado por meio de recursos convencionais a qualquer aminoácido da proteína.

[0044] RNA Guia. O sistema de nuclease CRISPR/Cas também compreende um RNA guia (gRNA). O RNA guia interage com a nuclease CRISPR/Cas e o sítio-alvo para guiar a nuclease CRISPR/Cas ao sítio-alvo na sequência cromossômica. O sítio-alvo não tem nenhuma limitação de sequência, exceto que a sequência é limitada por um motivo adjacente protoespaçador (PAM). Por exemplo, as sequências de PAM para proteínas Cas9 incluem 3'-NGG, 3'- NGGNG, 3'-NNAGAAW e 3'-ACAY, e as sequências de PAM para Cpf1 incluem 5'-TTN (onde N é definido como qualquer nucleotídeo, W é definido como A ou T e Y é definido como C ou T).

[0045] Cada RNA guia pode compreender três regiões: uma primeira região na extremidade 5' que tem complementaridade com o sítio-alvo na sequência de DNA cromossômico, uma segunda região que é interna e forma uma estrutura haste-alça, e uma terceira região na extremidade 3' que permanece essencialmente de fita simples. A segunda e terceira regiões formam uma estrutura secundária que interage com a proteína CRISPR/Cas. A primeira região de cada RNA guia é diferente (isto é, é específica da sequência). A segunda e a terceira regiões podem ser iguais em RNAs guia que se complexam com uma proteína CRISPR/Cas particular.

[0046] A primeira região do RNA guia tem complementaridade com a sequência (isto é, sequência protoespaçadora) no sítio-alvo, de modo que, a primeira região do RNA guia possa formar par de base com a sequência-alvo. Por exemplo, a primeira região de um RNA guia SpCas9 pode compreender GN17-20GG. Em geral, a complementaridade entre a primeira região (isto é, crRNA) do RNA guia e a sequência-alvo é de pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, ou mais. Em várias modalidades, a primeira região do RNA guia pode compreender de cerca de 10 nucleotídeos a mais que cerca de 25 nucleotídeos. Por exemplo, a região de pareamento de bases entre a primeira região do RNA guia e o sítio-alvo na sequência de cDNA pode ser de aproximadamente 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 24, 25 ou mais de 25 nucleotídeos de comprimento. Em uma modalidade exemplar, a primeira região do RNA guia tem cerca de 19, 20 ou 21 nucleotídeos de comprimento.

[0047] O RNA guia também compreende uma segunda região que forma uma estrutura secundária. Em algumas modalidades, a estrutura secundária compreende pelo menos uma haste (ou grampo de cabelo) e uma alça. O comprimento de cada alça e da haste podem variar. Por exemplo, a alça pode variar de cerca de 3 a cerca de 10 nucleotídeos de comprimento, e a haste pode variar de cerca de 6 a cerca de 20 pares de base de comprimento. A haste pode compreender uma ou mais protuberâncias de 1 a cerca de 10 nucleotídeos. Desse modo, o comprimento total da segunda região pode variar de cerca de 16 a cerca de 60 nucleotídeos de comprimento. O RNA guia também compreende uma terceira região na extremidade 3' que permanece essencialmente de fita simples. Desse modo, a terceira região não tem nenhuma complementaridade com qualquer sequência de ácido nucleico na célula de interesse e não tem complementaridade com o resto do RNA guia. O comprimento da terceira região pode variar. Em geral, a terceira região tem mais de cerca de 4 nucleotídeos de comprimento. Por exemplo, o comprimento da terceira região pode variar de cerca de 5 a cerca de 60 nucleotídeos de comprimento.

[0048] O comprimento combinado da segunda e terceira regiões (também chamado a região universal ou de estrutura) do RNA guia pode variar de cerca de 30 a cerca de 120 nucleotídeos de comprimento. Em um aspecto, o comprimento combinado da segunda e terceira regiões do RNA guia varia de cerca de 70 a cerca de 100 nucleotídeos de comprimento.

[0049] Ainda em outras modalidades, a segunda e a terceira regiões do RNA guia podem compreender uma ou mais regiões haste- alça adicionais, em que as regiões haste-alça compreendem sequências de aptâmero (Konermannet al., Nature 3, 2015, 517 (7536)): 583-588; Zalatan et al., Cell, 2015, 160 (1-2): 339-50). Sequências de aptâmeros adequadas incluem aquelas que ligam proteínas adaptadoras escolhidas de MS2, PP7, COM, Q2, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI ID2, NL95, TW19, AP205, ΦCb5, ΦCb8r, ΦCb12r, ΦCb23r, 7s, PRR1, HSF1, AID, APOBEC1, p300, TET1 / 2/3, VP64, GFP, Rta, p65, MyoD1 ou VP160. Em tais modalidades, o comprimento total da segunda e terceira regiões do RNA guia pode variar até cerca de 125 nucleotídeos, até cerca de 150 nucleotídeos, até cerca de 175 nucleotídeos, até cerca de 200 nucleotídeos, até cerca de 225 nucleotídeos, até cerca de 250 nucleotídeos, até cerca de 275 nucleotídeos, ou até cerca de 300 nucleotídeos.

[0050] Em algumas modalidades, o RNA guia pode ser uma única molécula compreendendo todas as três regiões. Em outras modalidades, o RNA guia pode compreender duas moléculas separadas. A primeira molécula de RNA (isto é, crRNA) pode compreender a primeira região do RNA guia e metade da "haste" da segunda região do RNA guia. A segunda molécula de RNA (isto é, tracrRNA) pode compreender a outra metade da "haste" da segunda região do RNA guia e a terceira região do RNA guia. Desse modo, nesta modalidade, a primeira e segunda moléculas de RNA contêm, cada uma, uma sequência de nucleotídeos que são complementares entre si. Por exemplo, em uma modalidade, as moléculas de RNA crRNA e tracrRNA compreendem, cada uma, uma sequência (de cerca de 6 a cerca de 20 nucleotídeos) que formam pares de base com a outra sequência para formar um RNA guia funcional. Por exemplo, o RNA guia de sistemas CRISPR/Cas tipo II pode compreender crRNA e tracrRNA. Em alguns aspectos, o crRNA para um sistema CRISPR/Cas tipo II pode ser quimicamente sintetizado e o tracrRNA para o sistema CRISPR/Cas tipo II pode ser sintetizado in vitro (veja seção (I)(c) abaixo). Em outras modalidades, o RNA guia de sistemas CRISPR/Cas do tipo V pode compreender apenas crRNA.

[0051] O RNA guia pode compreender ribonucleotídeos padrão, ribonucleotídeos modificados (por exemplo, pseudouridina), isômeros de ribonucleotídeo e/ou análogos ribonucleotídeo. Em algumas modalidades, o RNA guia pode ainda compreender pelo menos um marcador detectável. O marcador detectável pode ser um fluoróforo (por exemplo, FAM, TMR, Cy3, Cy5, Vermelho Texas, Verde Oregon, Flúores Alexa, marcadores Halo, ou corante fluorescente adequado), um cromóforo (por exemplo, biotina, digoxigenina e similares), pontos quânticos ou partículas de ouro. Aqueles versados na técnica são familiarizados com planejamento e construção de gRNA, por exemplo, ferramentas de planejamento de gRNA estão disponíveis na internet ou de fontes comerciais.

[0052] O RNA guia pode ser quimicamente sintetizado, enzimaticamente sintetizado ou uma combinação destes. Por exemplo, o RNA guia pode ser sintetizado usando métodos de síntese em fase sólida com base em fosforamidito. Alternativamente, o RNA guia pode ser sintetizado in vitro operavelmente ligando o DNA que codifica o RNA guia a uma sequência de controle promotora que é reconhecida por uma polimerase de RNA do fago. Exemplos de sequências promotoras de fagos adequadas incluem sequências promotoras T7, T3, SP6, ou variações das mesmas. Em modalidades nas quais o RNA guia compreende duas moléculas separadas (isto é, crRNA e tracrRNA), o crRNA pode ser quimicamente sintetizado e o tracrRNA pode ser enzimaticamente sintetizado. O ácido nucleico codificando o RNA guia pode ser parte de um vetor plasmídeo, que pode ainda compreender sequências adicionais de controle de expressão (por exemplo, sequências realçadoras, sequências Kozak, sequências de poliadenilação, sequências de terminação transcricional, etc.), sequências marcadoras selecionáveis (por exemplo, genes com resistência a antibiótico), origens de replicação, e similares. Como detalhado abaixo na seção (I)(c), o ácido nucleico codificando o RNA guia pode ser operavelmente ligado a uma sequência de controle promotora que é reconhecida pela RNA polimerase III (Pol III) para expressão em células eucarióticas. (ii) Sistemas de Nicase Dual CRISPR/Cas

[0053] Em outras modalidades, a proteína de modificação de DNA programável pode ser um sistema de nicase dual CRISPR/Cas. Os sistemas de nicase dual CRISPR/Cas são similares aos sistemas de nuclease CRISPR/Cas descritos acima na seção (I)(a)(i), exceto que a nuclease CRISPR/Cas é modificada para clivar apenas uma fita de DNA. Desse modo, um sistema de nicase CRISPR/Cas simples cria um rompimento de fita simples ou um entalhe em DNA de fita dupla, e um sistema de nicase dual CRISPR/Cas pareado compreendendo RNAs guia de haste pareado cria um rompimento de fita dupla no DNA.

[0054] Uma nuclease CRISPR/Cas pode ser convertida em uma nicase por uma ou mais mutações e/ou deleções. Por exemplo, uma nicase Cas9 pode compreender uma ou mais mutações em um dos domínios de nuclease (por exemplo, o domínio semelhante a RuvC ou o domínio semelhante a HNH). Por exemplo, uma ou mais mutações podem ser D10A, D8A, E762A e/ou D986A no domínio semelhante a RuvC ou uma ou mais mutações podem ser H840A, H559A, N854A, N856A e/ou N863A no domínio semelhante a HNH. (iii) Nucleases Dedo de Zinco

[0055] Ainda em outras modalidades, a proteína de modificação de DNA programável pode ser uma nuclease dedo de zinco (ZFN). Uma ZFN compreende uma região dedo de zinco de ligação ao DNA e um domínio de nuclease. A região do dedo de zinco pode compreender cerca de dois a sete dedos de zinco, por exemplo, cerca de quatro a seis dedos de zinco, em que cada dedo de zinco se liga a três nucleotídeos. A região dedo de zinco pode ser modificada para reconhecer e ligar-se a qualquer sequência de DNA. Ferramentas de planejamento de dedo de zinco ou algoritmos estão disponíveis na internet ou de fontes comerciais. Os dedos de zinco podem ser ligados entre si usando sequências ligantes adequadas.

[0056] Uma ZFN também compreende um domínio de nuclease, que pode ser obtido a partir de qualquer endonuclease ou exonuclease. Exemplos não limitantes de endonucleases das quais um domínio de nuclease pode ser derivado incluem, porém não estão limitados a endonucleases de restrição e endonucleases de origem. Em algumas modalidades, o domínio de nuclease pode ser derivado de uma endonuclease de restrição do tipo II-S. As endonucleases do tipo II-S clivam o DNA em sítios que são tipicamente vários pares de base afastados do sítio de reconhecimento/ligação e, como tal, têm domínios de ligação e clivagem separáveis. Estas enzimas são geralmente monômeros que se associam transitoriamente para formar dímeros para clivar cada fita de DNA em localizações escalonadas. Exemplos não limitantes de endonucleases do tipo II-S adequadas incluem BfiI, BpmI, BsaI, Bsgl, BsmBI, BsmI, BspMI, FokI, MboII e SapI. Em algumas modalidades, o domínio de nuclease pode ser um domínio de nuclease de FokI ou um seu derivado. O domínio de nuclease do tipo II-S pode ser modificado para facilitar a dimerização de dois domínios de nucleases diferentes. Por exemplo, o domínio de clivagem de FokI pode ser modificado por mutação de certos resíduos de aminoácidos. A título de exemplo não limitantes, os resíduos de aminoácido nas posições 446, 447, 479, 483, 484, 486, 487, 490, 491, 496, 498, 499, 500, 531, 534, 537 e 538 de domínios de FokI nuclease são alvos para modificação. Por exemplo, um domínio FokI modificado pode compreender mutações Q486E, I499L e/ou N496D, e o outro domínio FokI modificado pode compreender mutações E490K, I538K e/ou H537R.

[0057] A ZFN pode ainda compreender pelo menos um sinal de localização nuclear, domínio de penetração celular e/ou domínio marcador, que são descritos acima na seção (I)(a)(i). (iv) Nucleases Efetoras semelhantes a Ativador de Transcrição

[0058] Em modalidades alternativas, a proteína de modificação de DNA programável pode ser uma nuclease efetora semelhante a ativador de transcrição (TALEN). TALENs compreendem um domínio de ligação a DNA composto de repetições altamente conservadas derivadas de efetores semelhantes a ativador da transcrição (TALEs) que é ligado a um domínio de nuclease. TALEs são proteínas secretadas pelo patógeno de planta Xanthomonas para alterar a transcrição de genes em células de planta hospedeira. As matrizes de repetição TALE podem ser modificadas por meio de planejamento de proteína modular para atingir qualquer sequência de DNA de interesse. O domínio de nuclease de TALENs pode ser qualquer domínio de nuclease como descrito acima na seção (I)(a)(iii). Em modalidades específicas, o domínio de nuclease é derivado de FokI (Sanjana et al., 2012, Nat Protoc, 7 (1): 171-192).

[0059] O TALEN também pode compreender pelo menos um sinal de localização nuclear, domínio de penetração celular, domínio marcador e/ou marcador detectável, que são descritos acima na seção (I)(a)(i). (v) Meganucleases ou Endonucleases de Corte Raro

[0060] Em ainda outras modalidades, a proteína de modificação de DNA programável pode ser uma meganuclease ou um seu derivado. As meganucleases são endodeoxirribonucleases caracterizadas por sequências longas de reconhecimento, isto é, a sequência de reconhecimento varia geralmente de cerca de 12 pares de base até cerca de 45 pares de base. Como consequência deste requisito, a sequência de reconhecimento geralmente ocorre apenas uma vez em qualquer genoma dado. Entre as meganucleases, a família de endonucleases homing, denominada LAGLIDADG, tornou-se uma ferramenta valiosa para o estudo de genomas e engenharia do genoma. Em algumas modalidades, a meganuclease pode ser I-SceI, I-TevI ou suas variantes. Uma meganuclease pode ser direcionada para uma sequência cromossômica específica modificando sua sequência de reconhecimento utilizando técnicas bem conhecidas por aqueles versados na técnica.

[0061] Em modalidades alternativas, a proteína de modificação de DNA programável pode ser uma endonuclease de corte raro ou seu derivado. Endonucleases de corte raro são endonucleases específicas do sítio cuja sequência de reconhecimento ocorre raramente em um genoma, de preferência apenas uma vez em um genoma. A endonuclease de corte raro pode reconhecer uma sequência de 7 nucleotídeos, uma sequência de 8 nucleotídeos ou uma sequência de reconhecimento mais longa. Exemplos não limitantes de endonucleases de corte raro incluem NotI, AscI, PacI, AsiSI, SbfI e FseI.

[0062] A meganuclease ou endonuclease de corte raro também pode compreender pelo menos um sinal de localização nuclear, domínio de penetração celular, domínio marcador e/ou marcador detectável, que são descritos acima na seção (I)(a)(i). (vi) Proteínas de Fusão Programáveis Compreendendo Domínios de Nuclease

[0063] Em ainda modalidades adicionais, a proteína de modificação de DNA programável pode ser uma proteína de fusão compreendendo um domínio de ligação ao DNA programável ligado a um domínio de nuclease (clivagem de fita dupla). O domínio de nuclease da proteína de fusão pode ser qualquer um daqueles acima descritos na seção (I)(a)(iii), um domínio de nuclease derivado de uma nuclease CRISPR/Cas (por exemplo, domínios de nuclease semelhantes a RuvC ou semelhantes a HNH de Cas9 ou domínio de nuclease de Cpf1), ou um domínio de nuclease derivado de uma meganuclease ou endonuclease de corte raro.

[0064] O domínio de ligação ao DNA programável da proteína de fusão pode ser uma endonuclease programável (isto é, nuclease CRISPR/CAS ou meganuclease) modificada para não ter toda a atividade da nuclease. Desse modo, o domínio de ligação a DNA da proteína de fusão pode ser um sistema CRISPR/Cas cataliticamente inativo ou uma meganuclease cataliticamente inativa. Alternativamente, o domínio de ligação a DNA programável da proteína de fusão pode ser uma proteína de ligação a DNA programável, tal como, por exemplo, uma proteína dedo de zinco ou um efetor semelhante a ativador de transcrição. Em algumas modalidades, o domínio de ligação ao DNA programável pode ser uma nuclease CRISPR/Cas cataliticamente inativa na qual a atividade da nuclease foi eliminada por mutação e/ou deleção. Por exemplo, a proteína CRISPR/Cas cataliticamente inativa pode ser uma Cas9 (morta) cataliticamente inativa (morta) (dCas9) em que o domínio semelhante a RuvC compreende uma mutação D10A, D8A, E762A, e/ou D986A e o domínio semelhante a HNH compreende uma mutação H840A, H559A, N854A, N865A e/ou N863A. Alternativamente, a proteína CRISPR/Cas cataliticamente inativa pode ser uma proteína Cpf1 cataliticamente inativa (morta) compreendendo mutações comparáveis no domínio de nuclease. Ainda em outras modalidades, o domínio de ligação a DNA programável pode ser uma meganuclease cataliticamente inativa na qual a atividade da nuclease foi eliminada por mutação e/ou deleção, por exemplo, a meganuclease cataliticamente inativa pode compreender uma truncação de terminação C.

[0065] A proteína de fusão compreendendo a atividade de nuclease também pode compreender pelo menos um sinal de localização nuclear, domínio de penetração celular, domínio marcador e/ou marcador detectável, que são descritos acima na seção (I)(a)(i). (vii) Proteínas de Fusão Programáveis/Complexos Compreendendo Domínios Não Nuclease

[0066] Em modalidades alternativas, a proteína de modificação de DNA programável pode ser uma proteína de fusão compreendendo um domínio de ligação a DNA programável ligado a um domínio de modificação não nuclease. Domínios de ligação de DNA programáveis adequados são descritos acima na seção (I)(a)(vi).

[0067] Em algumas modalidades, o domínio de modificação não nuclease pode ser um domínio de modificação epigenética, que altera a estrutura de DNA ou cromatina (e pode ou não alterar a sequência de DNA). Exemplos não limitantes de domínios de modificação epigenética adequados incluem aqueles com atividade de DNA metiltransferase (por exemplo, citosina metiltransferase), atividade de DNA desmetilase, desaminação de DNA (por exemplo, citosina desaminase, adenosina desaminase, guanina desaminase), aminação de DNA, atividade de DNA helicase, atividade de histona acetiltransferase (HAT) (por exemplo, domínio HAT derivado da proteína de ligação E1A p300), atividade de histona desacetilase, atividade de histona metiltransferase, atividade de histona desmetilase, atividade de histona cinase, atividade de histona fosfatase, atividade de histona ubiquitina ligase, atividade de histona desubiquitinação, atividade de histona adenilação, atividade de histona desadenilação, atividade de histona SUMOilação, atividade de histona desSUMOilação, atividade de ribosilação de histona, atividade de desribosilação de histona, atividade de miristoilação de histona, atividade de desmistoilação de histona, atividade de citrulinação de histona, atividade de alquilação de histona, atividade de desalquilação de histona ou atividade de oxidação de histona. Em modalidades específicas, o domínio de modificação epigenética pode compreender atividade de citosina desaminase, atividade de histona acetiltransferase ou atividade de DNA metiltransferase.

[0068] Em outras modalidades, o domínio de modificação não nuclease pode ser um domínio de ativação transcricional ou domínio repressor transcricional. Os domínios de ativação transcricional adequados incluem, sem limitar, o domínio VP16 do vírus herpes simples, domínios de ativação VP64 (que é um derivado tetramérico de VP16), VP160, NFKB p65, domínios de ativação p53 1 e 2, domínios de ativação CREB (proteína de ligação ao elemento resposta cAMP), domínios de ativação E2A, domínio de ativação de fator 1 de choque térmico humano (HSF1) ou domínios de ativação NFAT (fator nuclear de células T ativadas). Exemplos não limitantes de domínios repressores transcricionais adequados incluem domínios repressores precoces de cAMP induzíveis (ICER), domínios repressores da caixa A associados a Kruppel (KRAB-A), domínios repressores ricos em glicina YY1, repressores semelhantes a Sp1, repressores E (spl), repressor IkB, ou MeCP2. Os domínios de ativação transcricional ou repressores transcricionais podem ser geneticamente fundidos à proteína de ligação a DNA ou ligados por meio de interações não covalentes de proteína-proteína, proteína-RNA ou proteína-DNA.

[0069] Em modalidades nas quais a proteína de modificação de DNA programável compreende um sistema CRISPR/Cas, o RNA guia do sistema CRISPR/Cas pode compreender sequências de aptâmeros que ligam ativadores transcricionais, repressores transcricionais, ou proteínas de modificação epigenética (Konermannet al., Nature, 2015, 517 (7536): 583-588, Zalatanet al., Cell, 2015, 160 (1-2): 339-50).

[0070] A proteína de fusão compreendendo atividade não nuclease também pode compreender pelo menos um sinal de localização nuclear, domínio de penetração celular, domínio marcador e/ou marcador detectável, que são descritos acima na seção (I)(a)(i) . (b) Proteínas de ligação a DNA programáveis

[0071] A composição também compreende pelo menos uma proteína de ligação a DNA programável. Proteínas de ligação de DNA programáveis são proteínas que se ligam a sequências de DNA específicas, mas não modificam o DNA ou proteína(s) associada com o DNA.

[0072] Em algumas modalidades, a pelo menos uma proteína de ligação a DNA programável pode ser uma nuclease CRISPR/Cas modificada para não ter atividade de nuclease. Por exemplo, a proteína de ligação a DNA programável pode ser um sistema CRISPR/Cas cataliticamente inativo. Para isso, a nuclease CRISPR/Cas pode ser modificada por mutação e/ou deleção para eliminar toda a atividade da nuclease. Em uma modalidade, o domínio semelhante a RuvC e o domínio semelhante a HNH compreendem ambos uma ou mais mutações e/ou deleções para eliminar a atividade da nuclease. Por exemplo, a proteína CRISPR/Cas cataliticamente inativa pode ser uma Cas9 cataliticamente inativa (morta) (dCas9) em que o domínio semelhante a RuvC compreende uma mutação D10A, D8A, E762A, e/ou D986A e o domínio semelhante a HNH compreende uma mutação H840A, H559A, N854A, N856A e/ou N863A. Alternativamente, a proteína CRISPR/Cas cataliticamente inativa pode ser uma proteína Cpf1 cataliticamente inativa (morta) compreendendo mutações comparáveis no domínio de nuclease. Em outros aspectos, a proteína de ligação a DNA programável, pode ser uma proteína CRISPR/Cas modificada para cortar uma fita de uma sequência de fita dupla (isto é, uma nicase), como detalhado acima na seção (I)(a)(ii).

[0073] Em outras modalidades, a pelo menos uma proteína de ligação a DNA programável pode ser uma meganuclease cataliticamente inativa na qual a atividade da nuclease foi eliminada por mutação e/ou deleção, por exemplo, a meganuclease cataliticamente inativa pode compreender uma truncação de terminação C. Ainda em outras modalidades, a pelo menos uma proteína de ligação a DNA programável, pode ser uma proteína dedo de zinco ou um efetor semelhante a um ativador da transcrição (TALE). Em modalidades adicionais, a pelo menos uma proteína de ligação a DNA programável pode ser uma nicase CRISPR/Cas, uma nicase ZFN, uma nicase TALEN ou uma nicase de meganuclease. Nicases ZFN, TALEN e de meganuclease compreendem mutações e/ou deleções em um dos domínios de nuclease ou metade dos domínios, de método tal que a nicase clive apenas uma fita de uma sequência de fita dupla.

[0074] A proteína de ligação ao DNA programável também pode compreender pelo menos um sinal de localização nuclear, domínio de penetração celular, domínio marcador e/ou marcador detectável, que são descritos acima na seção (I)(a)(i). (c) Ácidos nucléicos que codificam proteínas de modificação de DNA programáveis ou proteínas de ligação de DNA programáveis

[0075] O ácido nucleico codificando a proteína de modificação de DNA programável, descrita acima na seção (I)(a), ou a proteína de ligação a DNA programável, descrita acima na seção (I)(b), pode ser DNA ou RNA, linear ou circular, de fita simples ou fita dupla. O RNA ou DNA pode ser otimizado por códon para translação eficiente em proteína na célula eucariótica de interesse. Programas de otimização de códon estão disponíveis como freeware ou de fontes comerciais.

[0076] Em algumas modalidades, o ácido nucleico codificando a proteína de modificação de DNA programável ou a pelo menos uma proteína de ligação a DNA programável pode ser mRNA. O mRNA pode ser sintetizado in vitro. Para isto, o DNA que codifica a proteína de modificação de DNA ou a pelo menos uma proteína de ligação a DNA podem ser operavelmente ligados a uma sequência promotora que é reconhecida por uma RNA polimerase de fago para a síntese in vitro de mRNA. Por exemplo, a sequência promotora pode ser uma sequência promotora T7, T3 ou SP6 ou uma variação de uma sequência promotora T7, T3 ou SP6. Em tais modalidades, o RNA transcrito in vitro pode ser purificado, tamponado e/ou poliadenilado. Como detalhado abaixo, o DNA que codifica a proteína de modificação de DNA ou a proteína de ligação a DNA faz parte de um vetor.

[0077] Em outras modalidades, o ácido nucleico codificando a proteína de modificação de DNA programável ou a pelo menos uma proteína de ligação a DNA programável pode ser DNA. A sequência de DNA que codifica a proteína de modificação de DNA programável ou a pelo menos uma proteína de ligação a DNA programável pode ser operavelmente ligada a pelo menos uma sequência de controle promotora para expressão na célula de interesse. Em algumas modalidades, a sequência de codificação de DNA também pode ser ligada a um sinal de poliadenilação (por exemplo, sinal poliA de SV40, sinal poliA de hormônio de crescimento bovino (BGH), etc.) e/ou pelo menos uma sequência de terminação da transcricional.

[0078] Em certas modalidades, a sequência de codificação de DNA pode ser operavelmente ligada a uma sequência promotora para expressão da proteína de modificação de DNA ou da proteína de ligação a DNA em células bacterianas (por exemplo, E. coli) ou células eucarióticas (por exemplo, levedura, inseto ou mamífero). Promotores bacterianos adequados incluem, sem limitar, promotores T7, promotores lac operon, promotores trp, promotores tac (que são híbridos de promotores trp e lac), variações de qualquer um dos anteriores e combinações de qualquer um dos anteriores. Exemplos não limitantes promotores eucarióticos adequados incluem promotores constitutivos, regulados ou específicos de células ou tecidos. Sequências de controle do promotor constitutivo eucariótico incluem, porém não estão limitados a, promotor precoce imediato de citomegalovírus (CMV), promotor do vírus símio (SV40), promotor tardio principal do adenovírus, promotor do vírus do sarcoma de Rous (RSV), promotor do vírus do tumor mamário de camundongo (MMTV) promotor de fosfoglicerato cinase (PGK), promotor do fator de alongamento (ED1)-alfa, promotores de ubiquitina, promotores de actina, promotores de tubulina, promotores de imunoglobulina, seus fragmentos ou combinações de qualquer um dos anteriores. Exemplos de sequências de controle de promotor reguladas eucarióticas adequadas incluem, sem limitação, aquelas reguladas por choque térmico, metais, esteroides, antibióticos ou álcool. Exemplos não limitantes de promotores específicos de tecido incluem o promotor B29, promotor CD14, promotor CD43, promotor CD45, promotor CD68, promotor desmina, promotor elastase-1, promotor endoglina, promotor fibronectina, promotor Flt-1, promotor GFAP, promotor GPIIb, Promotor ICAM-2, promotor INF-β, promotor Mb, promotor NphsI, promotor OG-2, promotor SP-B, promotor SYN1 e promotor WASP. A sequência promotora pode ser do tipo selvagem ou pode ser modificada para uma expressão mais eficiente ou eficaz.

[0079] Em várias modalidades, o ácido nucleico codificando a proteína de modificação de DNA programável e/ou a pelo menos uma proteína de ligação a DNA programável pode estar presente em um vetor. Vetores adequados incluem vetores de plasmídeo, fagemídeos, cosmídeos, artificiais/minicromossomas, transposons e vetores virais (por exemplo, vetores lentivirais, vetores virais adeno-associados, vetores adenovirais, etc.). Em uma modalidade, o DNA que codifica a proteína de modificação de DNA programável e/ou a pelo menos uma proteína de ligação a DNA programável pode estar presente em um vetor de plasmídeo. Exemplos não limitantes de vetores de plasmídeo adequados incluem pUC, pBR322, pET, pBluescript e suas variantes. Em outras modalidades, o ácido nucleico codificando a proteína de modificação de DNA programável e/ou a pelo menos uma proteína de ligação a DNA programável, pode estar presente em um vetor viral. O vetor viral ou plasmídeo pode compreender sequências de controle de expressão adicionais (por exemplo, sequências realçadoras, sequências Kozak, sequências de poliadenilação, sequências de terminação da transcricional, etc.), Sequências marcadoras selecionáveis (por exemplo, genes com resistência a antibiótico), origens de replicação, e similares. Informação adicional pode ser encontrada em "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, Nova Iorque, 2003 ou "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3a. edição, 2001.

[0080] Em modalidades nas quais a proteína de modificação de DNA programável e/ou pelo menos uma proteína de ligação a DNA programável compreende uma proteína CRISPR/Cas ou sua variante, o vetor de expressão compreendendo ácido nucleico codificando a proteína de modificação de DNA programável e/ou a pelo menos uma proteína de ligação a DNA programável, pode ainda compreender sequência que codifica um ou mais RNAs guia. A sequência que codifica o RNA guia geralmente é operavelmente ligada a pelo menos uma sequência de controle transcricional para expressão do RNA guia na célula eucariótica de interesse. Por exemplo, o ácido nucleico codificando o RNA guia pode ser operavelmente ligado a uma sequência promotora que é reconhecida por RNA polimerase III (Pol III). Exemplos de promotores de Pol III adequados incluem, porém não estão limitados a promotores de RNA U6, U3, H1 e 7SL mamíferos. d) Composições específicas

[0081] Em algumas modalidades, a proteína de modificação de DNA programável e uma ou mais proteínas de ligação de DNA programáveis são fornecidas como proteínas (ou, em alguns casos, como complexos de proteína-RNA). As proteínas de modificação de DNA programáveis e as proteínas de ligação de DNA programáveis podem ser expressas em células bacterianas ou eucarióticas e purificadas utilizando meios bem conhecidos na técnica. Em outras modalidades, a proteína de modificação de DNA programável e a uma ou mais proteínas de ligação a DNA programáveis são fornecidas como ácidos nucleicos codificantes.

[0082] Em algumas modalidades, a composição pode compreender uma proteína / sistema de ligação ao DNA programável ou ácidos nucleicos codificantes. Em outras modalidades, a composição pode compreender duas proteínas/sistemas de ligação a DNA programáveis ou ácidos nucleicos codificantes. Ainda em outras modalidades, a composição pode compreender três proteínas/sistemas de ligação a DNA programáveis ou ácidos nucleicos codificantes. Em outras modalidades, a composição pode compreender quatro proteínas/sistemas de ligação a DNA programáveis ou ácidos nucleicos codificantes. Ainda em outras modalidades, a composição pode compreender cinco ou mais proteínas/sistema de ligação a DNA programáveis ou ácidos nucleicos codificantes.

[0083] Em modalidades específicas, a proteína de modificação de DNA programável pode compreender um sistema CRISPR/Cas (por exemplo, nuclease CRISPR/Cas, nicase dual CRISPR/Cas ou proteína CRISPR/Cas cataliticamente inativa (morta) ligada a um domínio de modificação não nuclease) e a proteína de ligação a DNA programável pode ser um sistema CRISPR/Cas que não possui atividade de nuclease. Por exemplo, a proteína de ligação a DNA programável pode ser catalisada pelo sistema CRISPR/Cas inativo. Em geral, cada proteína CRISPR/Cas compreende pelo menos um sinal de localização nuclear. Em algumas interações, a composição pode compreender os sistemas CRISPR/Cas como proteínas CRISPR/Cas e RNA guia, em que a proteína e o RNA podem ser entidades separadas ou a proteína e o RNA podem ser complexados entre si. O RNA guia pode ser pelo menos parcialmente quimicamente sintetizado. O RNA guia pode ser enzimaticamente sintetizado. Em outras interações, a composição pode compreender as proteínas CRISPR/Cas e o DNA que codifica os RNAs guia. Ainda em outras interações, a composição pode compreender mRNA que codifica as proteínas CRISPR/Cas e DNA que codifica os RNA guias. Ainda em outras interações, a composição pode compreender plasmídeos ou vetores virais codificando as proteínas CRISPR/Cas e/ou os RNAs guia. Em certas modalidades, a proteína CRISPR/Cas cataliticamente ativa e a proteína CRISPR/Cas cataliticamente inativa (morta) são proteínas Cas9. Os ácidos nucleicos que codificam as proteínas CRISPR/Cas são geralmente codificados para expressão ideal na célula eucariótica de interesse. (vii) Kits

[0084] Outro aspecto da presente invenção fornece kits compreendendo as composições detalhadas acima na seção (I). Os kits podem fornecer a proteína de modificação de DNA programável e pelo menos uma proteína de ligação a DNA programável como proteínas, como complexos de proteína-RNA, ou como ácidos nucleicos que codificam os vários componentes, como detalhado acima. Os kits podem ainda compreender reagentes de transfecção, meios de crescimento celular, meios de seleção, reagentes de transcrição in vitro, reagentes de purificação de ácidos nucleicos, reagentes de purificação de proteínas, tampões e similares. Os kits aqui fornecidos incluem geralmente instruções para executar os métodos detalhados abaixo. As instruções incluídas nos kits podem ser afixadas ao material de embalagem ou podem ser incluídas como um folheto informativo. Embora as instruções sejam tipicamente materiais escritos ou impressos, não estão limitadas a tais. Qualquer meio capaz de armazenar tais instruções e comunicá-las a um usuário final é contemplado por esta invenção. Tais meios incluem, porém não estão limitados a veículos de armazenamento eletrônico (por exemplo, discos magnéticos, fitas, cartuchos, chips), veículos óticos (por exemplo, CD-ROM), e similares. Como usado aqui, o termo "instruções" pode incluir o endereço de um site na Internet que fornece as instruções.

[0085] Em algumas modalidades, a proteína de modificação de DNA programável e/ou pelo menos uma proteína de ligação a DNA programável do kit pode compreender um sistema CRISPR/Cas tipo II. Em certas modalidades, o RNA guia do sistema CRISPR/Cas tipo II pode compreender crRNA e tracrRNA. O kit, portanto, pode fornecer o tracrRNA universal (s), e o usuário final do kit pode fornecer o(s) crRNA(s) específico(s) da sequência. Em alguns aspectos, o kit pode compreender a(s) proteína(s) CRISPR/Cas tipo II e o(s) tracrRNA(s). Em outros aspectos, o kit pode compreender mRNA ou DNA que codifica a(s) proteína(s) CRISPR/Cas tipo II e DNA que codifica o(s) ARNtrac (s).

[0086] Em ainda outras modalidades, a proteína de modificação de DNA programável e/ou a pelo menos uma proteína de ligação a DNA programável do kit pode compreender um sistema CRISPR/Cas tipo V. Como detalhado acima, o RNA guia dos sistemas CRISPR/Cas tipo V compreende apenas o crRNA. Em alguns aspectos, o kit pode compreender as proteínas CRISPR/Cas tipo V e crRNA(s), ou o kit pode compreender mRNA ou DNA codificando as proteínas CRISPR/Cas tipo V e DNA codificando os crRNA (s). Em outros aspectos, o kit pode compreender apenas a(s) proteína(s) CRISPR/Cas tipo V ou ácido nucléico codificando a(s) proteína(s) CRISPR/Cas tipo V, em que o usuário final do kit fornece o(s) crRNA (s). (viii) Métodos para Aumentar a Acessibilidade aos Sítios Cromossômicos Alvos

[0087] Outro aspecto da presente invenção abrange métodos para aumentar a eficiência e/ou especificidade do genoma-alvo/modificação epigenética em células eucarióticas aumentando a acessibilidade de uma proteína de modificação de DNA programável a sua sequência- alvo em DNA cromossômico. Os métodos compreendem introduzir na célula eucariótica de interesse (a) uma proteína de modificação de DNA programável ou ácido nucleico codificando a proteína de modificação de DNA programável e (a) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável. A proteína de modificação de DNA programável modificada para reconhecer e ligar- se a uma sequência-alvo no DNA cromossômico, em cujo sítio a proteína de modificação de DNA pode modificar o DNA ou proteína(s) associada(s). Cada uma ou mais das proteínas de ligação a DNA programáveis é modificada para reconhecer e ligar uma sequência proximal à sequência cromossômica alvo da proteína de modificação de DNA. As proteínas de modificação de DNA programáveis e as proteínas de ligação de DNA programáveis estão detalhadas acima na seção (I).

[0088] Em geral, a sequência proximal à sequência cromossômica alvo está localizada dentro de cerca de 250 pares de base de cada lado (isto é, a montante ou a jusante) da sequência cromossômica alvo. O(s) sítio(s) proximal(is) pode(m) ser localizado(s) em quaisquer das fitas dupla do DNA. Em algumas modalidades, a sequência proximal à sequência cromossômica alvo pode estar localizada menos do que cerca de 250 pb, menos que cerca de 200 pb, menos que cerca de 150 pb, menos que cerca de 100 pb, menos que cerca de 75 pb, menos que cerca de 50 pb menos que cerca de 25 pb, menos que cerca de 20 pb, menos que cerca de 15 pb, menos que cerca de 10 pb ou menos que cerca de 5 pb da sequência cromossômica alvo a partir da proteína de modificação de DNA. Em certas modalidades, a sequência proximal à sequência cromossômica alvo pode estar localizada a partir de cerca de 1 pb a cerca de 10 pb, de cerca de 11 pb a cerca de 20 pb, de cerca de 21 pb a cerca de 30 pb, de cerca de 31 pb a cerca de 40 pb de cerca de 41 pb a cerca de 50 pb, de cerca de 51 pb a cerca de 60 pb, de cerca de 61 pb a cerca de 70 pb, de cerca de 71 pb a cerca de 80 pb, de cerca de 81 pb a cerca de 90 pb, de cerca de 91 pb a cerca de 100 pb, de cerca de 101 pb a cerca de 150 pb, de cerca de 151 pb a cerca de 200 pb, ou de cerca de 201 pb a cerca de 250 pb em quaisquer dos lados da sequência cromossômica alvo. Em outras modalidades, a sequência proximal à sequência cromossômica alvo pode estar localizada a partir de cerca de 5 pb a cerca de 75 pb, desde cerca de 10 pb a cerca de 50 pb, ou desde cerca de 15 pb a cerca de 25 pb de cada lado da sequência cromossômica alvo.

[0089] Em algumas modalidades, o método compreende introduzir na célula pelo menos uma proteína de ligação a DNA programável cuja sequência de ligação está localizada a montante ou a jusante da sequência cromossômica alvo. Em outras modalidades, o método compreende a introdução na célula de pelo menos duas proteínas de ligação de DNA programáveis, em que a sequência de ligação de uma está localizada a montante da sequência cromossômica alvo e a sequência de ligação da outra está localizada a jusante da sequência cromossômica alvo. Em outras modalidades, o método compreende a introdução na célula de pelo menos três proteínas de ligação de DNA programáveis cujas sequências de ligação estão localizadas a montante ou a jusante da sequência cromossômica alvo. Em modalidades adicionais, o método compreende a introdução na célula de quatro ou mais proteínas de ligação a DNA programáveis cujas sequências de ligação são localizadas a montante ou a jusante da sequência cromossômica alvo. Nestas modalidades, por exemplo, o método pode compreender a introdução de uma, duas três, quatro, cinco, seis, sete, oito, nove, dez ou mais do que dez proteínas de ligação de DNA programáveis cujas sequências de ligação são localizadas dentro de cerca de 250 pb sobre cada lado. (isto é, a montante ou a jusante) da sequência cromossômica alvo.

[0090] A ligação de uma ou mais proteínas de ligação a DNA programáveis ao sítio proximal à sequência cromossômica alvo muda a configuração da cromatina local, levando à acessibilidade aumentada da proteína de modificação de DNA programável à sequência cromossômica alvo (anteriormente inacessível) (veja a FIG. 1). Como consequência, a eficiência de modificação pela proteína de modificação de DNA é aumentada (veja, por exemplo, os Exemplos 13). Dito de outro modo, a eficiência de modificação por uma proteína de modificação de DNA aumentada quando a proteína de modificação de DNA é introduzida na célula em combinação com uma ou mais proteínas de ligação a DNA programáveis em comparação a quando a proteína de modificação de DNA introduzida na célula sozinha.

[0091] Além disso, os métodos aqui descritos aumentam a especificidade de modificação do genoma-alvo. Embora a proteína de modificação de DNA programável seja modificada para reconhecer e ligar uma sequência-alvo em um locus cromossômico específico, sequências idênticas ou quase idênticas podem existir em outras localizações cromossômicas (resultando em efeitos fora do alvo). Em modalidades em que a ligação de uma proteína de modificação de DNA programável a uma sequência cromossômica alvo depende largamente da ligação de uma ou mais proteínas de ligação a DNA programáveis a sequências proximais à sequência cromossômica alvo, a ligação de uma ou mais proteínas de ligação a DNA programáveis a sítio(s) proximal(is) à sequência-alvo no locus cromossômico de interesse, no entanto, fornece especificidade adicional para o evento de modificação (veja Exemplo 4).

[0092] Desse modo, os métodos aqui descritos podem aumentar a eficiência e/ou especificidade de edição do genoma-alvo (por exemplo, correções de genes, nocautes de genes, genes de ativação e similares), modificações epigenéticas direcionadas e regulação de transcrição direcionada. (a) Introdução na Célula

[0093] Como descrito, o método compreende introduzir na célula (b) uma proteína de modificação de DNA programável ou ácido nucleico codificando a proteína de modificação de DNA programável e (b) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando pelo menos uma proteína de ligação a DNA programável. Proteínas de modificação de DNA programáveis são detalhadas acima na seção (I)(a), proteínas de ligação a DNA programáveis são detalhadas acima na seção (I)(b) e ácidos nucleicos codificando as proteínas de modificação de DNA ou a proteína de ligação a DNA programável são descritos acima em seção (I)(c).

[0094] A proteína de modificação de DNA programável ou ácido nucleico codificando a proteína de modificação de DNA programável e pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável pode ser introduzida na célula de interesse por uma variedade de métodos.

[0095] Em algumas modalidades, a célula pode ser transfectada com as moléculas apropriadas (isto é, proteína, DNA e/ou RNA). Métodos de transfecção adequados incluem nucleofecção (ou eletroporação), transfecção mediada por fosfato de cálcio, transfecção de polímero catiônico (por exemplo, DEAE-dextrano ou polietilenimina), transdução viral, transfecção com virossoma, transfecção com vírion, transfecção com lipossoma, transfecção com lipossoma catiônico, transfecção com imunolipossomas, transfecção de lipídeo não lipossômico, transfecção de dendrímeros, transfecção por choque térmico, magnetofecção, lipofecção, liberação por pistola de gene, impalefecção, sonoporação, transfecção ótica e captação realçada de agente proprietário de ácidos nucleicos. Os métodos de transfecção são bem conhecidos na técnica (veja, por exemplo, "Current Protocols in Molecular Biology" Ausubelet at al., John Wiley & Sons, Nova Iorque, 2003 ou "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3a. edição, 2001). Em outras modalidades, as moléculas podem ser introduzidas na célula por microinjeção. Por exemplo, as moléculas podem ser injetadas no citoplasma ou núcleos das células de interesse. A quantidade de cada molécula introduzida na célula pode variar, porém aqueles versados na técnica são familiarizados com os métodos para determinação da quantidade apropriada.

[0096] As várias moléculas podem ser introduzidas na célula simultaneamente ou sequencialmente. Por exemplo, a proteína de modificação de DNA programável (ou o seu ácido nucleico codificante) e a pelo menos uma proteína de ligação a DNA programável (ou ácido nucleico codificante) podem ser introduzidas ao mesmo tempo. Alternativamente, um pode ser introduzido primeiro e em seguida o outro pode ser introduzido posteriormente na célula.

[0097] Em geral, a célula é mantida sob condições apropriadas para o crescimento celular e/ou manutenção. Condições de cultura celular adequadas são bem conhecidas na técnica e são descritas, por exemplo, em Santiago et al., Proc. Natl. Acad. Sci. USA, 2008, 105: 5809-5814; Moehle et al. Proc. Natl. Acad. Sci. USA, 2007, 104: 30553060; Urnov et al., Nature, 2005, 435: 646-651; e Lombardo et al. Nat. Biotechnol., 2007, 25: 1298-1306. Aqueles versados na técnica apreciam que os métodos para cultura celular são conhecidos na técnica e podem variar dependendo do tipo de célula. Otimização de rotina pode ser usada, em todos os casos, para determinar as melhores técnicas para um particular tipo de célula. (c) Modificação do genoma-alvo

[0098] A ligação de uma ou mais proteínas de ligação de DNA programáveis a sequência(s) proximal(is) à sequência cromossômica alvo muda a configuração de cromatina local, por exemplo, estrutura nucleossômica pode ser alterada e/ou histonas podem ser deslocadas. Como uma consequência, a proteína de modificação de DNA programável é capaz de acessar melhor a sequência cromossômica alvo quando comparado a quando a proteína de modificação de DNA programável é usada sozinha. A acessibilidade aumentada resulta em maior eficiência e/ou especificidade de modificação do genoma-alvo. A modificação do genoma-alvo/epigenética pode ser mediada por proteínas de modificação de DNA que têm atividade de nuclease ou atividade não nuclease.

[0099] Em modalidades nas quais a proteína de modificação de DNA programável tem atividade de nuclease, a proteína de modificação de DNA pode introduzir um rompimento de fita dupla na sequência cromossômica alvo. O rompimento de fita dupla na sequência cromossômica pode ser reparado por um processo de reparação de união de extremidade não homólogo (NHEJ). Por que o NHEJ é propenso a erros, deleções de pelo menos um nucleotídeo, inserções de pelo menos um nucleotídeo, substituições de pelo menos um nucleotídeo, ou suas combinações, podem ocorrer durante o reparo do rompimento. Por conseguinte, a sequência cromossômica alvo pode ser modificada ou inativada. Por exemplo, uma deleção, inserção ou substituição no deslocamento na estrutura de leitura de uma sequência de codificação pode levar a um produto proteico alterado ou a nenhum produto proteico (que é denominado "nocaute"). Em algumas interações, o método pode ainda compreender introduzir na célula de um polinucleotídeo doador (veja abaixo) compreendendo uma sequência doadora que é flanqueada por sequência tendo substancial identidade de sequência para sequências localizadas em qualquer um dos lados da sequência cromossômica alvo, de método que durante a reparação do rompimento de fita dupla por um processo de reparo direcionado por homologia (HDR) a sequência doadora no polinucleotídeo doador possa ser trocada com ou integrada na sequência cromossômica na sequência cromossômica alvo. A integração de uma sequência exógena é denominada "ativação". Como detalhado acima, os métodos aqui descritos também reduzem os efeitos fora do alvo, desse método aumentando a especificidade de modificação do genoma-alvo.

[00100] Em várias interações, portanto, a eficiência e/ou especificidade de modificação do genoma-alvo pode ser aumentada em pelo menos cerca de 0,1 vez, pelo menos cerca de 0,5 vez, pelo menos cerca de 1 vez, pelo menos cerca de 2 vezes, pelo menos cerca de 5 vezes, pelo menos cerca de 10 vezes, ou pelo menos cerca de 20 vezes, pelo menos cerca de 50 vezes, pelo menos cerca de 100 vezes, ou mais que cerca de 100 vezes relativamente a quando a proteína de modificação de DNA programável com atividade de nuclease, é usada sozinha. Por exemplo, a proteína de modificação de DNA programável tendo atividade de nuclease, quando usada sozinha, não pode nenhum indels ou eventos de integração detectáveis. No entanto, quando a proteína de modificação de DNA programável tendo atividade de nuclease é utilizada em combinação com pelo menos uma proteína de ligação a DNA programável, os indels e eventos de integração podem ser detectados (por exemplo, pelo menos cerca de 1% de indels/integrações, pelo menos cerca de 5% de indels/integração, pelo menos cerca de 10% indels/integrações, pelo menos cerca de 20% indels/integrações, pelo menos cerca de 30% indels/integrações, pelo menos cerca de 40% indels/integrações, pelo menos cerca de 50% indels/integrações, ou mais de cerca de 50% indels/integrações).

[00101] Em modalidades em que a proteína de modificação de DNA programável tem atividade não-nuclease, a proteína de modificação de DNA pode modificar DNA ou proteínas associadas na sequência cromossômica alvo ou modificar a expressão da sequência cromossômica alvo. Por exemplo, quando a proteína de modificação de DNA programável compreende atividade de modificação epigenética, o status de acetilação de histona, metilação, fosforilação, adenilação, etc. pode ser modificado ou o status de metilação de DNA, aminação, etc. pode ser modificado. Como um exemplo, em modalidades em que a proteína de modificação de DNA programável compreende atividade de citosina desaminase, um ou mais resíduos de citocina na sequência cromossômica alvo podem ser convertidos em resíduos de uracila. Alternativamente, quando a proteína de modificação de DNA programável compreende ativação transcricional ou atividade repressora, a transcrição na sequência cromossômica alvo pode ser aumentada ou diminuída. A modificação epigenética resultante ou regulação transcricional pode ser aumentada em pelo menos cerca de 0,1 vez, pelo menos cerca de 0,5 vez, pelo menos cerca de 1 vez, pelo menos cerca de 2 vezes, pelo menos cerca de 5 vezes, pelo menos cerca de 10 vezes, ou pelo menos cerca de 20 vezes, pelo menos cerca de 50 vezes, pelo menos cerca de 100 vezes, ou mais que cerca de 100 vezes relativamente a quando a proteína de modificação de DNA programável tendo atividade não nuclease é utilizada sozinha.

[00102] As modificações do genoma-alvo/modificações epigenéticas detalhadas acima podem ser realizadas isoladamente ou multiplexadas (isto é, duas ou mais sequências cromossômicas podem ser alvos simultaneamente). c) Polinucleotídeo Doador Opcional

[00103] Em modalidades nas quais a proteína de modificação de DNA programável compreende a atividade da nuclease, o método pode ainda compreender introduzir pelo menos um polinucleotídeo doador na célula. O polinucleotídeo doador pode ser de fita simples ou fita dupla, linear ou circular e/ou RNA ou DNA. Em algumas modalidades, o polinucleotídeo doador pode ser um vetor, por exemplo, um vetor de plasmídeo.

[00104] O polinucleotídeo doador compreende pelo menos uma sequência doadora. Em alguns aspectos, a sequência doadora do polinucleotídeo doador pode ser uma versão modificada de uma sequência cromossômica endógena ou nativa. Por exemplo, a sequência doadora pode ser essencialmente idêntica a uma porção da sequência cromossômica na, ou perto da, sequência alvejada pela proteína de modificação de DNA, porém que compreende pelo menos uma mudança de nucleotídeo. Desse modo, após integração ou troca com a sequência nativa, a sequência na localização cromossômica alvo compreende pelo menos uma mudança de nucleotídeo. Por exemplo, a mudança pode ser uma inserção de um ou mais nucleotídeos, uma deleção de um ou mais nucleotídeos, uma substituição de um ou mais nucleotídeos, ou suas combinações. Como uma consequência da integração de "correção de gene" da sequência modificada, a célula pode produzir um produto de gene modificado da sequência cromossômica alvo.

[00105] Em outros aspectos, a sequência doadora do polinucleotídeo doador pode ser uma sequência exógena. Como aqui utilizado, uma sequência "exógena" refere-se a uma sequência que não é nativa para a célula, ou uma sequência cuja localização nativa está em uma localização diferente no genoma da célula. Por exemplo, a sequência exógena pode compreender sequência de codificação de proteína, que pode ser operavelmente ligada a uma sequência de controle promotora exógena de modo que, após integração no genoma, a célula é capaz de expressar a proteína codificada pela sequência integrada. Alternativamente, a sequência exógena pode ser integrada na sequência cromossômica de método que sua expressão seja regulada por uma sequência de controle promotora endógena. Em outras interações, a sequência exógena pode ser uma sequência de controle transcricional, outra sequência de controle de expressão, uma sequência de codificação de RNA, e assim por diante. Como observado acima, a integração de uma sequência exógena em uma sequência cromossômica é denominada "ativação".

[00106] Como pode ser apreciado por aqueles versados na técnica, o comprimento da sequência doadora pode e variará. Por exemplo, a sequência doadora pode variar em comprimento de vários nucleotídeos a centenas de nucleotídeos a centenas de milhares de nucleotídeos.

[00107] Tipicamente, a sequência doadora no polinucleotídeo doador é flanqueada por uma sequência a montante e uma sequência a jusante, que têm substancial identidade de sequência para sequências localizadas a montante e a jusante, respectivamente, da sequência alvejada pela proteína de modificação de DNA programável. Devido a estas similaridades de sequência, as sequências a montante e a jusante do polinucleotídeo doador permitem a recombinação homóloga entre o polinucleotídeo doador e a sequência cromossômica alvo, de modo que, a sequência doadora possa ser integrada (ou trocada com) com a sequência cromossômica.

[00108] A sequência a montante, como aqui utilizada, refere-se a uma sequência de ácido nucleico que compartilha substancial identidade de sequência com uma sequência cromossômica a montante da sequência alvejada pela proteína de modificação de DNA programável. Similarmente, a sequência a jusante refere-se a uma sequência de ácido nucleico que compartilha substancial identidade de sequência com uma sequência cromossômica a jusante da sequência alvejada pela proteína de modificação de DNA programável. Como aqui utilizado, a frase "substancial identidade de sequência" refere-se a sequências tendo pelo menos cerca de 75% de identidade de sequência. Desse modo, as sequências a montante e a jusante no polinucleotídeo doador podem ter cerca de 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% ou 99% de identidade de sequência com sequência a montante ou a jusante da sequência-alvo. Em uma modalidade exemplar, das sequências a montante e a jusante no polinucleotídeo doador podem ter cerca de 95% ou 100% de identidade de sequência com sequências cromossômicas a montante ou a jusante em relação da sequência alvejada pela proteína de modificação de DNA programável.

[00109] Em algumas modalidades, a sequência a montante compartilha substancial identidade de sequência com uma sequência cromossômica localizada imediatamente a montante da sequência alvejada pela proteína de modificação de DNA programável. Em outras modalidades, a sequência a montante compartilha substancial identidade de sequência com uma sequência cromossômica que está localizada dentro de cerca de cem (100) nucleotídeos a montante da sequência-alvo. Desse modo, por exemplo, a sequência a montante pode compartilhar substancial identidade de sequência com uma sequência cromossômica que está localizada cerca de 1 a cerca de 20, cerca de 21 a cerca de 40, cerca de 41 a cerca de 60, cerca de 61 a cerca de 80 ou cerca de 81 a cerca de 100 nucleotídeos a montante da sequência-alvo. Em algumas modalidades, a sequência a jusante compartilha uma substancial identidade de sequência com uma sequência cromossômica localizada imediatamente a jusante da sequência alvejada pela proteína de modificação de DNA programável. Em outras modalidades, a sequência a jusante compartilha substancial identidade de sequência com uma sequência cromossômica que está localizada dentro de cerca de cem (100) nucleotídeos a jusante da sequência-alvo. Desse modo, por exemplo, a sequência a jusante pode compartilhar substancial identidade de sequência com uma sequência cromossômica que está localizada cerca de 1 a cerca de 20, cerca de 21 a cerca de 40, cerca de 41 a cerca de 60, cerca de 61 a cerca de 80 ou cerca de 81 a cerca de 100 nucleotídeos a jusante da sequência-alvo.

[00110] Cada sequência a montante ou a jusante pode variar em comprimento de cerca de 20 nucleotídeos a cerca de 5000 nucleotídeos. Em algumas modalidades, as sequências a montante e a jusante podem compreender cerca de 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800 ou 5000 nucleotídeos. Em modalidades específicas, as sequências a montante e a jusante podem variar em comprimento de cerca de 50 a cerca de 1500 nucleotídeos. (e) Tipos celulares

[00111] Uma variedade de células é adequada para utilização nos métodos aqui descritos. Em geral, a célula é uma célula eucariótica. Por exemplo, a célula pode ser uma célula mamífera humana, uma célula mamífera não humana, uma célula de vertebrado não mamífera, uma célula de invertebrado, uma célula de inseto, uma célula vegetal, uma célula de levedura ou um organismo eucariótico de única célula. Em algumas modalidades, a célula também pode ser um embrião celular. Por exemplo, um embrião de mamífero não humano incluindo embriões de rato, hamster, roedor, coelho, felino, canino, ovino, porcino, bovino, equino e primata. Ainda em outras modalidades, a célula pode ser uma célula-tronco, tais como células-tronco embrionárias, células-tronco semelhantes a ES, células-tronco fetais, células-tronco adultas, e similares. Em uma modalidade, a célula- tronco não é uma célula-tronco embrionária humana. Além disso, as células-tronco podem incluir aquelas produzidas pelas técnicas descritas no documento WO 2003/046141, que é aqui incorporado na sua íntegra, ou Chung et al. (Cell Stem Cell, 2008, 2: 113-117). A célula pode ser in vitro ou in vivo (isto é, dentro de um organismo). Em modalidades exemplares, a célula é uma célula mamífera. Em modalidades particulares, a célula é uma célula humana.

[00112] Exemplos não limitantes de células mamíferas adequadas incluem células renais embrionárias humanas (HEK293, HEK293T); células de carcinoma cervical humano (HELA); células pulmonares humanas (W138); células hepáticas humanas (Hep G2); células de osteossarcoma humanas U2-OS, células humanas A549, células humanas A-431 e células humanas K562; Células de ovário de hamster chinês (CHO), células de rim de hamster bebês (BHK); células NS0 de mieloma de camundongo, células 3T3 de fibroblasto embrionário de camundongo (NIH3T3), células A20 de linfoma B de camundongo; células B16 de melanoma de camundongo; células C2C12 de mioblastos de camundongo; células SP2/0 de mieloma de camundongo; células C3H-10T1/2 mesenquimatosas embrionárias de camundongo; células CT26 de carcinoma de camundongo, células DuCuP da próstata de camundongo; células de EMT6 da mama de camundongo; células Hepa1c1c7 de hepatoma de camundongo; células J5582 de mieloma de camundongo; células MTD-1A epiteliais de camundongo; células MyEnd miocárdicas de camundongo; células renCa renais de camundongo; células RIN-5F pancreáticas de camundongo; células X64 de melanoma de camundongo; células YAC-1 de linfoma de camundongo; células 9L de glioblastoma de rato; células RBL de linfoma de rato B; células B35 de neuroblastoma de rato; células de hepatoma de rato (HTC), células BRL 3A de fígado de rato búfalo, células de rim canino (MDCK); células mamárias caninas (CMT); células D17 de osteossarcoma de rato; células DH82 de monócito/macrófago de rato; células de fibroblastos transformadas SV- 40 de rim de macaco (COS7); células CVI-76 de rim de macaco; Células de rim de macaco verde africano (VERO-76). Uma extensa lista de linhagens celulares de mamíferos pode ser encontrada no catálogo American Type Culture Collection (ATCC, Manassas, VA). (IV) Métodos para Detecção de Loci Genômicos Específicos

[00113] Também são fornecidos aqui métodos para detectar ou visualizar loci genômicos específicos em células eucarióticas. Uma vez que a ligação proximal de uma ou mais proteínas de ligação a DNA programáveis altera a estrutura da cromatina e aumenta o acesso da proteína de modificação de DNA programável a locus cromossômicos anteriormente inacessíveis, o método descrito acima na seção (III) pode ser modificado para realçar a detecção de loci genômicos específicos ou sequências cromossômicas alvos. O método compreende introduzir na célula eucariótica (a) uma proteína de ligação a DNA programável, apresentando pelo menos um domínio marcador ou ácido nucleico detectável codificando a proteína de ligação a DNA programável, compreendendo pelo menos um domínio marcador detectável e (b) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável, em que a proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável é direcionada a uma sequência cromossômica alvo e cada uma ou mais proteínas de ligação a DNA programáveis é direcionada para um sítio proximal à sequência cromossômica alvo. A ligação de pelo menos uma proteína de ligação a DNA programável ao sítio proximal à sequência cromossômica alvo aumenta a acessibilidade da proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável à sequência cromossômica alvo. O método compreende ainda a detecção da proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável ligado à sequência cromossômica alvo.

[00114] A proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável compreende um domínio de ligação ao DNA programável. Domínios de ligação de DNA programáveis adequados são descritos acima na seção (I)(a)(vi). Em modalidades específicas, o domínio de ligação a DNA programável pode ser um sistema CRISPR/Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco ou um efector semelhante a um ativador de transcrição. O pelo menos um domínio marcador detectável da proteína de ligação a DNA programável pode ser uma proteína fluorescente (por exemplo, GFP, eGFP, RFP, e similares), um marcador fluorescente ou um marcador de epítopo, (que são descritos na seção (I)(a)(i) acima). Em certas modalidades, o pelo menos um domínio marcador detectável da proteína de ligação a DNA programável, pode ser um epítopo de ocorrência natural dentro da proteína de ligação a DNA programável, de modo que, a proteína de ligação a DNA programável, seja detectado por um anticorpo contra a proteína de ligação a DNA programável. A proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável pode compreender ainda pelo menos um sinal de localização nuclear e/ou domínio de penetração celular, como descrito acima na seção (I)(a)(i). Em algumas modalidades, a proteína de ligação ao DNA programável compreendendo pelo menos um domínio marcador detectável pode também compreender um domínio de modificação não nuclease (como descrito acima na seção (I)(a)(vi) acima).

[00115] Uma ou mais proteínas de ligação a DNA programáveis são descritas acima na seção (I)(b). Em geral, a pelo menos uma ligação de DNA programável pode ser uma proteína CRISPR/Cas cataliticamente inativa, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco, um efetor semelhante a um ativador de transcrição, uma nicase CRISPR/Cas, uma nicase ZFN, uma nicase TALEN, ou uma nicase de meganuclease.

[00116] O método também a detecção da proteína de ligação a DNA programável compreendendo o domínio marcador detectável que é ligado à sequência cromossômica alvo, em que a detecção pode ser por meio de imageamento de células vivas dinâmicas, microscopia fluorescente, microscopia confocal, imunofluorescência, imunodetecção, RNA-proteína ligação, ligação de proteína-proteína, e similares. A etapa de detecção pode ser realizada em células vivas ou em células fixadas.

[00117] Em modalidades nas quais o método compreende detectar a dinâmica estrutural da cromatina em células vivas, a proteína de ligação a DNA programável compreendendo o domínio marcador detectável e uma ou mais proteínas de ligação de DNA programáveis pode ser introduzida na célula como proteínas ou ácidos nucleicos, essencialmente como descrito acima na seção (III)(a). Em modalidades em que o método compreende a detecção da sequência cromossômica alvo em células fixadas, a proteína de ligação a DNA programável compreendendo o domínio marcador detectável e as proteínas de ligação a DNA programáveis pode ser introduzida na célula como proteínas (ou complexos de RNA-proteína). Métodos para fixar e permeabilizar células são bem conhecidos na técnica. Em algumas modalidades, as células fixas podem ser submetidas a processos de desnaturação química e/ou térmica para converter DNA cromossômico de fita dupla em DNA de fita simples. Em outras modalidades, as células fixas não são submetidas a processos de desnaturação química e/ou térmica.

[00118] Em modalidades específicas, a proteína de ligação a DNA programável compreendendo o domínio marcador detectável é uma proteína de fusão compreendendo uma proteína CRISPR/Cas cataliticamente inativa (ou morta) e um domínio marcador de proteína fluorescente, e a pelo menos uma proteína de ligação a DNA programável é uma proteína CRISPR/Cas cataliticamente inativa (ou morta).

[00119] Em modalidades em que pelo menos uma das proteínas programáveis de modificação de DNA ou de ligação a DNA compreende uma proteína CRISPR/Cas, o RNA guia pode também compreender um marcador detectável para detecção in situ (por exemplo, FISH ou CISH). Marcadores detectáveis são detalhados acima na seção (I)(a)(i). Em algumas modalidades, cada uma das proteínas de modificação de DNA programáveis e de ligação a DNA compreende uma proteína CRISPR/Cas e cada RNA guia compreende pelo menos um marcador detectável, desse modo aumentando a quantidade ou intensidade do sinal a ser detectado.

[00120] Ainda em outras modalidades, a proteína de modificação de DNA programável proximalmente ligada e a uma ou mais proteínas de ligação de DNA programáveis podem ser detectadas por meio de um ensaio de ligação proximal. Por exemplo, a proteína de modificação de DNA programável pode ser ligada por um primeiro anticorpo e pelo menos uma das proteínas de ligação a DNA programáveis pode ser ligada por um segundo anticorpo, cada um dos quais é ligado, diretamente ou indiretamente (por exemplo, por meio de anticorpos secundários), a um oligonucleotídeo de detecção de proximidade de fita simples. Em outras modalidades, o(s) oligonucleotídeo(s) de detecção de proximidade de fita simples podem ser ligadas, direta ou indiretamente, a RNA(s) guia. Ainda em outras modalidades, o(s) oligonucleotídeo(s) de detecção de proximidade de fita simples podem ser ligadas, direta ou indiretamente, a proteínas de ligação de modificação de DNA programáveis ou de ligação a DNA programáveis. Os oligonucleotídeos de detecção de proximidade, que são complexados com as proteínas cromossomicamente ligadas, localizadas proximalmente, podem ser detectados por meio de uma reação de amplificação dependente da proximidade in situ. A reação de amplificação dependente da proximidade in situ pode ser um ensaio de ligação de proximidade (PLA, ver Soderg et al., Nature Methods, 2006, 3 (12): 995-1000) ou um início dependente da proximidade da reação de cadeia de hibridização (proxHCR, veja Koos et al., Nature Communications, 2015, 6: 7294, 10 pp.). (V) Aplicações

[00121] As composições e métodos aqui descritos podem ser utilizados em uma variedade de aplicações terapêuticas, diagnósticas, industriais e de pesquisa. Em algumas modalidades, a presente invenção pode ser utilizada para modificar qualquer sequência cromossômica de interesse em uma célula, animal ou planta a fim de modelar e/ou estudar a função de genes, estudar as condições genéticas ou epigenéticas de interesse ou estudar vias bioquímicas envolvidas em várias doenças ou distúrbios. Por exemplo, organismos transgênicos podem ser criados que modelem doenças ou distúrbios, em que a expressão de uma ou mais sequências de ácido nucleico associadas a uma doença ou distúrbio é alterada. O modelo da doença pode ser usado para estudar os efeitos de mutações sobre o organismo, estudar o desenvolvimento e/ou a progressão da doença, estudar o efeito de um composto farmaceuticamente ativo sobre a doença e/ou avaliar a eficácia de uma potencial estratégia de terapia de gene.

[00122] Em outras modalidades, as composições e métodos podem ser utilizados para realizar avaliações genômicas funcionais eficazes e baratas, que podem ser utilizadas para estudar a função de genes envolvidos em um processo biológico particular e como qualquer alteração na expressão de gene pode afetar o processo biológico, ou para realizar mutagênese por saturação ou varredura profunda de loci genômicos em conjunção com um fenótipo celular. A mutagênese por saturação ou varredura profunda pode ser usada para determinar características mínimas críticas e vulnerabilidades discretas dos elementos funcionais necessários para a expressão gênica, resistência a drogas e reversão de doenças, por exemplo.

[00123] Em outras modalidades, as composições e métodos aqui descritos podem ser utilizados para testes de diagnóstico para estabelecer a presença de uma doença ou distúrbio e/ou para utilização na determinação de opções de tratamento. Exemplos de testes diagnósticos adequados incluem a detecção de mutações específicas em células cancerígenas (por exemplo, mutação específica em EGFR, HER2 e similares), detecção de mutações específicas associadas com doenças particulares (por exemplo, repetições de trinucleotídeos, mutações em β-globina associadas com doença de célula falciforme, SNPs específicos, etc.), detecção de hepatite, detecção de viroses (por exemplo, Zika) e assim por diante.

[00124] Em modalidades adicionais, as composições e métodos aqui descritos podem ser utilizados para corrigir mutações genéticas associadas com uma doença ou distúrbio particular, tais como, por exemplo, mutações corretas no gene globina associadas à doença falciforme ou talassemia, mutações corretas no gene da adenosina desaminase associado à imunodeficiência combinada severa (SCID), reduz a expressão de HTT, o gene causador da doença de Huntington, ou corrige mutações no gene da rodopsina para o tratamento da retinite pigmentosa. Tais modificações podem ser feitas em células ex vivo.

[00125] Em ainda outras modalidades, as composições e métodos aqui descritos podem ser usados para gerar plantas de cultura com características melhoradas ou resistência aumentada a estresses ambientais. A presente invenção também pode ser usada para gerar animais de fazenda com características melhoradas ou animais de produção. Por exemplo, os porcos têm muitas características que os tornam atrativos como modelos biomédicos, especialmente em medicina regenerativa ou xenotransplante.

DEFINIÇÕES

[00126] A menos que de outro modo definidos, todos os termos técnicos e científicos usados aqui têm o significado comumente entendido por uma pessoa versada na técnica à qual essa invenção pertence. As seguintes referências fornecem uma habilidade com uma definição geral de muitos dos termos utilizados nesta invenção: Singleton et al., Dictionary of Microbiology and Molecular Biology (2 ed. 1994); The Cambridge Dictionary of Science and Technology (ed. Walker, 1988); The Glossary of Genetics, 5a Ed., R. Rieger et al. (eds.), Springer Verlag (1991); e Hale & Marham, The Harper Collins Dictionary of Biology (1991). Como usado aqui, os seguintes termos têm os significados atribuídos a eles, a menos que de outra forma especificado.

[00127] Quando introduzindo elementos da presente invenção ou as modalidades referidas da mesma, os artigos "um, uma, uns, umas",, "o, a, os, as" e "referido" destinam-se a significar que há um ou mais dos elementos. Os termos "compreendendo", "incluindo" e "tendo" se destinam a ser inclusivos e significam que pode haver elementos adicionais além dos elementos listados.

[00128] O termo "cerca de" quando usado em relação a um valor numérico, x, por exemplo, significa x ± 5%.

[00129] Como aqui utilizado, os termos "complementar" ou "complementaridade" referem-se à associação de ácidos nucleicos de fita dupla por pareamento de base por meio de ligações de hidrogênio específicas. O pareamento de base pode ser pareamento de base Watson-Crick padrão (por exemplo, pares 5’-AGT C-3’ com a sequência complementar 3’-T C A G-5’). O pareamento de base também pode ser Hoogsteen ou ligação de hidrogênio de Hoogsteen reversa. A complementaridade é tipicamente medida em relação a uma região duplex e, desse modo, exclui projeções, por exemplo. A complementaridade entre duas fitas da região dúplex pode ser parcial e expressa como uma percentagem (por exemplo, 70%), se apenas algumas (por exemplo, 70%) das bases forem complementares. As bases que não são complementares são "incompatíveis". A complementaridade pode também ser completa (isto é, 100%), se todas as bases da região dúplex forem complementares.

[00130] Como usado aqui, o termo "sistema CRISPR/Cas" refere-se a um complexo compreendendo uma proteína CRISPR/Cas (isto é, nuclease, nicase, ou proteína cataliticamente morta) e um RNA guia.

[00131] O termo "sequência endógena", como usado aqui, refere-se a uma sequência cromossômica que é nativa para a célula.

[00132] Como usado aqui, o termo "exógeno" refere-se a uma sequência que não é nativa para a célula, ou uma sequência cromossômica cuja localização nativa no genoma da célula está em uma localização cromossômica diferente.

[00133] Um "gene", como usado aqui, refere-se a uma região de DNA (incluindo éxons e íntrons) que codifica um produto de gene, bem como todas as regiões de DNA que regulam a produção do produto de gene, se ou não tais sequências regulatórias são adjacentes às sequências de codificação e/ou transcritas. Por conseguinte, um gene inclui, mas não está necessariamente limitado a sequências promotoras, terminadores, sequências regulatórias traducionais, tais como sítios de ligação a ribossoma e sítios internos de entrada dos ribossomas, realçadores, silenciadores, isolantes, elementos de fronteira, origens de replicação, sítios de ligação à matriz e regiões de controle de locus.

[00134] O termo "heterólogo" refere-se a uma entidade que não é endógena ou nativa para a célula de interesse. Por exemplo, uma proteína heteróloga refere-se a uma proteína que é derivada de ou foi originalmente derivada de uma fonte exógena, tal como uma sequência de ácido nucleico exogenamente introduzida. Em alguns casos, a proteína heteróloga não é normalmente produzida pela célula de interesse.

[00135] Os termos "estrutura da cromatina local" ou "configuração da cromatina local", como aqui utilizados, referem-se à estrutura nucleossômica e/ou espaçamento da proteína histona e geralmente não se referem à compactação de nucleossomas em fibras de cromatina e heterocromatina.

[00136] O termo "nicase" refere-se a uma enzima que cliva uma fita de uma sequência de ácido nucleico de fita dupla (isto é, cliva uma sequência de fita dupla). Por exemplo, uma nuclease com atividade de clivagem de fita dupla pode ser modificada por mutação e/ou deleção para funcionar como uma nicase e cliva apenas uma fita de uma sequência de fita dupla.

[00137] O termo "nuclease", como é usado no presente documento, refere-se a uma enzima que cliva ambas as cadeias de uma sequência de ácido nucleico de fita dupla.

[00138] Os termos "ácido nucleico" e "polinucleotídeo" referem-se a um polímero de desoxirribonucleotídeo ou ribonucleotídeo, em conformação linear ou circular, e na forma de fita simples ou dupla. Para os propósitos da presente invenção, estes termos não devem ser construídos como limitantes em relação ao comprimento de um polímero. Os termos podem abranger análogos conhecidos de nucleotídeos naturais, bem como nucleotídeos que são modificados nas porções base, açúcar e/ou fosfato (por exemplo, cadeias principais de fosforotioato). Em geral, um análogo de um nucleotídeo particular tem a mesma especificidade de pareamento de base; isto é, um análogo de A formará par de base com T.

[00139] O termo "nucleotídeo" refere-se a desoxirribonucleotídeos ou ribonucleotídeos. Os nucleotídeos podem ser nucleotídeos padrão (isto é, adenosina, guanosina, citidina, timidina e uridina), isômeros de nucleotídeo ou análogos de nucleotídeo. Um análogo de nucleotídeo refere-se a um nucleotídeo tendo uma base de purina ou pirimidina modificada ou uma porção de ribose modificada. Um análogo de nucleotídeo pode ser um nucleotídeo de ocorrência natural (por exemplo, inosina, pseudouridina, etc.) ou um nucleotídeo de ocorrência não natural. Exemplos não limitantes de modificações nas porções de açúcar ou base de um nucleotídeo incluem a adição (ou remoção) de grupos acetila, grupos amino, grupos carboxila, grupos carboximetila, grupos hidroxila, grupos metila, grupos fosforila e grupos tiol, bem como a substituição dos átomos de carbono e nitrogênio das bases com outros átomos (por exemplo, 7-deaza purinas). Os análogos de nucleotídeo incluem também didesóxi nucleotídeos, 2'-O-metil nucleotídeos, ácidos nucleicos bloqueados (LNA), ácidos nucleicos peptídicos (PNA) e morfolinos.

[00140] Os termos "polipeptídeo" e "proteína" são usados alternadamente para se referir a um polímero de resíduos de aminoácidos.

[00141] O termo "sítio proximal", como usado aqui, refere-se a um sítio de ligação ou sequência de nucleotídeo que está localizado dentro de cerca de 250 pares de base em cada lado de uma sequência alvo no DNA cromossômico.

[00142] Como usado aqui, o termo "proteína de modificação de DNA programável" refere-se a uma proteína que é modificada para se ligar a uma sequência-alvo específica no DNA cromossômico e que modifica o DNA ou proteína(s) associadas com o DNA na, ou próximo da sequência-alvo.

[00143] O termo "proteína de ligação a DNA programável", como usado aqui, se refere a uma proteína que é modificada para se ligar a uma sequência-alvo específica no DNA cromossômico, porém a proteína não modifica o DNA ou proteína(s) associadas com o DNA em, ou próximo da sequência-alvo.

[00144] Os termos "sequência-alvo", "sequência cromossômica alvo" e "local alvo" são utilizados alternadamente para se referir a sequência específica no DNA cromossômico para o qual a proteína de modificação de DNA programável é direcionada, e o sítio no qual a proteína de modificação de DNA programável modifica o DNA ou proteína(s) associadas com o DNA.

[00145] Técnicas para determinar a identidade de sequência de ácido nucleico e aminoácido são conhecidas na técnica. Tipicamente, tais técnicas incluem a determinação da sequência de nucleotídeo do mRNA para um gene e/ou a determinação da sequência de aminoácido desse modo codificada, e comparando estas sequências com uma segunda sequência de nucleotídeo ou de aminoácido. Sequências genômicas também podem ser determinadas e comparadas desta forma. Em geral, a identidade refere-se a uma correspondência exata de nucleotídeos-a-nucleotídeos ou aminoácidos-a-aminoácido de duas sequências de polinucleotídeos ou polipeptídeo, respectivamente. Duas ou mais sequências (polinucleotídeo ou aminoácido) podem ser comparadas determinando a sua identidade percentual. A identidade percentual de duas sequências, quer sejam sequências de ácido nucleico ou de aminoácido, é o número de correspondências exatas entre duas sequências alinhadas divididas pelo comprimento das sequências mais curtas e multiplicadas por 100. Um alinhamento aproximado das sequências de ácido nucleico é fornecido pelo algoritmo de homologia local de Smith e Waterman, Advances in Applied Mathematics 2: 482489 (1981). Este algoritmo pode ser aplicado a sequências de aminoácido usando a matriz de pontuação desenvolvida por Dayhoff, Atlas of Protein Sequences and Structure, M. O. Dayhoff ed., 5 supl. 3: 353-358, National Biomedical Research Foundation, Washington, DC, USA, e normalizada por Gribskov, Nucl. Acids Res. 14 (6): 6745-6763 (1986). Uma implementação exemplar desse algoritmo para determinar a identidade percentual de uma sequência é fornecida pelo Genetics Computer Group (Madison, Wisconsin) na aplicação de utilidade "BestFit". Outros programas adequados para calcular a identidade percentual ou similaridade entre sequências são geralmente conhecidos na técnica, por exemplo, outro programa de alinhamento é o BLAST, utilizado com parâmetros padrão. Por exemplo, BLASTN e BLASTP podem ser usados os seguintes parâmetros padrão: código genético = padrão; filtro = nenhum; fita = ambos; incisão = 60; espera = 10; Matriz = BLOSUM62; Descrições = 50 sequências; classificar por = ALTA PONTUAÇÃO; Bases de dados = não-redundantes, translações GenBank+EMBL+DDBJ+PDB+GenBank CDS+Proteína Suíça+Spupdate +PIR. Detalhes desses programas podem ser encontrados no website GenBank.

[00146] Visto que várias alterações podem ser feitas nas células acima descritas e métodos sem sair do âmbito da invenção, pretende- se que toda a matéria contida na descrição acima e nos exemplos dados abaixo, deve ser interpretada como ilustrativa e não em um sentido limitante.

MODALIDADES ENUMERADAS

[00147] As seguintes modalidades enumeradas são apresentadas para ilustrar certos aspectos da presente invenção, e não se destinam a limitar seu escopo. 1. Composição compreendendo: (a) uma proteína de modificação de DNA programável ou ácido nucleico codificando a proteína de modificação de DNA programável; e (b) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável. 2. A composição de modalidade 1, em que a proteína de modificação de DNA programável é um sistema de nuclease (Cas) (CRISPR/Cas) (CRISPR) associado a (CRISPR)/CRISPR de repetições palindrômicas curtas regularmente intercaladas agrupadas guiadas por RNA, um sistema de nicase dual CRISPR/Cas, uma nuclease dedo de zinco (ZFN), uma nuclease efetora semelhante a ativador de transcrição (TALEN), uma meganuclease, uma proteína de fusão compreendendo um domínio de ligação a DNA programável ligado a um domínio de nuclease, ou uma proteína de fusão compreendendo um domínio de ligação a DNA programável ligado a um domínio não nuclease. 3. A composição da modalidade 2, em que o domínio de ligação ao DNA programável da proteína de fusão é um sistema CRISPR/Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco ou um efetor semelhante a um ativador de transcrição. 4. A composição de modalidade 2 ou 3, em que o domínio não-nuclease da proteína de fusão possui atividade de acetiltransferase, a atividade de desacetilase, a atividade de metiltransferase, atividade de desmetilase, a atividade de cinase, atividade de fosfatase, atividade de ubiquitina ligase, atividade de desubiquitinação, atividade de adenilação, atividade de desadenilação, atividade de SUMOilação, atividade de desSUMOilação, atividade de ribosilação, atividade de desribosilação, atividade de miristoilação, atividade de desmiristoilação, atividade de citrulinação, atividade de helicase, atividade de aminação, atividade de desaminação, a atividade de alquilação, atividade de desalquilação, a atividade de oxidação, atividade de ativação da transcrição, ou atividade de repressor transcricional. 5. Composição da modalidade 4, em que o domínio não nuclease da proteína de fusão tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressor transcricional. 6. A composição de qualquer uma das modalidades 1 a 5, em que a pelo menos uma proteína de ligação a DNA programável é uma proteína CRISPR/Cas cataliticamente inativa, uma meganucleasse cataliticamente inativa, uma proteína dedo de zinco, um efetor semelhante a ativador de transcrição, uma nicase CRISPR/Cas, uma nicase ZFN, uma nicase TALEN, ou uma nicase de meganuclease. 7. A composição de qualquer uma das modalidades 1 a 6, em que o ácido nucleico codificando a proteína de modificação de DNA programável e a pelo menos uma proteína de ligação a DNA programável é RNA ou DNA e/ou em que o referido ácido nucleico é parte de um vetor de plasmídeo ou um vetor viral. 8. A composição de qualquer uma das modalidades 1 a 6, em que a proteína de modificação de DNA programável é um sistema de nuclease CRISPR/Cas, um sistema de nicase dual CRISPR/Cas ou um sistema CRISPR/Cas cataliticamente inativo ligado a um domínio não nuclease, e a pelo menos uma proteína de ligação a DNA programável, é um sistema CRISPR/Cas cataliticamente inativo, em que cada sistema CRISPR/Cas compreende uma proteína CRISPR/Cas e um RNA guia. 9. A composição da modalidade 8, em que cada sistema de nuclease CRISPR/Cas é um sistema CRISPR/Cas tipo I, um sistema CRISPR/Cas tipo II, um sistema CRISPR/Cas tipo III ou um sistema CRISPR/Cas tipo V. 10. A composição da modalidade 9, em que cada sistema de nuclease CRISPR/Cas é um sistema CRISPR/Cas tipo II ou um sistema CRISPR/Cas tipo V. 11. A composição de qualquer uma das modalidades 8 a 10, em que o ácido nucleico codificando cada proteína CRISPR/Cas é mRNA ou DNA. 12. A composição de qualquer uma das modalidades 8 a 11, em que o ácido nucleico codificando cada proteína CRISPR/Cas e/ou ácido nucleico codificando cada RNA guia é parte de um vetor de plasmídeo ou um vetor viral. 13. A composição de qualquer uma das modalidades 8 a 11, em que o RNA guia de cada sistema CRISPR/Cas é enzimaticamente sintetizado. 14. A composição de qualquer uma das modalidades 8 a 11, em que o RNA guia de cada sistema CRISPR/Cas é pelo menos parcialmente quimicamente sintetizado. 15. Um Kit compreendendo a composição de qualquer uma das modalidades 1 a 14. 16. Um método para aumentar a eficiência e/ou especificidade de modificação do genoma-alvo em uma célula eucariótica, compreendendo o método a introdução na célula eucariótica: (a) uma proteína de modificação de DNA programável ou ácido nucleico codificando a proteína de modificação de DNA programável e; (b) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável; em que a proteína de modificação de DNA programável é direcionada a uma sequência cromossômica alvo e cada pelo menos uma proteína de ligação a DNA programável é direcionada para um sítio proximal à sequência cromossômica alvo e a ligação da pelo menos uma proteína de ligação a DNA programável ao sítio proximal à sequência cromossômica alvo aumenta a acessibilidade da proteína de modificação de DNA programável à sequência cromossômica alvo, desse modo aumentando a eficiência e/ou especificidade de modificação do genoma-alvo. 17. Método da modalidade 16, em que o sítio proximal à sequência cromossômica alvo é localizado dentro de cerca de 250 pares de base em cada lado da sequência cromossômica alvo. 18. O método da modalidade 17, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 100 pares de base em quaisquer dos lados da sequência cromossômica alvo. 19. O método de modalidade 18, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 75 pares de base em cada lado da sequência cromossômica alvo. 20. O método de modalidade 19, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 50 pares de base em cada lado da sequência cromossômica alvo. 21. O método de modalidade 20, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 25 pares de base em cada lado da sequência cromossômica alvo. 22. Método de qualquer uma das modalidades 16 a 21, em que a proteína de modificação de DNA programável é um sistema de nuclease CRISPR/Cas, um sistema de nicase dual CRISPR/Cas, uma nuclease dedo de zinco (ZFN), uma nuclease efetora semelhante a ativador de transcrição (TALEN), uma meganuclease, uma proteína de fusão compreendendo um domínio de ligação a DNA programável ligado a um domínio de nuclease, ou uma proteína de fusão compreendendo um domínio de ligação a DNA programável ligado a um domínio não nuclease. 23. O método de modalidade 22, em que o domínio de ligação ao DNA programável da proteína de fusão é um sistema CRISPR/ Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco ou um efetor semelhante a um ativador de transcrição. 24. Método de modalidade 22 ou 23, em que o domínio de modificação não nuclease da proteína de fusão tem atividade de acetiltransferase, atividade de desacetilase, atividade de metiltransferase, atividade de desmetilase, atividade de cinase, atividade de fosfatase, atividade de ubiquitina ligase, atividade de desubiquitinação, atividade de adenilação, atividade de desadenilação, atividade de SUMOilação, atividade de desSUMO-ilação, atividade de ribosilação, atividade de desribosilação, atividade de miristoilação, atividade de desmiristoilação, atividade de citrulinaçao, atividade de helicase, atividade de aminação, atividade de desaminação, atividade de alquilação, atividade de desalquilação, atividade de oxidação, atividade de ativação transcricional, ou atividade de repressor transcricional. 25. O método de modalidade 24, em que o domínio não nuclease da proteína de fusão tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressor transcricional. 26. O método de qualquer uma das modalidades 16 a 25, em que a pelo menos uma proteína de ligação a DNA programável, é um sistema CRISPR/Cas cataliticamente inativo, uma meganuclease cataliticamente inativa, uma proteína dedo de zinco, um efetor semelhante a ativador da transcrição, uma nicase CRISPR/Cas, uma nicase ZFN, uma nicase TALEN, ou uma nicase de meganuclease. 27. O método de qualquer uma das modalidades 16 a 26, em que a proteína de modificação de DNA programável é um sistema de nuclease CRISPR/Cas, um sistema de nicase dual CRISPR/Cas ou um sistema CRISPR/Cas cataliticamente inativo ligado a um domínio não nuclease, e pelo menos uma proteína de ligação a DNA programável é um sistema CRISPR/Cas cataliticamente inativo, em que cada sistema CRISPR/Cas compreende uma proteína CRISPR/Cas e um RNA guia. 28. O método de modalidade 27, em que o RNA guia de cada sistema CRISPR/Cas é pelo menos parcialmente quimicamente sintetizado. 29. O método da modalidade 27, em que o RNA guia de cada sistema CRISPR/Cas é enzimaticamente sintetizado. 30. O método de qualquer uma das modalidades 16 a 29, em que a célula eucariótica é in vitro. 31. O método de qualquer uma das modalidades 16 a 29, em que a célula eucariótica é in vivo. 32. O método de qualquer uma das modalidades 16 a 31, em que a célula eucariótica é uma célula mamífera. 33. O método de modalidade 32, em que a célula mamífera é uma célula humana. 34. O método de modalidade 32, em que a célula mamífera é uma célula não humana. 35. Um método para detectar uma sequência cromossômica em uma célula eucariótica, o método compreendendo: 1. introduzir na célula eucariótica (a) uma proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável ou ácido nucleico codificando a proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável; e (b) pelo menos uma proteína de ligação a DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação a DNA programável, em que a proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável é direcionada a uma sequência cromossômica alvo e cada uma da pelo menos uma proteína de ligação a DNA programável é direcionada para um sítio proximal à sequência cromossômica alvo, e a ligação da pelo menos uma proteína de ligação a DNA programável ao sítio proximal à sequência cromossômica alvo aumenta a acessibilidade da proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável para a sequência cromossômica alvo; e 11. detectar a proteína de ligação a DNA programável compreendendo pelo menos um domínio marcador detectável ligado à sequência cromossômica alvo. 36. O método da modalidade 35, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 250 pares de base em cada lado da sequência cromossômica alvo. 37. O método de modalidade 36, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 100 pares de base em quaisquer dos lados da sequência cromossômica alvo. 38. O método de modalidade 37, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 75 pares de base em cada lado da sequência cromossômica alvo. 39. O método de modalidade 38, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 50 pares de base em cada lado da sequência cromossômica alvo. 40. O método de modalidade 39, em que o sítio proximal à sequência cromossômica alvo está localizado dentro de cerca de 25 pares de base em cada lado da sequência cromossômica alvo. 41. O método de qualquer uma das modalidades 35 a 40, em que o pelo menos um domínio marcador detectável da proteína de ligação a DNA programável, compreendendo pelo menos um domínio marcador detectável é uma proteína fluorescente, um marcador fluorescente, um marcador de epítopo, ou um epítopo de ocorrência natural dentro da proteína de ligação a DNA programável. 42. O método de qualquer uma das modalidades 35 a 41, em que a proteína de ligação a DNA programável, compreendendo pelo menos um domínio marcador detectável é um sistema CRISPR/Cas cataliticamente inativo ligado a pelo menos um domínio marcador detectável, uma meganuclease cataliticamente inativa ligada a pelo menos um domínio marcador detectável, uma proteína dedo de zinco ligada a pelo menos um domínio marcador detectável, ou um efetor semelhante a ativador de transcrição ligado a pelo menos um domínio marcador detectável. 43. O método de qualquer uma das modalidades 35 a 42, em que a pelo menos uma proteína de ligação a DNA programável é um sistema CRISPR/Cas cataliticamente inativo, uma meganucleasse cataliticamente inativa, uma proteína dedo de zinco, um efector semelhante a ativador de transcrição, uma nicase CRISPR/Cas, uma nicase ZFN, uma nicase TALEN, ou uma nicase de meganuclease. 44. O método de qualquer uma das modalidades 35 a 43, em que a proteína de ligação a DNA programável, compreendendo pelo menos um domínio marcador detectável é um sistema CRISPR/ Cas cataliticamente inativo ligado a pelo menos um domínio marcador detectável e a pelo menos uma proteína de ligação a DNA programável é um sistema CRISPR/Cas cataliticamente inativo, em que cada sistema CRISPR/Cas compreende uma proteína CRISPR/Cas e um RNA guia. 45. O método de modalidade 44, em que o RNA guia de cada sistema CRISPR/Cas é pelo menos parcialmente quimicamente sintetizado. 46. O método da modalidade 44, em que o RNA guia de cada sistema CRISPR/Cas é enzimaticamente sintetizado. 47. O método de qualquer uma das modalidades 35 a 46, em que a célula eucariótica é uma célula mamífera. 48. O método da modalidade 47, em que a célula mamífera é uma célula humana. 49. O método da modalidade 47, em que a célula mamífera é uma célula não humana. 50. O método de qualquer uma das modalidades 35 a 49, em que a célula eucariótica é viva ou fixa. 51. O método de qualquer uma das modalidades 35 a 50, em que a detecção compreende dinâmico imageamento de célula viva, microscopia fluorescente, microscopia confocal, imunofluorescência, imunodetecção, ligação de RNA-proteína ou ligação de proteína- proteína.

EXEMPLOS

[00148] Os seguintes exemplos ilustram certos aspectos da invenção. Exemplo 1. Realce de edição de gene Francisella novicida CRISPR- Cas9 (FnCas9)

[00149] FnCas9 é um CRISPR-Cas9 tipo IIB. Ele exibe uma maior especificidade intrínseca do que o amplamente usado SpCas9, mas foi descoberto ser menos robusto do que SpCas9 em células humanas. Para determinar se a ligação de proteínas de ligação a DNA programável a sítios proximais poderia possibilitar a nuclease clivar um alvo de outro método inacessível (isto é, locus POR) em células humanas, células K562 foram transfectadas com 5,6 μg de DNA de plasmídeo FnCas9, 5 μg de DNA de plasmídeo SpCas9 cataliticamente morto (SpdCas9) e 3 μg de DNA de plasmídeo de cada sgRNA por um milhão de células (veja FIG. 2). O DNA genômico foi colhido 3 dias após a transfecção e a região alvo foi amplificada por PCR com o iniciador dianteiro 5'-CTCCCCTGCTTCTTGTCGTAT-3 '(SEQ ID NO: 9) e o iniciador reverso 5'- ACAGGTCGTGGACACTCACA-3' (SEQ ID NO: 10). Inserções / deleções direcionadas (indels) por FnCas9 no alvo foram determinadas por digestão de nuclease Cel-I e análise de gel de poliacrilamida.

[00150] Como mostrado na FIG. 2, a FnCas9 foi incapaz de clivar o alvo quando transfectada sozinha. Porém, quando foi transfectada em combinação com SpdCas9 para ajudar a romper a configuração da cromatina local, FnCas9 foi capaz de clivar o alvo em níveis robustos, com 10-11% de indels, quando SpdCas9 foi usado para ligar um sítio proximal. Quando SpdCas9 foi usado para ligar dois sítios proximais, a atividade de FnCas9 também aumentou para 28% dos indels. Estes resultados demonstram que o método aqui descrito pode possibilitar que uma endonuclease clivar eficientemente um alvo de outro método inacessível, e existe um efeito sinérgico entre dois sítios utilizados para romper a configuração da cromatina local.

Exemplo 2. Realce na edição de gene Campylobacter jejuni CRISPR- Cas9 (CjCas9)

[00151] CjCas9 é um CRISPR-Cas9 tipo IIC. É o menor Cas9 caracterizado até agora e tem um requisito único ACAY PAM. Mas a nuclease foi descoberta ser inativa na maioria dos alvos em células humanas. Para determinar se os métodos descritos aqui poderiam possibilitar que a proteína CjCas9 se ligasse a um alvo inacessível em células humanas, as células K562 foram transfectadas com 4,2 μg de DNA de plasmídeo CjCas9 (CjdCas9) cataliticamente morto marcado com Flag, 5 μg de DNA de plasmídeo SpCas9 (SpdCas9) cataliticamente morto e 3 μg de DNA de plasmídeo de cada sgRNA por um milhão de células (veja a FIG. 3A). As células foram fixadas em formaldeído 16 horas após a transfecção e a imunoprecipitação da cromatina (ChIP) foi realizada utilizando anticorpo anti-Flag. A ligação ao alvo por Flag-CjdCas9 foi determinada por PCR digital de gotículas (ddPCR).

[00152] Como mostrado na FIG. 3C, Flag-CjdCas9 foi capaz de se ligar a um alvo acessível anteriormente conhecido no locus AAVS1, porém foi incapaz de se ligar a um alvo inacessível no locus POR quando foi transfectado sozinho. No entanto, quando foi transfectada em combinação com SpdCas9 para romper a configuração da cromatina local, Flag-CjdCas9 foi capaz de ligar o alvo POR de forma ainda mais eficiente do que a sua ligação do alvo AAVS1.

[00153] Para examinar o efeito sobre a clivagem do DNA alvo, células K562 foram transfectadas com 4,2 μg de DNA de plasmídeo CjCas9, 5 μg de DNA de plasmídeo SpdCas9 e 3 μg de DNA de plasmídeo de cada sgRNA por um milhão de células. O DNA genômico foi colhido 3 dias após a transfecção e a região alvo foi amplificada por PCR com o iniciador dianteiro 5'-CTCCCCTGCTTCTTGTCGTAT-3 '(SEQ ID NO: 9) e o iniciador reverso 5'- ACAGGTCGTGGACACTCACA-3' (SEQ ID NO: 10). A atividade de clivagem de CjCas9 sobre o alvo de POR foi determinada por digestão por nuclease Cel-I e análise de gel de poliacrilamida. Como mostrado na FIG. 4, CjCas9 foi incapaz de clivar o alvo sem SpdCas9. Porém, quando foi transfectado em combinação com SpdCas9, CjCas9 foi capaz de clivar o alvo eficientemente com 34,1-37,9% de indels. Estes resultados demonstram que o método aqui descrito pode possibilitar que uma nuclease se ligue e clive eficientemente um alvo de outro modo inacessível.

Exemplo 3. Realce de edição do gene Francisella novicida Cpf1 (FnCpfl)

[00154] FnCpf1 é um sistema CRISPR-Cas tipo V. Os sistemas Cpf1 são significativamente divergentes dos sistemas CRISPR-Cas9 tipo II. Ao contrário dos sistemas Cas9, os sistemas Cpf1 usam um PAM rico em 5' T e um RNA guia único para direcionamento sem um tracrRNA (Zetsche et al., Cell, 2015, 163: 1-13). Esses sistemas CRISPR "mais recentes" têm o potencial de tornar a prática de edição de gene ainda mais simples, porém muitos sistemas Cpf1 foram descobertos ser inativos em células humanas. Para determinar se os métodos aqui descritos poderiam possibilitar que a nuclease Cpf1 "inativa" divergente clivar alvos endógenos em células humanas, as células K562 foram transfectadas com 5 μg de DNA de plasmídeo FnCpfl, 5 μg de DNA de plasmídeo SpdCas9 e 3 μg de DNA de plasmídeo de cada sgRNA por um milhão de células (veja FIG. 5). O DNA genômico foi colhido 3 dias após a transfecção e a região alvo foi amplificada por PCR com o iniciador dianteiro 5'- CTCCCCTGCTTCTTGTCGTAT-3 '(SEQ ID NO: 9) e o iniciador reverso 5'-ACAGGTCGTGGACACTCACA-3' (SEQ ID NO: 10). A atividade de clivagem de FnCpf1 sobre um alvo de POR foi determinada por digestão de nuclease Cel-I e análise de gel de poliacrilamida.

[00155] Como mostrado na FIG. 5, FnCpf1 foi incapaz de clivar o alvo quando foi transfectada sozinha, mas foi capaz de clivar o alvo eficientemente quando foi transfectada em combinação de SpdCas9. Estes resultados demonstram que o método aqui descrito é aplicável a sistemas CRISPR-Cas do tipo V divergentes.

Exemplo 4. Edição seletiva entre alvos idênticos em HBB e HBD humanos.

[00156] Dois alvos idênticos em humanos (isto é, HBB e HBD) foram usados para determinar se os métodos divulgados aqui poderiam facilitar a edição seletiva entre sítios idênticos em diferentes genes. As células K562 foram transfectadas com 4,2 μg de DNA de plasmídeo CjCas9, 5 μg de DNA de plasmídeo SpdCas9 e 3 μg de DNA de plasmídeo de cada sgRNA por um milhão de células (veja a FIG. 6). O DNA genômico foi colhido 3 dias após a transfecção e as duas regiões alvo foram amplificadas por PCR com o iniciador dianteiro 5'-CGGCTGTCATCACTTAGACCTCA-3 '(SEQ ID NO: 11) e o iniciador reverso 5'-GCAGCCTAAGGGTGGGAAAATAGA-3' (SEQ ID NO: 12) para HBB e o iniciador dianteiro 5'- AGGGCAAGTTAAGGGAAT AGTGGAA-3 '(SEQ ID NO: 13) e o iniciador reverso 5'-CCAAGGGTA GACCACCAGTAATCTG-3' (SEQ ID NO: 14) para HBD. A atividade de clivagem de CjCas9 nos alvos de HBB e HBD foi determinada por digestão de nuclease Cel-I e análise de gel de poliacrilamida.

[00157] Como mostrado na FIG. 6, quando foi transfectado sozinho, CjCas9 foi incapaz de clivar qualquer um dos alvos. Porém, quando foi transfectado em combinação com SpdCas9 direcionado para sítios proximais a HBB, CjCas9 clivou o alvo HBB eficientemente, porém ainda foi incapaz de clivar o alvo HBD idêntico. As duas faixas de digestão de nuclease Cel-I nas primeiras duas colunas foram causadas por SNPs presentes na população de células K562. Estes resultados demonstram a capacidade única do método descrito para melhorar a seletividade de edição de gene.

Exemplo 5. Realce de edição de gene CRISPR-Cas9 Streptococcus pyogenes (SpCas9)

[00158] SpCas9 é um CRISPR-Cas9 do tipo IIA e tem sido amplamente utilizado na modificação do genoma devido à sua atividade robusta em células eucarióticas. No entanto, sua atividade pode também variar amplamente de alvo para alvo. Para determinar se os métodos aqui descritos também poderiam melhorar essa nuclease, as células K562 foram transfectadas com 5 μg de DNA de plasmídeo SpCas9, 5,6 μg de FnCas9 cataliticamente mortos (FndCas9) e 3 μg de DNA de plasmídeo de cada sgRNA por um milhão de células (veja a figura 7). O DNA genômico foi colhido 3 dias após a transfecção e a região alvo foi amplificada por PCR com o iniciador dianteiro 5'-CTCCCCTGCTT CTTGTCGTAT-3 '(SEQ ID NO: 9) e o iniciador reverso 5'- ACAGGTCGTGGACACTCACA-3' (SEQ ID NO: 10). A atividade de clivagem de SpCas9 no alvo de POR foi determinada por digestão de nuclease Cel-I e análise de gel de poliacrilamida.

[00159] Como mostrado na FIG. 7, a atividade de clivagem de SpCas9 aumentou significativamente quando foi transfectada em combinação com FndCas9, em comparação com quando foi transfectada sozinha. Estes resultados mostram que o método aqui descrito também pode ser aplicado a endonucleases robustas.

Exemplo 6. Realce da edição de genes usando doador de oligo ssDNA

[00160] Células K562 foram transfectadas com 4,2 μg de DNA de plasmídeo CjCas9, 5 μg de DNA de plasmídeo SpdCas9, 3 μg de DNA de plasmídeo de cada sgRNA e 300 pmol de um doador oligo ssDNA 88-nt para integração direcionada de um sio de restrição EcoRI por um milhão de células. DNA genômico foi colhido 3 dias após a transfecção e a região alvo foi amplificada por PCR com o iniciador dianteiro 5'- CTCCCCTGCTTCTTGTCGTAT-3 '(SEQ ID NO: 9) e o iniciador reverso 5'-ACAGGTCGTGGACACTCACA-3' (SEQ ID NO: 10). A integração direcionada do sítio de restrição EcoRI foi determinada por digestão com enzima de restrição EcoRI e análise de gel de poliacrilamida. Como mostrado na FIG. 8, o sítio de restrição foi integrado eficientemente (28-37%) no locus de POR quando o doador de oligo ssDNA foi transfectado em conjunto com CjCas9 e SpdCas9, enquanto nenhuma integração foi detectada quando o oligo doador foi transfectado sozinho ou em combinação com CjCas9 sem o SpdCas9. Estes resultados demonstram que o método aqui descrito pode facilitar a edição eficiente de gene utilizando doador de oligo ssDNA em um alvo de outro método inacessível. Exemplo 7. Realce de detecção de DNA genômico específico de sequência em células vivas e fixadas.

[00161] A fusão de proteínas Cas9 a proteínas fluorescentes possibilitou a detecção das dinâmicas cromossômicas em células vivas (Chen et al., Cell, 2013, 155: 1479-91). Por conseguinte, acredita-se que as dinâmicas estruturais da cromatina influenciarão a capacidade de complexos do sistema CRISPR/Cas acessar a vários loci genômicos. Desse modo, acredita-se que a colocação de complexos CRISPR (dCas9) próximos daqueles que alojando dCas9- GFP realce a detecção de dinâmicas cromossômicas em uma extensão semelhante àquela observada no Exemplo 2 para a imunoprecipitação da cromatina. Por exemplo, CjdCas9 pode ser fundido a GFP e direcionado para uma região com um estado de cromatina que evita a ligação detectável de CjdCas9-GFP. O sistema com base em SpdCas9 pode então ser projetado em proximidade a alvos CjdCas9-GFP para produzir sinal detectável. Para regiões de cromatina que são resistentes à ligação e detecção de SpdCas9-GFP, uma molécula FndCas9 proximal pode ser utilizada para realçar a detecção em uma extensão similar àquela mostrada no Exemplo 5 para direcionamento proximal de SpCas9 e FndCas9 e realce da atividade de rompimento de fita dupla. Além disso, dado que estudos anteriores indicaram que a extensão de requisitos de hibridização entre RNA guia CRISPR e o DNA genômico pode ser menor para a ligação do que para a clivagem de fita dupla (Wu et al., Nature Biotechnology, 2014, 32 (7): 670-6), acredita-se que o uso de ligação de CRISPR proximal aumente as relações sinal-para-ruído para a detecção de DNA genômico em células.

[00162] Métodos semelhantes de detecção com base em CRISPR foram aplicados a células fixadas (Deng et al., Proc. Natl. Acad, Sci. USA, 2015, 112 (38): 11870-75). Desse modo, acredita-se que o direcionamento CRISPR proximal realçará a detecção de DNA fixo de um método semelhante ao descrito acima para as células vivas. Uma vez que as fitas de DNA genômico em células fixas são quimicamente reticulados, a interrogação de informação de sequência por hibridação de sondas de ácido nucleico requer tipicamente uma etapa de pré- tratamento com processamento térmico ou químico para separar as fitas de modo suficiente. Portanto, é possível que o direcionamento de CRISPR proximal tornará o DNA fixo mais acessível e reduzirá a extensão (ou requisito) para tratamento térmico ou químico de células fixas. Eliminação de tratamento térmico ou químico forneceria vantagens em simplificação de protocolo diagnóstico e manutenção de estruturas moleculares intracelulares que melhor refletem a biologia de células viva e, portanto, resultados diagnósticos mais informados.

Exemplo 8. Realce de ativação de gene com base em CRISPR e repressão em células eucarióticas.

[00163] Fusão de proteínas Cas9 a domínios de regulação transcricional possibilitou ativação e repressão de gene alvo (Konermann et al., Nature, 2014; 517(7536):583-8; Gilbert et al., Cell, 2014, 159(3) 547-661). Acredita-se que dinâmicas estruturais de cromatina influenciarão a capacidade do complexo CRISPR acessar vários loci genômicos e induzem ativação ou repressão. Desse modo, a colocação de complexos CRISPR (dCas9) proximais àqueles alojando dCas9 fundido a domínios de regulação de transcrição é acreditada realçar a regulação de gene alvo em uma extensão similar àquela observada no Exemplo 2 para imunoprecipitação de cromatina. Para regiões de cromatina que são resistentes à ligação e modificação por reguladores transcricionais de SpdCas9, uma molécula FndCas9 proximal pode ser usada para realçar a ativação ou repressão de gene em uma extensão similar àquela mostrada no Exemplo 5 para direcionamento proximal de SpCas9 e FndCas9 e realce de atividade de rompimento de fita dupla.

Exemplo 9. Realce de modificação epigenética com base em CRISPR em células eucarióticas.

[00164] Fusão de proteínas Cas9 a domínios de modificação epigenética possibilitou modificações cromossômicas epigenéticas direcionadas, tal como acetilação de histona por p300 ou desaminação de citosina por citosina desaminase (Hilton et al., Nat. Biotechnol.; 2015, 33(5): 510-7; Komor et al., Nature, 2016, 533(7603):420-4. Acredita-se que dinâmicas estruturais de cromativa influenciarão a capacidade do complexo CRISPR acessar vários loci genômicos. Desse modo, a colocação de complexos CRISPR (dCas9) proximais àqueles alojando dCas9 fundidos a modificadores epigenéticos deve realçar a modificação epigenética direcionada de DNA cromossômico, proteínas locais, ou RNA local em uma extensão similar àquela observada no Exemplo 2 para imunoprecipitação de cromatina. Para regiões de cromatina que são resistentes à ligação e modificação por epi-modificadores SpdCas9, uma molécula FndCas9 proximal pode ser usada para realçar a detecção em uma extensão similar àquela mostrada no Exemplo 5 para direcionamento proximal de SpCas9 e FndCas9 e realce de atividade de rompimento de fita dupla.

Claims

1. Composição, caracterizada pelo fato de que compreende: (a) um sistema de nuclease associado a repetições palindrômicas curtas regularmente intercaladas agrupadas (CRISPR) guiado por RNA, ou um ácido nucleico que codifica o referido sistema de nuclease CRISPR, em que o sistema de nuclease CRISPR compreende (i) uma proteína de modificação de DNA programável que é uma proteína CRISPR e (ii) um RNA guia; e (b) pelo menos um sistema CRISPR cataliticamente inativo ou ácido nucleico que codifica o referido pelo menos um sistema CRISPR cataliticamente inativo, em que cada sistema CRISPR cataliticamente inativo compreende (i) uma proteína de ligação ao DNA programável que é uma proteína CRISPR cataliticamente inativa e (ii) um RNA guia; e em que (c) a proteína de modificação de DNA programável é uma proteína CRISPR do tipo II e pelo menos uma proteína de ligação ao DNA programável é uma proteína CRISPR do tipo II, ou (d) a proteína de modificação de DNA programável é uma proteína CRISPR do tipo V e pelo menos uma proteína de ligação ao DNA programável é uma proteína CRISPR do tipo II; e em que a composição como definida acima não é revelada nos documentos WO2017/070598 ou WO2017/096328.

2. Composição, de acordo com a reivindicação 1, caracterizada pelo fato de que: (i) a proteína CRISPR do tipo II é selecionada a partir de Francisella novicida CRISPR-Cas9 (FnCas9), Campylobacter jejuni CRISPR-Cas9 (CjCas9) e Streptococcus pyogenes CRISPR-Cas9 (SpCas9); e/ou (ii) a proteína CRISPR do tipo V é Francisella novicida CRISPR-Cpf1 (FnCpf1).

3. Composição, de acordo com a reivindicação 1 ou 2, caracterizada pelo fato de que a pelo menos uma proteína de ligação ao DNA programável é uma proteína CRISPR Cas9 tipo II, em que a proteína Cas9 apresenta uma ou mais mutações em cada domínio do tipo RuvC e do domínio do tipo HNH.

4. Composição, de acordo com a reivindicação 3, caracterizada pelo fato de que: (i) as uma ou mais mutações no domínio do tipo RuvC são D10A, D8A, E762A e/ou D986A; e (ii) as uma ou mais mutações no domínio do tipo HNH são H840A, H559A, N854A, N856A e/ou N863A.

5. Composição, de acordo com qualquer uma das reivindicações 1 a 4, caracterizada pelo fato de que o ácido nucleico que codifica cada proteína CRISPR é mRNA ou DNA.

6. Composição, de acordo com qualquer uma das reivindicações 1 a 5, caracterizada pelo fato de que o ácido nucleico que codifica cada proteína CRISPR é parte de um vetor plasmídeo ou de um vetor viral.

7. Composição, de acordo com qualquer uma das reivindicações 1 a 6, caracterizada pelo fato de que o ácido nucleico que codifica cada RNA guia é parte de um vetor plasmídeo ou de um vetor viral.

8. Composição, de acordo com qualquer uma das reivindicações 1 a 7, caracterizada pelo fato de que o RNA guia de cada sistema CRISPR é: (a) enzimaticamente sintetizado ou (b) é pelo menos parcialmente quimicamente sintetizado.

9. Kit, caracterizado pelo fato de que compreende a composição, como definida em qualquer uma das reivindicações 1 a 8, e instruções para uso da composição em um método in vitro para aumentar a eficiência e/ou especificidade da modificação do genoma- alvo em uma célula eucariótica.

10. Método in vitro para aumentar a eficiência e/ou a especificidade da modificação do genoma-alvo em uma célula eucariótica, o método caracterizado pelo fato de que compreende introduzir na célula eucariótica uma composição que compreende: (a) um sistema de nuclease associado a repetições palindrômicas curtas regularmente intercaladas agrupadas (CRISPR) guiado por RNA, ou um ácido nucleico que codifica o referido sistema de nuclease CRISPR, em que o sistema de nuclease CRISPR compreende (i) uma proteína de modificação de DNA programável que é uma proteína CRISPR e (ii) um RNA guia; e (b) pelo menos um sistema CRISPR cataliticamente inativo ou ácido nucleico que codifica o referido pelo menos um sistema CRISPR cataliticamente inativo, em que cada sistema CRISPR cataliticamente inativo compreende (i) uma proteína de ligação ao DNA programável que é uma proteína CRISPR cataliticamente inativa e (ii) um RNA guia; e em que (c) a proteína de modificação de DNA programável é uma proteína CRISPR do tipo II e pelo menos uma proteína de ligação ao DNA programável é uma proteína CRISPR do tipo II, ou (d) a proteína de modificação de DNA programável é uma proteína CRISPR do tipo V e pelo menos uma proteína de ligação ao DNA programável é uma proteína CRISPR do tipo II; em que a proteína de modificação de DNA programável é direcionada a uma sequência cromossômica alvo e cada uma das pelo menos uma proteína de ligação ao DNA programável é direcionada a um sítio proximal à sequência cromossômica alvo e a ligação da pelo menos uma proteína de ligação ao DNA programável ao sítio proximal à sequência cromossômica alvo aumenta a acessibilidade da proteína de modificação de DNA programável à sequência cromossômica alvo, aumentando assim a eficiência e/ou a especificidade da modificação do genoma-alvo.

11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que o sítio proximal à sequência cromossômica alvo é localizado dentro de 250, 100, 75, 50 ou 25 pares de base em ambos os lados da sequência cromossômica alvo.

12. Método, de acordo com a reivindicação 10 ou 11, caracterizado pelo fato de que a célula eucariótica é uma célula de mamífero, em que a célula de mamífero é uma célula humana ou uma célula não humana.

13. Método, de acordo com qualquer uma das reivindicações 10 a 12, caracterizado pelo fato de que: (i) a proteína CRISPR do tipo II é selecionada a partir de Francisella novicida CRISPR-Cas9 (FnCas9), Campylobacter jejuni CRISPR-Cas9 (CjCas9) e Streptococcus pyogenes CRISPR-Cas9 (SpCas9); e/ou (ii) a proteína CRISPR do tipo V é Francisella novicida CRISPR-Cpfl (FnCpf1).

14. Método, de acordo com qualquer uma das reivindicações 10 a 13, caracterizado pelo fato de que a pelo menos uma proteína de ligação ao DNA programável é uma proteína CRISPR Cas9 tipo II, em que a proteína Cas9 apresenta uma ou mais mutações em cada um dos domínio do tipo RuvC e do domínio do tipo HNH.

15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que (i) as uma ou mais mutações no domínio do tipo RuvC são D10A, D8A, E762A e/ou D986A; e (ii) as uma ou mais mutações no domínio do tipo HNH são H840A, H559A, N854A, N856A e/ou N863A.

16. Método, de acordo com qualquer uma das reivindicações 10 a 15, caracterizado pelo fato de que o ácido nucleico que codifica cada proteína CRISPR é mRNA ou DNA.

17. Método, de acordo com qualquer uma das reivindicações 10 a 16, caracterizado pelo fato de que o ácido nucleico que codifica cada proteína CRISPR é parte de um vetor plasmídeo ou de um vetor viral.

18. Método, de acordo com qualquer uma das reivindicações 10 a 17, caracterizado pelo fato de que o ácido nucleico que codifica cada RNA guia é parte de um vetor plasmídeo ou vetor viral.

19. Método, de acordo com qualquer uma das reivindicações 10 a 18, caracterizado pelo fato de que o RNA guia de cada sistema CRISPR é (a) enzimaticamente sintetizado ou (b) é pelo menos parcialmente quimicamente sintetizado.

20. Composição, de acordo com qualquer uma das reivindicações 1 a 8, ou kit de acordo com a reivindicação 9, caracterizado pelo fato de que é para uso em terapia.

21. Composição, de acordo com qualquer uma das reivindicações 1 a 8, ou kit, de acordo com a reivindicação 9, caracterizado pelo fato de que é para uso no tratamento de doenças das células falciformes, talassemia, deficiência imunológica combinada grave (SCID), doença de Huntington ou retinite pigmentosa.

22. Método para detectar uma sequência cromossômica em uma célula eucariótica, caracterizado pelo fato de que compreende: (I) introduzir na célula eucariótica, (a) uma proteína de ligação ao DNA programável compreendendo pelo menos um domínio marcador detectável ou ácido nucleico codificando a proteína de ligação ao DNA programável compreendendo pelo menos um domínio marcador detectável; e (b) pelo menos uma proteína de ligação ao DNA programável ou ácido nucleico codificando a pelo menos uma proteína de ligação ao DNA programável, em que a proteína de ligação ao DNA programável compreendendo pelo menos um domínio marcador detectável é direcionada a uma sequência cromossômica alvo e cada uma da pelo menos uma proteína de ligação ao DNA programável é direcionada para um sítio proximal à sequência cromossômica alvo, e a ligação da pelo menos uma proteína de ligação ao DNA programável ao sítio proximal à sequência cromossômica alvo aumenta a acessibilidade da proteína de ligação ao DNA programável compreendendo pelo menos um domínio marcador detectável para a sequência cromossômica alvo; e (II) detectar a proteína de ligação ao DNA programável compreendendo pelo menos um domínio marcador detectável ligado à sequência cromossômica alvo.

23. Uso de: (a) um sistema de nuclease associado a repetições palindrômicas curtas regularmente intercaladas agrupadas (CRISPR) guiado por RNA, ou um ácido nucleico que codifica o referido sistema de nuclease CRISPR, em que o sistema de nuclease CRISPR compreende (i) uma proteína de modificação de DNA programável que é uma proteína CRISPR e (ii) um RNA guia; e (b) pelo menos um sistema CRISPR cataliticamente inativo ou ácido nucleico que codifica o referido pelo menos um sistema CRISPR cataliticamente inativo, em que cada sistema CRISPR cataliticamente inativo compreende (i) uma proteína de ligação ao DNA programável que é uma proteína CRISPR cataliticamente inativa e (ii) um RNA guia; e em que (c) a proteína de modificação de DNA programável é uma proteína CRISPR do tipo II e pelo menos uma proteína de ligação ao DNA programável é uma proteína CRISPR do tipo II, ou (d) a proteína de modificação de DNA programável é uma proteína CRISPR do tipo V e pelo menos uma proteína de ligação ao DNA programável é uma proteína CRISPR do tipo II, caracterizado pelo fato de que é na preparação de uma composição para uso em terapia.

24. Composição de acordo com qualquer uma das reivindicações 1 a 8, kit de acordo com a reivindicação 9, método de acordo com qualquer uma das reivindicações 10 a 19 e 22 ou uso de acordo com a reivindicação 23, caracterizado pelo fato de que: (i) o sistema CRISPR da subparte (a) é uma proteína CRISPR/Cas9 de Francisella novicida Tipo IIB e o pelo menos um sistema CRISPR da subparte (b) é uma proteína CRISPR/Cas9 de Streptococcus pyogenes Tipo IIA; (ii) o sistema CRISPR da subparte (a) é uma proteína CRISPR/Cas9 de S. pyogenes Tipo IIA e o pelo menos um sistema CRISPR da subparte (b) é uma proteína CRISPR/Cas9 de F. novicida Tipo IIB; (iii) o sistema CRISPR da subparte (a) é uma proteína CRISPR/Cas9 de Campylobacter jejuni Tipo IIC e o pelo menos um sistema CRISPR da subparte (b) é uma proteína CRISPR/Cas9 de S. pyogenes Tipo IIA; ou (iv) o sistema CRISPR da subparte (a) é uma proteína CRISPR/Cpf1 de F. novicida Tipo V e o pelo menos um sistema CRISPR da subparte (b) é uma proteína CRISPR/Cas9 de S. pyogenes Tipo IIA.