BR112019028261A2

BR112019028261A2 - uso de domínios de proteína de interação com nucleossomo para melhorar modificação de genoma direcionada

Info

Publication number: BR112019028261A2
Application number: BR112019028261-0A
Authority: BR
Inventors: Fuqiang Chen; Xiao DING; Yongmei FENG; Gregory D. Davis
Original assignee: Sigma-Aldrich Co. Llc
Priority date: 2017-07-11
Filing date: 2018-07-10
Publication date: 2020-07-14
Also published as: KR20240046316A; GB202103935D0; AU2022200851B2; SG11201911864PA; CA3066790C; CN111183226A; GB201811358D0; AU2018299995A1; AU2021245148B2; JP2020530287A; AU2021245148A1; CA3066790A1; JP2022046532A; GB2567917B; GB2593814B; EP3428274A1; GB2598847A; KR102523217B1; US20210024916A1; JP6994560B2

Abstract

A invenção refere-se a composições e métodos para usar domínios de proteína de interação com nucleossomo para melhorar a acessibilidade de proteínas de modificação de DNA programável para direcionar sequências cromossômicas, aumentando assim a eficiência do genoma direcionado / modificação epigenética em células eucarióticas.

Description

Relatório Descritivo da Patente de Invenção para "USO DE

DOMÍNIOS DE PROTEÍNA DE INTERAÇÃO COM NUCLEOSSOMO PARA MELHORAR MODIFICAÇÃO DE GENOMA DIRECIONADA". CAMPO

[001] A presente descrição refere-se a composições e métodos para aumentar a eficiência da modificação de genoma direcionada, regulação transcricional direcionada ou modificação epigenética direcionada.

ANTECEDENTES

[002] As endonucleases programáveis vêm tornando-se cada vez mais uma ferramenta importante para a engenharia genética ou modificação de genoma direcionada em eucariotas. Recentemente, os sistemas de repetições palindrômicas curtas e regularmente intercaladas agrupadas guiadas por RNA (CRISPR) emergiram como uma nova geração de ferramentas de modificação de genoma. Essas novas endonucleases programáveis proporcionaram simplicidade e versatilidade sem precedentes em comparação com gerações anteriores de nucleases, como nucleases de dedos de zinco (ZFNs) e nucleases de efetores do tipo ativador de transcrição (TALENs). No entanto, as barreiras da cromatina nas células eucarióticas podem impedir o acesso ao alvo e a clivagem pelos sistemas CRISPR derivados de procariontes (Hinz et al., Biochemistry, 2015, 54: 7063-66; Horlbeck et al., ELife, 2016, 5: e12677).

[003] De fato, nenhuma ou baixa atividade de edição em certos sítios genômicos de mamíferos foi observada ao usar o Streptococcus pyogenes Cas9 (SpCas9), que é considerado a CRISPR nuclease mais ativa até o momento. Além disso, muitas das nucleases CRISPR que foram caracterizadas até agora não exibem atividade em células de mamíferos, embora sejam ativas em bactérias ou em substratos de DNA purificados. Portanto, existe uma necessidade de melhorar a capacidade dos sistemas de CRISPR nuclease e outras proteínas de modificação de DNA programável para superar o impedimento da cromatina para aumentar a eficiência do genoma direcionado ou da modificação epigenética nos eucariotas.

SUMÁRIO

[004] Entre os vários aspectos da presente descrição está a provisão de proteínas de fusão, cada proteína de fusão compreendendo pelo menos um domínio de proteína de interação com nucleossomo ligado a uma proteína de modificação de DNA programável.

[005] O pelo menos um domínio de proteína de interação com nucleossomo pode ser um domínio de ligação ao DNA a partir de uma proteína box do grupo de alta mobilidade (HMG) (HMGB) escolhida entre HMGB1, HMGB2 ou HMGB3; uma proteína de ligação ao nucleossomo do HMG (HMGN) escolhida entre HMGN1, HMGN2, HMGN3a, HMGN3b, HMGN4 ou HMGN5; um domínio central globular de uma variante de histona H1; um domínio de ligação ao DNA a partir de uma proteína do complexo de remodelação de cromatina escolhida entre o complexo switch / sacarose não fermentável (SWI/SNF), complexo imitação de switch (ISWI), complexo de ligação cromodomaina-helicase-DNA (CHD), complexo de remodelação e desacetilase de nucleossomo (NuRD), complexo INO80, complexo SWR1, complexo RSC ou sua combinação. Em algumas modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser o domínio de box A de HMGB1, proteína HMGN1, proteína HMGN2, proteína HMGN3a, proteína HMGN3b, domínio globular central de histona H1, domínio de ligação ao DNA da proteína ISWI, domínio de ligação ao DNA da proteína CHD1 ou combinação dos mesmos.

[006] Em algumas modalidades, a proteína de modificação de DNA programável tem atividade de nuclease, e a proteína de modificação de DNA programável pode ser uma nuclease ou nickase de repetições palindrômicas curtas e regularmente intercaladas agrupadas (CRISPR), uma nuclease de dedo de zinco (ZFN), uma nuclease de efetor do tipo ativador de transcrição (TALEN), uma meganuclease ou uma proteína quimérica compreendendo um domínio de ligação ao DNA programável ligado a um domínio nuclease.

[007] Em outras modalidades, a proteína de modificação de DNA programável tem atividade de não nuclease, e a proteína de modificação de DNA programável pode ser uma proteína quimérica que compreende um domínio de ligação ao DNA programável ligado a um domínio de não nuclease. O domínio de ligação ao DNA programável da proteína quimérica pode ser uma proteína CRISPR modificada para não possuir toda atividade de nuclease, uma proteína de dedo de zinco ou um efetor do tipo ativador de transcrição, e o domínio de não nuclease da proteína quimérica pode ter atividade de acetiltransferase, atividade de desacetilase, atividade de metiltransferase, atividade da desmetilase, atividade da quinase, atividade da fosfatase, atividade da ubiquitina ligase, atividade de desiquiquilação, atividade de adenilação, atividade de desadenilação, atividade de SUMOilação, atividade deSUMOilação, atividade de ribosilação, atividade de derribosilação, atividade de miristoilação, atividade de demiristoilação, atividade de citrulinação, atividade de helicase, atividade de aminação, atividade de desaminação, atividade de alquilação, atividade de desalquilação, atividade de oxidação, atividade de ativação transcricional ou atividade de repressão transcricional. Em certas modalidades, o domínio não nuclease da proteína quimérica pode ter atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressão transcricional.

[008] O pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado à proteína de modificação de DNA programável diretamente através de uma ligação química, indiretamente através de um ligante, ou uma combinação dos mesmos. O pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado ao terminal N, terminal C e/ou a um local interno da proteína de modificação de DNA programável. Em algumas modalidades, a proteína de fusão compreende pelo menos dois domínios de proteína de interação com nucleossomo ligados à proteína de modificação de DNA programável.

[009] As proteínas de fusão aqui divulgadas podem adicionalmente compreender pelo menos um sinal de localização nuclear, pelo menos um domínio de penetração de células, pelo menos um domínio de marcador ou uma combinação dos mesmos.

[010] Outro aspecto da presente descrição abrange uma proteína de fusão compreendendo uma proteína CRISPR ligada a pelo menos um domínio de proteína de interação com nucleossomo.

[011] Em geral, a proteína CRISPR da referida proteína de fusão pode ser uma proteína CRISPR/Cas9 tipo II ou uma proteína CRISPR/Cpf1 tipo V. Em certas modalidades, a proteína CRISPR pode ser Streptococcus pyogenes Cas9 (SpCas9), Streptococcus thermophilus Cas9 (StCas9), Streptococcus pasteurianus (SpaCas9), Campylobacter jejuni Cas9 (CjCas9), Staphylococcus aureus (SaCas9), Francisella novicida Cas9 (FnCas9), Neisseria cinerea Cas9 (NcCas9), Neisseria meningite Cas9 (NmCas9), Francisella novicida Cpf1 (FnCpf1), Acidaminococcus sp. Cpf1 (AsCpf1), ou Lachnospiraceae bacterium ND2006 Cpf1 (LbCpf1).

[012] Em algumas modalidades, a proteína CRISPR tem atividade de nuclease ou nickase. Por exemplo, a proteína CRISPR pode ser uma nuclease ou nickase do tipo II CRISPR/Cas9 ou uma nuclease ou nickase do tipo V CRISPR/Cpf1. Em outras modalidades, a proteína CRISPR tem atividade de não nuclease. Em tais iterações, a proteína

CRISPR pode ser uma proteína CRISPR/Cas9 tipo II modificada para não possuir toda a atividade de nuclease e ligada a um domínio não nuclease, ou uma proteína CRISPR/Cpf1 tipo V modificada para não possuir toda a atividade de nuclease e ligada a um não domínio não nuclease, em que o domínio não nuclease pode ter atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressão transcricional.

[013] O pelo menos um domínio de proteína de interação com nucleossomo da proteína de fusão CRISPR pode ser um domínio de ligação ao DNA de box do grupo de alta mobilidade (HMG) (HMGB), uma proteína HMG de ligação ao nucleossomo (HMGN), um domínio globular central a partir de uma variante de histona H1, um domínio de ligação ao DNA a partir de uma proteína do complexo de remodelação de cromatina ou uma combinação dos mesmos. Em certas modalidades, o pelo menos um domínio de proteína de interação com nucleossomo da proteína de fusão CRISPR pode ser o domínio de box A de HMGB1, proteína HMGN1, proteína HMGN2, proteína HMGN3a, proteína HMGN3b, domínio globular central de histona H1, domínio de ligação ao DNA da proteína de imitação de switch (ISWI), domínio de ligação ao DNA de proteína 1 cromodomaina-helicase-DNA (CHD1), ou uma combinação dos mesmos.

[014] O pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado à proteína CRISPR diretamente através de uma ligação química, indiretamente através de um ligante, ou uma combinação dos mesmos. O pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado ao terminal N, terminal C e/ou a um local interno da proteína CRISPR. Em algumas modalidades, a proteína de fusão compreende pelo menos dois domínios de proteína de interação com nucleossomo ligados à proteína CRISPR.

[015] As proteínas de fusão CRISPR aqui divulgadas podem adicionalmente compreender pelo menos um sinal de localização nuclear, pelo menos um domínio de penetração de células, pelo menos um domínio de marcador ou uma combinação dos mesmos.

[016] Em certas modalidades, a proteína de fusão CRISPR pode ter uma sequência de aminoácidos com pelo menos cerca de 90% de identidade de sequência com a SEQ ID NO: 61, SEQ ID NO: 62, SEQ ID NO: 63, SEQ ID NO: 63, SEQ ID NO: 64, SEQ ID NO: 65, SEQ ID NO: 66, SEQ ID NO: 67, SEQ ID NO: 68, SEQ ID NO: 69, SEQ ID NO: 70, SEQ ID NO: 71, SEQ ID NO: 72, SEQ ID NO: 73, SEQ ID NO: 74, SEQ ID NO: 75, SEQ ID NO: 76, SEQ ID NO: 77, SEQ ID NO: 78 ou SEQ ID NO: 79.

[017] Em outras modalidades, a proteína de fusão CRISPR pode ter uma sequência de aminoácidos conforme estabelecido na SEQ ID NO: 61, SEQ ID NO: 62, SEQ ID NO: 62, SEQ ID NO: 63, SEQ ID NO: 64, SEQ ID NO: 65, SEQ ID NO: 66, SEQ ID NO: 67, SEQ ID NO: 68, SEQ ID NO: 69, SEQ ID NO: 70, SEQ ID NO: 71, SEQ ID NO: 72, SEQ ID NO: 73, SEQ ID NO: 74, SEQ ID NO: 75, SEQ ID NO: 76, SEQ ID NO: 77, SEQ ID NO: 78 ou SEQ ID NO: 79.

[018] Outro aspecto da presente descrição abrange complexos proteína-RNA compreendendo pelo menos uma das proteínas de fusão contendo CRISPR aqui divulgadas e pelo menos um RNA guia.

[019] Um outro aspecto da presente descrição fornece ácidos nucleicos que codificam qualquer uma das proteínas de fusão aqui divulgadas. Os ácidos nucleicos podem ser otimizados por códon para tradução em uma célula eucariótica. Em algumas modalidades, os ácidos nucleicos podem ser parte de um vetor, tal como, por exemplo, um vetor viral, um vetor plasmídeo ou um RNA autorreplicante.

[020] Ainda outro aspecto da presente descrição fornece métodos para aumentar a eficiência do genoma direcionado ou modificação epigenética em uma célula eucariótica. Os métodos envolvem a introdução em uma célula eucariótica (a) pelo menos uma proteína de fusão como aqui divulgada ou ácido nucleico que codifica as referidas proteínas de fusão, em que o pelo menos um domínio de proteína de interação com nucleossomo da pelo menos uma proteína de fusão altera a estrutura nucleossômica ou de cromatina de modo que a pelo menos uma proteína de fusão aumente o acesso à sequência cromossômica alvo, aumentando assim a eficiência do genoma direcionado ou da modificação epigenética.

[021] Em algumas iterações, o método compreende introduzir na célula eucariótica (a) pelo menos uma proteína de fusão CRISPR como aqui divulgada ou ácido nucleico que codifica as referidas proteínas de fusão CRISPR, em que a proteína CRISPR (i) tem atividade de nuclease ou nickase ou (ii) é modificada para não possuir toda atividade de nuclease e está ligada a um domínio de não nuclease; e (b) pelo menos um RNA guia ou ácido nucleico que codifica pelo menos um RNA guia; em que a proteína CRISPR da pelo menos uma proteína de fusão CRISPR é direcionada a uma sequência cromossômica alvo e o pelo menos um domínio de proteína de interação com nucleossomo da pelo menos uma proteína de fusão CRISPR altera a estrutura nucleossômica ou de cromatina, de modo que a pelo menos uma proteína de fusão CRISPR aumente o acesso à sequência cromossômica alvo, aumentando assim a eficiência do genoma direcionado ou modificação epigenética.

[022] Em certas modalidades, os métodos podem adicionalmente compreender a introdução na célula eucariótica de pelo menos um polinucleotídeo doador, o polinucleotídeo doador compreendendo pelo menos uma sequência doadora.

[023] As células eucarióticas usadas nos métodos aqui divulgados podem ser células de mamíferos. Em algumas modalidades, as células podem ser células humanas. As células podem ser in vitro ou in vivo.

[024] Outros aspectos e características da descrição são detalhados abaixo.

BREVE DESCRIÇÃO DOS DESENHOS

[025] A FIG. 1 apresenta a eficiência de clivagem (como a porcentagem de indels) de CjCas9 de tipo selvagem (CjeCas9), uma proteína de fusão compreendendo CjCas9 ligada a HMGN1 e Box A de HMGB1 (CjeCas9-HN1HB1) e uma proteína de fusão compreendendo CjCas9 ligada a HMGN1 e Domínio globular central de histona H1 (CjeCas9-HN1H1G) na presença de arcabouço de sgRNA de tipo selvagem ou arcabouço de sgRNA modificado.

DESCRIÇÃO DETALHADA

[026] A presente descrição fornece composições e métodos para aumentar a acessibilidade do DNA cromossômico a proteínas de modificação de DNA programável, incluindo sistemas CRISPR. Em particular, a presente descrição fornece proteínas de fusão compreendendo pelo menos um domínio de proteína de interação com nucleossomo ligado a uma proteína de modificação de DNA programável. Os domínios de proteína de interação com nucleossomo alteram ou remodelam a estrutura nucleossômica e/ou cromatina, de modo que a proteína de modificação de DNA programável aumente o acesso a sequências cromossômicas direcionadas, aumentando assim a eficiência da modificação de genoma direcionada, regulação transcricional direcionada ou modificação epigenética direcionada. (i) Proteínas de Fusão

[027] Um aspecto da presente descrição fornece proteínas de fusão, em que cada proteína de fusão compreende pelo menos um domínio de proteína de interação com nucleossomo ligado a uma proteína de modificação de DNA programável. A proteína de modificação de DNA programável pode ter atividade de nuclease (vide a seção (I) (b) (i), abaixo) ou atividade de não nuclease (vide a seção (I)

(b) (ii) abaixo). Os domínios de proteína de interação com nucleossomo são descritos abaixo na seção (I) (a) e as ligações entre os domínios são descritas abaixo na seção (I) (c). (a) Domínios de Proteína de interação com Nucleossomo

[028] Domínios de proteína de interação com nucleossomo se referem a proteínas cromossômicas ou seus fragmentos que interagem com nucleossomo e/ou proteínas cromossômicas para facilitar o rearranjo dos nucleossomos e/ou a remodelação de cromatina. Em algumas modalidades, o domínio de proteína de interação com nucleossomo pode ser derivado de proteínas box do grupo de alta mobilidade (HMG) (HMGB). Em outras modalidades, o domínio de proteína de interação com nucleossomo pode ser proteínas de ligação ao nucleossomo do HMG (HMGN) ou fragmentos das mesmas. Em outras modalidades, o domínio de proteína de interação com nucleossomo pode ser derivado de variantes de histona H1 de ligante. Ainda em outras modalidades, o domínio de proteína de interação com nucleossomo pode ser derivado de proteínas complexas que remodelam a cromatina. (i) Proteínas HMGB

[029] Em algumas modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser derivado de uma proteína HMGB. As proteínas HMGB interagem com nucleossomos e outras proteínas cromossômicas para regular a estrutura e a função da cromatina. As proteínas HMGB adequadas incluem HMGB1 de mamífero, HMGB2 de mamífero e HMGB3 de mamífero. Por exemplo, o domínio de proteína de interação com nucleossomo pode ser derivado de um HNGB1 humano (RefSeqGene, U51677), HMGB2 humano (RefSeqGene, M83665) ou HMGB3 humano (RefSeqGene, NM_005342). Em outras modalidades, o domínio de proteína de interação com nucleossomo pode ser derivado de uma proteína HMGB ou de proteína semelhante a HMGB de outros vertebrados, invertebrados (por exemplo, Drosophila DSP1), plantas, leveduras ou outros eucariotas de célula única.

[030] Em modalidades específicas, o pelo menos um domínio de proteína de interação com nucleossomo pode ser um fragmento de uma proteína HMGB. Em particular, o fragmento da proteína HMGB é um domínio de ligação ao DNA. Proteínas HMGB contêm tipicamente dois domínios de ligação ao DNA, que são chamados de box A e box B. Em algumas modalidades, o domínio de interação do nucleossomo pode ser um domínio de box A ou um domínio de box B de uma proteína HMGB. Em modalidades específicas, o domínio de interação do nucleossomo pode ser um domínio de box A de HMGB1, um domínio de box A de HMGB2 ou um domínio de box A de HMGB3. (ii) Proteínas HMGN

[031] Em outras modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser uma proteína HMGN ou um fragmento da mesma. As proteínas HMGN são proteínas cromossômicas que modulam a estrutura e a função da cromatina. As proteínas HMGN de mamífero adequadas incluem HMGN1, HMGN2, HMGN3, HMGN3, HMGN4 e HMGN5. Em várias modalidades, o domínio de proteína de interação com nucleossomo pode ser HMGN1 humano (RefSeqGene, M21339), HMGN2 humano (RefSeqGene, X13546), HMGN3a humano ou HMGN3b (RefSeqGene, L40357), HMGNN humano (RefSeqGene5, RefSeqGene), NM_016710), um fragmento dos mesmos ou um derivado dos mesmos. Em outras modalidades, o domínio de proteína de interação com nucleossomo pode ser uma proteína HMGN não humana, fragmento ou derivado da mesma. As proteínas HMGN são proteínas relativamente pequenas. Como tal, toda a proteína HMGN pode ser ligada à proteína de modificação de DNA programável. Em algumas modalidades, no entanto, um fragmento (por exemplo, o domínio de ligação ao nucleossomo localizado centralmente) de uma proteína HMGN pode ser ligado à proteína de modificação de DNA programável. (iii) Variantes de histona H1

[032] Ainda em outras modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser derivado de uma variante de histona H1 de ligante. Por exemplo, o domínio de proteína de interação com nucleossomo pode ser um domínio globular central a partir de uma variante de histona H1. As variantes de histona H1 se ligam ao DNA ligante entre nucleossomos e o domínio globular central (de cerca de 80 aminoácidos) se liga ao DNA ligante nos sítios de entrada e saída do nucleossomo perto da díade do nucleossomo. As variantes de histona H1 compreendem uma grande família de proteínas relacionadas com especificidade distinta para tecidos, estágios de desenvolvimento e organismos em que são expressas. Por exemplo, humanos e camundongos contêm 11 variantes de histona H1, frango tem seis variantes (chamadas histona H5), sapo tem cinco variantes, nematoide tem oito variantes, espécies de mosca da fruta têm de uma a três variantes e tabaco tem seis variantes. Em algumas modalidades, a variante de histona H1 pode ser uma variante humana, como mostrado abaixo. Nome da Proteína* Símbolo do Gene Acesso UniProtKB Histona H1.0 H1F0 P07305 Histona H1.1 HIST1H1A Q02539 Histona H1.2 HIST1H1C P16403 Histona H1.3 HIST1H1D P16402 Histona H1.4 HIST1H1E P10412 Histona H1.5 HIST1H1B P16401 Histona H1.6 (específico de HIST1H1T P22492 testículo) Histona H1.7 (específico de H1FNT Q75WM6 testículo)

Histona H1.8 (específico de H1FOO Q8IZA3 oócito) Histona H1.9 (específico de HILS1 P60008 testículo) Histona H1.10 H1FX Q92522 * Talbert et al., Epigenetics & Chromatin, 2012, 5:7. (iv) Proteínas Complexas de Remodelação de cromatina

[033] Em outras modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser derivado de uma proteína complexa de remodelação de cromatina. Por exemplo, o domínio de proteína de interação com nucleossomo pode ser um domínio de ligação ao DNA a partir de uma proteína complexa de remodelação de cromatina. Os complexos de remodelação de cromatina são complexos enzimáticos com várias subunidades, com capacidade de remodelar a estrutura da cromatina. Esses complexos de remodelação usam a energia da hidrólise de ATP para mover, desestabilizar, ejetar ou reestruturar nucleossomos.

[034] Exemplos de complexos de remodelação de cromatina incluem SWI/SNF (SWItch / sacarose não fermentável), ISWI (imitação de SWItch), CHD (ligação de cromodomínio-helicase-DNA), Mi-2/NuRD (remodelação de nucleossomos e desacetilase), INO80, SWR1 e RSC. Em várias modalidades, o domínio de proteína de interação com nucleossomo pode ser derivado de uma ATPase, uma helicase e/ou uma proteína de ligação ao DNA no complexo de remodelação de cromatina. Em algumas modalidades, o domínio de proteína de interação com nucleossomo pode ser derivado do ATPase ISWI do complexo ISWI, a proteína de ligação ao DNA CHD1 do complexo CHD, helicase dependente de ATP SMARCA4 ou ATPase Snf2 do complexo SWI/SNF, ATPase Mi-2α ou ATPase Mi2-β do complexo Mi-1/NuRD, AAA ATPase 1 semelhante a RuvB ou AAA ATPase 2 semelhante a RuvB do complexo INO80, ATPase Swr1 do complexo SWR1 ou ATPase Rsc1 ou ATPase Rsc1 ou ATPase Rcs2 do complexo RSC. Em modalidades específicas, o domínio de proteína de interação com nucleossomo pode ser um domínio de ligação ao DNA da proteína ISWI ou um domínio de ligação ao DNA da proteína CHD1. (b) Proteínas de Modificação de DNA Programável

[035] Uma proteína de modificação de DNA programável é uma proteína direcionada para ligar uma sequência específica no DNA cromossômico, onde ela modifica o DNA ou uma proteína associada ao DNA na ou quase na sequência alvo. Assim, uma proteína de modificação de DNA programável compreende um domínio de ligação ao DNA programável e um domínio de modificação cataliticamente ativo.

[036] O domínio de ligação ao DNA das proteínas de modificação de DNA programável é programável, o que significa que pode ser construído geneticamente ou manipulado para reconhecer e ligar diferentes sequências de DNA. Em algumas modalidades, por exemplo, a ligação ao DNA é mediada por interações entre a proteína de modificação de DNA e o DNA alvo. Assim, o domínio de ligação ao DNA pode ser programado para ligar uma sequência de DNA de interesse por engenharia de proteínas. Em outras modalidades, por exemplo, a ligação ao DNA é mediada por um RNA guia que interage com a proteína de modificação do DNA e o DNA alvo. Nesses casos, a proteína de ligação ao DNA programável pode ser direcionada a uma sequência de DNA de interesse, projetando o RNA guia apropriado.

[037] Uma variedade de domínios de modificação pode ser incluída na proteína de modificação de DNA programável. Em algumas modalidades, o domínio de modificação tem atividade de nuclease e pode clivar uma ou ambas as cadeias de uma sequência de DNA de duplo filamento. A quebra de DNA pode então ser reparada por um processo de reparo de DNA celular, como uma junção de extremidade não homóloga (NHEJ) ou reparo direcionado por homologia (HDR), tal que a sequência de DNA pode ser modificada por uma exclusão, inserção e/ou substituição de pelo menos um par de bases. Exemplos de proteínas de modificação de DNA programável com atividade de nuclease incluem, sem limite, nucleases CRISPR (ou nickases), nucleases de dedo de zinco, nucleases de efetores do tipo ativador de transcrição, meganucleases e um domínio de ligação ao DNA programável ligado a um domínio nuclease. As proteínas de modificação de DNA programável com atividade de nuclease estão detalhadas abaixo na seção (I) (b) (i).

[038] Em outras modalidades, o domínio de modificação da proteína de modificação de DNA programável tem atividade de não nuclease (por exemplo, atividade de modificação epigenética ou atividade de regulação transcricional) tal que a proteína de modificação de DNA programável modifica a estrutura e/ou atividade do DNA e/ou proteína (s) associada (s) ao DNA. Assim, a proteína de modificação de DNA programável pode compreender um domínio de ligação a DNA programável ligado a um domínio não nuclease ligado. Tais proteínas são detalhadas abaixo na seção (I) (b) (ii).

[039] As proteínas de modificação de DNA programável podem compreender domínios de ligação e/ou modificação de DNA de tipo selvagem ou ocorrência natural, versões modificadas de domínios de ligação e/ou modificação de ocorrência natural, domínios de ligação e/ou modificação de DNA sintético ou artificial, e combinações dos mesmos. (i) Proteínas de Modificação de DNA Programável com Atividade de Nuclease

[040] Exemplos de proteínas de modificação de DNA programável com atividade de nuclease incluem, sem limite, nucleases CRISPR, nucleases de dedo de zinco, nucleases de efetores do tipo ativador de transcrição, meganucleases, e domínios de nuclease ligados a domínios programáveis de ligação a DNA.

[041] Nucleases CRISPR. A CRISPR nuclease pode ser derivada de uma proteína CRISPR do tipo I, tipo II (isto é, Cas9), tipo III, tipo V (isto é, Cpf1) ou tipo VI (isto é, Cas13), que está presente em várias bactérias e arquéias. Em outras modalidades, a CRISPR nuclease pode ser derivada de um sistema CRISPR archaeal, um sistema CRISPR/CasX ou um sistema CRISPR/CasY (Burstein et al., Nature, 2017, 542 (7640): 237-241). Em várias modalidades, a CRISPR nuclease pode ser de Streptococcus sp. (por exemplo, S. pyogenes, S. thermophilus, S. pasteurianus), Campylobacter sp. (por exemplo, Campylobacter jejuni), Francisella sp. (por exemplo, Francisella novicida), Acaryochloris sp., Acetohalobium sp., Acidaminococcus sp., Acidithiobacillus sp., Alicyclobacillus sp., Allochromatium sp., Ammonifex sp., Anabaena sp., Arthrospira sp., Bacillus sp., Burkholderiales sp., Caldicelulosiruptor sp., Candidatus sp., Clostridium sp., Crocosphaera sp., Cyanothece sp., Exiguobacterium sp., Finegoldia sp., Ktedonobacter sp., Lachnospiraceae sp., Lactobacillus sp., Lyngbya sp., Marinobacter sp., Methanohalobium sp., Microscilla sp., Microcoleus sp., Microcystis sp., Natranaerobius sp., Neisseria sp., Nitrosococcus sp., Nocardiopsis sp., Nodularia sp., Nostoc sp., Oscillatoria sp., Polaromonas sp., Pelotomaculum sp., Pseudoalteromonas sp., Petrotoga sp., Prevotella sp., Staphylococcus sp., Streptomyces sp., Streptosporangium sp., Synechococcus sp., Thermosipho sp., ou Verrucomicrobia sp.

[042] A CRISPR nuclease pode ser uma proteína do tipo selvagem ou de ocorrência natural. Alternativamente, a CRISPR nuclease pode ser projetada para ter especificidade aprimorada, especificidade PAM alterada, diminuição de efeitos fora do alvo, aumento da estabilidade e similares.

[043] Em algumas modalidades, a CRISPR nuclease pode ser uma proteína CRISPR/Cas 9 do tipo II. Por exemplo, a CRISPR nuclease pode ser Streptococcus pyogenes Cas9 (SpCas9), Streptococcus thermophilus Cas9 (StCas9), Streptococcus pasteurianus (SpaCas9), Campylobacter jejuni Cas9 (CjCas9), Staphylococcus aureus (SaCas9), Francisella novicida Cas9 (FnCas9), Neisseria cinerea Cas9 (NcCas9), ou Neisseria meningitis Cas9 (NmCas9). Em outras modalidades, a CRISPR nuclease pode ser uma proteína CRISPR/Cpf1 tipo V, por exemplo, Francisella novicida Cpf1 (FnCpf1), Acidaminococcus sp. Cpf1 (AsCpf1), ou Lachnospiraceae bacterium ND2006 Cpf1 (LbCpf1). Em modalidades adicionais, a CRISPR nuclease pode ser uma proteína CRISPR/Cas13 do tipo VI, por exemplo, Leptotrichia wadei Cas13a (LwaCas13a) ou Leptotrichia shahii Cas13a (LshCas13a).

[044] Em geral, a CRISPR nuclease compreende pelo menos um domínio nuclease com atividade de endonuclease. Por exemplo, uma Cas9 nuclease compreende um domínio HNH, que cliva o filamento complementar de RNA guia, e um domínio RuvC, que cliva o filamento não complementar, uma proteína Cpf1 compreende um domínio RuvC e um domínio NUC, e uma nuclease Cas13a compreende dois Domínios HNEPN. Em algumas modalidades, ambos os domínios de nuclease são ativos e a CRISPR nuclease tem atividade de clivagem de filamento duplo (isto é, cliva ambos os filamentos de uma sequência de ácido nucleico de filamento duplo). Em outras modalidades, um dos domínios da nuclease é inativado por uma ou mais mutações e/ou deleções, e a variante CRISPR é uma nickase que cliva uma cadeia de uma sequência de ácido nucleico de filamento duplo. Por exemplo, uma ou mais mutações no domínio RuvC da proteína Cas9 (por exemplo, D10A, D8A, E762A e/ou D986A) resultam em uma HNH nickase que corta a cadeia complementar de RNA guia; e uma ou mais mutações no domínio HNH da proteína Cas9 (por exemplo, H840A, H559A, N854A,

N856A e/ou N863A) resultam em uma RuvC nickase que corta o filamento não complementar do RNA guia. Mutações comparáveis podem converter Cpf1 e Cas13a nucleases em nickases.

[045] Nucleases de dedo de zinco. Ainda em outras modalidades, a proteína de modificação de DNA programável com atividade de nuclease pode ser um par de nucleases de dedo de zinco (ZFN). Um ZFN compreende uma região de dedo de zinco de ligação ao DNA e um domínio nuclease. A região do dedo de zinco pode compreender de cerca de dois a sete dedos de zinco, por exemplo, cerca de quatro a seis dedos de zinco, em que cada dedo de zinco liga três pares de bases consecutivos. A região do dedo de zinco pode ser projetada para reconhecer e se ligar a qualquer sequência de DNA. As ferramentas ou algoritmos de design do dedo de zinco estão disponíveis na Internet ou em fontes comerciais. Os dedos de zinco podem ser ligados usando sequências de ligação adequadas.

[046] Um ZFN também compreende um domínio nuclease, que pode ser obtido a partir de qualquer endonuclease ou exonuclease. Exemplos não limitativos de endonucleases a partir dos quais um domínio nuclease pode ser derivado incluem, mas não estão limitados a, endonucleases de restrição e endonucleases de retorno. Em algumas modalidades, o domínio da nuclease pode ser derivado de uma endonuclease de restrição do tipo II-S. As endonucleases do tipo II-S clivam o DNA em sítios que estão tipicamente a vários pares de bases de distância do sítio de reconhecimento / ligação e, como tal, têm domínios de ligação e clivagem separáveis. Essas enzimas geralmente são monômeros que se associam transitoriamente para formar dímeros para clivar cada filamento de DNA em locais escalonados. Exemplos não limitativos de endonucleases do tipo II-S adequadas incluem BfiI, BpmI, BsaI, BsgI, BsmBI, BsmI, BspMI, FokI, MboII e SapI. Em algumas modalidades, o domínio nuclease pode ser um domínio nuclease FokI ou um derivado do mesmo. O domínio nuclease do tipo II-S pode ser modificado para facilitar a dimerização de dois domínios de nuclease diferentes. Por exemplo, o domínio de clivagem de FokI pode ser modificado através da mutação de certos resíduos de aminoácidos. A título de exemplo não limitativo, resíduos de aminoácidos nas posições 446, 447, 479, 483, 484, 486, 487, 490, 491, 496, 498, 499, 500, 531, 534, 537 e 538 dos domínios de nuclease FokI são alvos para modificação. Em modalidades específicas, o domínio nuclease FokI pode compreender um primeiro meio domínio FokI compreendendo mutações Q486E, I499L e/ou N496D e um segundo meio domínio FokI compreendendo mutações E490K, I538K e/ou H537R. Em algumas modalidades, o ZFN tem atividade de clivagem de filamento duplo. Em outras modalidades, o ZFN tem atividade de nickase (isto é, um dos domínios da nuclease foi inativado).

[047] Nucleases de efetores do Tipo Ativadores de Transcrição. Em modalidades alternativas, a proteína de modificação de DNA programável com atividade de nuclease pode ser uma nuclease de efetor do tipo ativador de transcrição (TALEN). TALENs compreendem um domínio de ligação ao DNA composto por repetições altamente conservadas derivadas de efetores do tipo ativador de transcrição (TALEs) que estão ligados a um domínio nuclease. TALEs são proteínas secretadas pelo patógeno vegetal Xanthomonas para alterar a transcrição de genes nas células vegetais hospedeiras. As matrizes de repetição TALE podem ser projetadas através do projeto de proteína modular para atingir qualquer sequência de DNA de interesse. O domínio nuclease de TALENs pode ser qualquer domínio nuclease, como descrito acima na subseção que descreve ZFNs. Em modalidades específicas, o domínio da nuclease é derivado de FokI (Sanjana et al., 2012, Nat Protoc, 7 (1): 171-192). O TALEN pode ter atividade de clivagem de filamento duplo ou atividade de nickase.

[048] Meganucleases ou Endonucleases de Corte Raro. Em ainda outras modalidades, a proteína de modificação de DNA programável com atividade de nuclease pode ser uma meganuclease ou derivada da mesma. Meganucleases são endodeoxirribonucleases caracterizadas por longas sequências de reconhecimento, isto é, a sequência de reconhecimento geralmente varia de cerca de 12 pares de bases a cerca de 45 pares de bases. Como consequência desse requisito, a sequência de reconhecimento geralmente ocorre apenas uma vez em um determinado genoma. Entre as meganucleases, a família de endonucleases locais denominada LAGLIDADG se tornou uma ferramenta valiosa para o estudo de genomas e engenharia de genomas. Em algumas modalidades, a meganuclease pode ser I-SceI, I-TevI ou variantes dos mesmos. Uma meganuclease pode ser direcionada para uma sequência cromossômica específica modificando sua sequência de reconhecimento usando técnicas bem conhecidas dos especialistas na técnica. Em modalidades alternativas, a proteína de modificação de DNA programável tendo atividade de nuclease pode ser uma endonuclease de corte raro ou seu derivado. Endonucleases de corte raro são endonucleases específicas de sítio cuja sequência de reconhecimento ocorre raramente em um genoma, preferivelmente apenas uma vez em um genoma. A endonuclease de corte raro pode reconhecer uma sequência de 7 nucleotídeos, uma sequência de 8 nucleotídeos ou uma sequência de reconhecimento mais longa. Exemplos não limitativos de endonucleases de corte raro incluem NotI, AscI, PacI, AsiSI, SbfI e FseI.

[049] Domínios de Ligação a DNA programável ligados a domínios de nuclease. Em modalidades ainda adicionais, a proteína de modificação de DNA programável com atividade de nuclease pode ser uma proteína quimérica compreendendo um domínio de ligação ao DNA programável ligado a um domínio nuclease. O domínio nuclease pode ser qualquer um dos descritos acima na subseção que descreve ZFNs (por exemplo, o domínio nuclease pode ser um domínio nuclease FokI), um domínio nuclease derivado de uma CRISPR nuclease (por exemplo, domínios nuclease RuvC ou HNH de Cas9), ou um domínio nuclease derivado de uma meganuclease ou endonuclease de corte raro.

[050] O domínio de ligação a DNA programável da proteína quimérica pode ser qualquer proteína de ligação a DNA programável, tal como, por exemplo, uma proteína de dedo de zinco ou um efetor do tipo ativador de transcrição. Alternativamente, o domínio de ligação ao DNA programável pode ser uma proteína CRISPR cataliticamente inativa (morta) que foi modificada por deleção ou mutação para não possuir toda a atividade de nuclease. Por exemplo, a proteína CRISPR cataliticamente inativa pode ser uma Cas9 (dCas9) cataliticamente inativa na qual o domínio RuvC compreende uma mutação D10A, D8A, E762A e/ou D986A e o domínio HNH compreende uma H840A, H559A, N854A, Mutação N865A e/ou N863A. Alternativamente, a proteína CRISPR cataliticamente inativa pode ser uma proteína Cpf1 cataliticamente inativa (morta) compreendendo mutações comparáveis nos domínios da nuclease. Em ainda outras modalidades, o domínio de ligação ao DNA programável pode ser uma meganuclease cataliticamente inativa na qual a atividade da nuclease foi eliminada por mutação e/ou exclusão, por exemplo, a meganuclease cataliticamente inativa pode compreender um truncamento C-terminal. (ii) Proteínas de Modificação de DNA Programável com Atividade Não Nuclease

[051] Em modalidades alternativas, a proteína de modificação de DNA programável pode ser uma proteína quimérica que compreende um domínio de ligação a DNA programável ligado a um domínio de não nuclease. O domínio de ligação ao DNA programável pode ser uma proteína de dedo de zinco, um efetor do tipo ativador de transcrição,

uma proteína CRISPR cataliticamente inativa (morta) ou uma meganuclease cataliticamente inativa (morta). Por exemplo, a proteína CRISPR cataliticamente inativa pode ser uma Cas9 (dCas9) cataliticamente inativa na qual o domínio RuvC compreende uma mutação D10A, D8A, E762A e/ou D986A e o domínio HNH compreende uma mutação H840A, H559A, N854A, N865A e/ou N863A. Alternativamente, a proteína CRISPR cataliticamente inativa pode ser uma proteína Cpf1 cataliticamente inativa (morta) compreendendo mutações comparáveis nos domínios da nuclease.

[052] Em algumas modalidades, o domínio não nuclease da proteína quimérica pode ser um domínio de modificação epigenética, que altera a estrutura do DNA ou da cromatina (e pode ou não alterar a sequência do DNA). Exemplos não limitativos de domínios de modificação epigenética adequados incluem aqueles com atividade de DNA metiltransferase (por exemplo, citosina metiltransferase), atividade de DNA desmetilase, desaminação de DNA (por exemplo, citosina desaminase, adenosina desaminase, guanina desaminase), aminação de DNA, atividade de oxidação de DNA, atividade DNA helicase, atividade de histona acetiltransferase (HAT) (por exemplo, domínio HAT derivado da proteína de ligação a E1A p300), atividade de histona desacetilase, atividade de histona metiltransferase, atividade de histona desmetilase, atividade de histona quinase, atividade de histona fosfatase, atividade de histona ubiquitina ligase, atividade histona desubiquitina, atividade de adenilação de histona, atividade de mortenilação de histona, atividade de SUMOilação de histona, atividade de deSUMOilação de histonas, atividade de ribosilação de histona, atividade de derribosilação de histona, atividade de miristoilação de histona, atividade de desmististoilação de histona, atividade de citrulinação de histona, atividade de alquilação de histona, atividade de desalquilação de histona, ou uma atividade de oxidação. Em modalidades específicas, o domínio de modificação epigenética pode compreender a atividade da citidina desaminase, atividade de histona acetiltransferase ou atividade de DNA metiltransferase.

[053] Em outras modalidades, o domínio de modificação não nuclease da proteína quimérica pode ser um domínio de ativação transcricional ou domínio repressor transcricional. Os domínios de ativação transcricional adequados incluem, sem limite, o domínio VP16 do vírus herpes simplex, VP64 (que é um derivado tetramérico de VP16), VP160, domínios de ativação de p65 NFκB, domínios de ativação de p53 1 e 2, domínios de ativação de CRE (proteína de ligação ao elemento de resposta cAMP), domínios de ativação de E2A, domínio de ativação do fator de choque térmico humano 1 (HSF1) ou domínios de ativação NFAT (fator nuclear de células T ativadas). Exemplos não limitativos de domínios repressores transcricionais adequados incluem domínios indutíveis de repressores precoces de cAMP (ICER), domínios de repressores de box associados a Kruppel (KRAB), domínios de repressores ricos em glicina YY1, repressores do tipo Sp1, repressores E(spl), repressores IκB ou repressor da proteína 2 de ligação a metil- CpG (MeCP2). Os domínios de ativação transcricional ou repressor transcricional podem ser geneticamente fundidos à proteína de ligação ao DNA ou ligados via interações proteína-proteína não covalente, proteína-RNA ou proteína-DNA.

[054] Em modalidades particulares, o domínio não nuclease da proteína quimérica pode compreender a atividade da citidina desaminase, a atividade de histona acetiltransferase, a atividade de ativação transcricional ou a atividade de repressão da transcrição.

[055] Em algumas modalidades, a proteína quimérica com atividade de não nuclease pode adicionalmente compreender pelo menos um marcador detectável. O rótulo detectável pode ser um fluoróforo (por exemplo, FAM, TMR, Cy3, Cy5, Texas Red, Oregon

Green, Alexa Fluors, etiquetas Halo ou corante fluorescente adequado), uma etiqueta de detecção (por exemplo, biotina, digoxigenina e similares), pontos quânticos ou partículas de ouro. c) Ligações

[056] As proteínas de fusão aqui divulgadas compreendem pelo menos um domínio de proteína de interação com nucleossomo ligado a uma proteína de modificação de DNA programável. A ligação entre o pelo menos um domínio de proteína de interação com nucleossomo e a proteína de modificação de DNA programável pode ser direta via uma ligação química, ou a ligação pode ser indireta via um ligante.

[057] Em algumas modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado diretamente à proteína de modificação de DNA programável por uma ligação covalente (por exemplo, ligação peptídica, ligação éster e similares). Alternativamente, a ligação química pode ser não covalente (por exemplo, iônica, eletrostática, hidrogênio, hidrofóbica, interações de Van der ou efeitos π).

[058] Em outras modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado à proteína de modificação de DNA programável por um ligante. Um ligante é um grupo químico que conecta um ou mais outros grupos químicos através de pelo menos uma ligação covalente. Os ligantes adequados incluem aminoácidos, peptídeos, nucleotídeos, ácidos nucleicos, moléculas orgânicas de ligantes (por exemplo, derivados de maleimida, N- etoxibenzilimidazol, ácido bifenil-3,4′,5-tricarboxílico, p- aminobenziloxicarbonila e semelhantes), ligantes dissulfeto, e ligantes de polímero (por exemplo, PEG). O ligante pode incluir um ou mais grupos espaçadores, incluindo, entre outros, alquileno, alquenileno, alquinileno, alquila, alquenila, alquinila, alcóxi, arila, heteroarila, aralquila, aralquenila, aralquinila e similares. O ligante pode ser neutro,

ou carregar uma carga positiva ou negativa. Além disso, o ligante pode ser clivável de modo que a ligação covalente do ligante que conecta o ligante a outro grupo químico possa ser quebrada ou clivada sob certas condições, incluindo pH, temperatura, concentração de sal, luz, um catalisador ou uma enzima.

[059] Ainda em outras modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado à proteína de modificação de DNA programável por ligantes peptídicos. O ligante peptídico pode ser um ligante de aminoácido flexível (por exemplo, compreendendo aminoácidos pequenos, não polares ou polares). Exemplos não limitativos de ligantes flexíveis incluem LEGGGS (SEQ ID NO:1), TGSG (SEQ ID NO:2), GGSGGGSG (SEQ ID NO:3), (GGGGS)1-4 (SEQ ID NO:4), e (Gly)6-8 (SEQ ID NO:5). Alternativamente, o ligante peptídico pode ser um ligante rígido de aminoácidos. Esses ligantes incluem (EAAAK)1-4 (SEQ ID NO: 6), A(EAAAK)2-5A (SEQ ID NO: 7), PAPAP (SEQ ID NO: 8) e (AP)6-8 (SEQ ID NO: 9). Exemplos de ligantes adequados são bem conhecidos na técnica e programas para projetar ligantes estão prontamente disponíveis (Crasto et al., Protein Eng., 2000, 13 (5): 309-312).

[060] O pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado ao terminal N, ao terminal C, e/ou a um local interno da proteína de modificação de DNA programável. Em algumas modalidades, pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado ao terminal N da proteína de modificação de DNA programável. Em outras modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado ao terminal C da proteína de modificação de DNA programável. Em ainda outras modalidades, pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado ao terminal N e pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado ao terminal C da proteína de modificação de DNA programável.

[061] Em algumas modalidades, a proteína de fusão pode compreender um domínio de proteína de interação com nucleossomo. Em outras modalidades, a proteína de fusão pode compreender dois domínios de proteína de interação com nucleossomo. Ainda em outras modalidades, a proteína de fusão pode compreender três domínios de proteína de interação com nucleossomo. Em modalidades adicionais, a proteína de fusão pode compreender quatro, cinco ou mais de cinco domínios de proteína de interação com nucleossomo. Os um ou mais domínios de proteína de interação com nucleossomo podem ser os mesmos ou podem ser diferentes.

[062] Nas modalidades em que a proteína de fusão compreende dois ou mais domínios de proteína de interação com nucleossomo, os dois ou mais domínios de interação de nucleossomos podem ser ligados a uma das extremidades, ambas as extremidades e/ou a uma localização interna da proteína de modificação de DNA programável. Os dois ou mais domínios de proteína de interação com nucleossomo podem ser os mesmos ou podem ser diferentes. Por exemplo, o complexo pode compreender pelo menos dois domínios de ligação ao DNA de HMG, pelo menos duas proteínas HMGN, pelo menos um domínio de ligação ao DNA de HMG e pelo menos uma proteína HMGN, pelo menos um domínio de ligação ao DNA de HMG ou proteína HMGN e em pelo menos um domínio central de uma variante de histona H1, pelo menos um domínio de ligação ao DNA de HMG ou proteína HMGN e pelo menos um domínio de uma proteína do complexo de remodelação de cromatina, pelo menos um domínio de ligação ao DNA de HMG ou proteína HMGN, pelo menos um domínio central de variante de histona H1 e pelo menos um domínio de uma proteína complexa de remodelação de cromatina e semelhantes. (d) Sinal de Localização Nuclear Opcional, domínio de Penetração de Células e/ou Domínio de Marcador

[063] As proteínas de fusão aqui divulgadas podem compreender ainda pelo menos um sinal de localização nuclear, domínio de penetração de células e/ou domínio de marcador.

[064] Exemplos não limitativos de sinais de localização nuclear incluem PKKKRKV (SEQ ID NO:10), PKKKRRV (SEQ ID NO:11), KRPAATKKAGQAKKKK (SEQ ID NO:12), YGRKKRRQRRR (SEQ ID NO:13), RKKRRQRRR (SEQ ID NO:14), PAAKRVKLD (SEQ ID NO:15), RQRRNELKRSP (SEQ ID NO:16), VSRKRPRP (SEQ ID NO:17), PPKKARED (SEQ ID NO:18), PQPKKKPL (SEQ ID NO:19), SALIKKKKKMAP (SEQ ID NO:20), PKQKKRK (SEQ ID NO:21), RKLKKKIKKL (SEQ ID NO:22), REKKKFLKRR (SEQ ID NO:23), KRKGDEVDGVDEVAKKKSKK (SEQ ID NO:24), RKCLQAGMNLEARKTKK (SEQ ID NO:25), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO:26), e RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO:27).

[065] Exemplos de domínios de penetração de células adequados incluem, sem limite, GRKKRRQRRRPPQPKKKRKV (SEQ ID NO:28), PLSSIFSRIGDPPKKKRKV (SEQ ID NO:29), GALFLGWLGAAGSTMGAPKKKRKV (SEQ ID NO:30), GALFLGFLGAAGSTMGAWSQPKKKRKV (SEQ ID NO:31), KETWWETWWTEWSQPKKKRKV (SEQ ID NO:32), YARAAARQARA (SEQ ID NO:33), THRLPRRRRRR (SEQ ID NO:34), GGRRARRRRRR (SEQ ID NO:35), RRQRRTSKLMKR (SEQ ID NO:36), GWTLNSAGYLLGKINLKALAALAKKIL (SEQ ID NO:37), KALAWEAKLAKALAKALAKHLAKALAKALKCEA (SEQ ID NO:38), e RQIKIWFQNRRMKWKK (SEQ ID NO:39).

[066] Os domínios de marcadores incluem proteínas fluorescentes e etiquetas de purificação ou epítopo. As proteínas fluorescentes adequadas incluem, sem limite, proteínas verdes fluorescentes (por exemplo, GFP, eGFP, GFP-2, tagGFP, turboGFP, Esmeralda, Verde Azami, Verde Azami Monomérico, CopGFP, AceGFP, ZsGreen1), proteínas fluorescentes amarelas (por exemplo, YFP, EYFP, Citrino, Vênus, YPet, PhiYFP, ZsYellow1), proteínas fluorescentes azuis (por exemplo, BFP, EBFP, EBFP2, Azurita, mKalama1, GFPuv, safira, safira-T), proteínas fluorescentes de ciano (por exemplo, ECFP, cerúleo, CyPet, AmCyan1, Midoriishi-Cyan), proteínas fluorescentes vermelhas (por exemplo, mKate, mKate2, mPlum, monômero DsRed, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-monômero, HcRed-Tandem, HcRed1, AsRed2, mqFP6, eqFberry6 Jred) e proteínas fluorescentes alaranjadas (por exemplo, mOrange, mKO, Kusabira- Orange, Komabira-Monomeric-Orange, mTangerin, tdTomato). Exemplos não limitativos de etiquetas de purificação ou epítopo adequados incluem 6xHis, FLAG®, HA, GST, Myc e similares.

[067] O pelo menos um sinal de localização nuclear, domínio de penetração celular e/ou domínio marcador pode estar localizado no terminal N, no terminal C e/ou em um local interno da proteína de fusão. (e) Proteínas de Fusão Específicas

[068] Em geral, o pelo menos um domínio de proteína de interação com nucleossomo da proteína de fusão é escolhido no domínio de box A de HMGB1, proteína HMGN1, proteína HMGN2, proteína HMGN3a, proteína HMGN3b, domínio globular central de histona H1, domínio de ligação ao DNA de proteína de imitação (ISWI), domínio de ligação ao DNA da proteína 1 de cromodomaina-helicase-DNA (CHD1) ou combinações dos mesmos.

[069] Em modalidades específicas, a proteína de modificação de DNA programável da proteína de fusão é uma proteína CRISPR. Por exemplo, a proteína CRISPR pode ser Streptococcus pyogenes Cas9

(SpCas9), Streptococcus thermophilus Cas9 (StCas9), Streptococcus pasteurianus (SpaCas9), Campylobacter jejuni Cas9 (CjCas9), Staphylococcus aureus (SaCas9), Francisella novicida Cas9 (FnCas9), Neisseria cinerea Cas9 (NcCas9), Neisseria meningite Cas9 (NmCas9), Francisella novicida Acpf1. Cpf1 (AsCpf1), ou bactéria Lachnospiraceae ND2006 Cpf1 (LbCpf1).

[070] Em algumas modalidades, a proteína de fusão tem uma sequência de aminoácidos tendo pelo menos cerca de 80% de identidade de sequência com qualquer uma das SEQ ID NOS: 61-79. Em geral, qualquer substituição de aminoácido é conservadora, isto é, limitada a trocas dentro dos membros do grupo 1: glicina, alanina, valina, leucina e isoleucina; grupo 2: serina, cisteína, treonina e metionina; grupo 3: prolina; grupo 4: fenilalanina, tirosina e triptofano; e grupo 5: aspartato, glutamato, asparagina e glutamina. Em várias modalidades, a sequência de aminoácidos da proteína de fusão tem pelo menos cerca de 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, Identidade de sequência de 93%, 94%, 95%, 96%, 97%, 98 ou 99% com qualquer uma das SEQ ID NOS: 61-79. Em algumas modalidades, a proteína de fusão tem uma sequência de aminoácidos conforme estabelecido na SEQ ID NO: 61, SEQ ID NO: 62, SEQ ID NO: 63, SEQ ID NO: 64, SEQ ID NO: 64, SEQ ID NO: 65, SEQ ID NO: 66, SEQ ID NO: 67, SEQ ID NO: 68, SEQ ID NO: 69, SEQ ID NO: 70, SEQ ID NO: 71, SEQ ID NO: 72, SEQ ID NO: 73, SEQ ID NO: 74, SEQ ID NO: 75, SEQ ID NO: 76, SEQ ID NO: 77, SEQ ID NO: 78 ou SEQ ID NO: 79. (II) Complexos

[071] Outro aspecto da presente descrição abrange complexos compreendendo pelo menos um sistema CRISPR (isto é, proteína CRISPR e RNA guia) e pelo menos um domínio de proteína de interação com nucleossomo. Em algumas modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado à proteína CRISPR do sistema CRISPR (isto é, o complexo compreende uma proteína de fusão CRISPR como descrito na seção (I) acima). Em outras modalidades, o pelo menos um domínio de proteína de interação com nucleossomo pode ser ligado ao RNA guia do sistema CRISPR. A ligação pode ser direta ou indireta, essencialmente como descrito acima na seção (I) (c). Por exemplo, um domínio de proteína de interação com nucleossomo pode ser ligado a uma proteína de ligação ao aptâmero de RNA, e o RNA guia pode compreender sequências de aptâmero, de modo que a ligação da proteína de ligação ao aptâmero de RNA à sequência de aptâmero do RNA liga o domínio de proteína de interação com nucleossomo ao RNA guia.

[072] Os domínios de proteína de interação com nucleossomo são descritos acima na seção (I) (a), e as proteínas CRISPR são detalhadas acima na seção (I) (b). A proteína CRISPR pode ter atividade nuclease ou nickase (por exemplo, pode ser um tipo II de CRISPR/Cas9, tipo V de CRISPR/Cpf1 ou tipo VI de CRISPR/Cas13). Por exemplo, um complexo pode compreender uma CRISPR nuclease ou um complexo pode compreender duas nickases CRISPR. Alternativamente, a proteína CRISPR pode ser modificada para não possuir toda a atividade de nuclease e ligada a domínios não nuclease (por exemplo, domínios com atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressão transcricional). Em algumas modalidades, o domínio não nuclease também pode ser ligado a uma proteína de ligação ao RNA de aptâmero.

[073] Um RNA guia compreende (i) um RNA CRISPR (crRNA) que contém uma sequência guia na extremidade 5' que hibridiza com uma sequência alvo e (ii) uma sequência de transação de crRNA (tracrRNA) que interage com a proteína CRISPR. A sequência guia do crRNA de cada RNA guia é diferente (isto é, é específica da sequência). A sequência de tracrRNA é geralmente a mesma nos RNAs guia projetados para se complexarem com uma proteína CRISPR de uma espécie bacteriana específica.

[074] A sequência guia do crRNA é projetada para hibridizar com uma sequência alvo (isto é, protospacer) que é delimitada por um motivo adjacente ao protospacer (PAM) em uma sequência de filamento duplo. As sequências PAM para proteínas Cas9 incluem 5'-NGG, 5'-NGGNG, 5'-NNAGAAW e 5'-ACAY, e as sequências PAM para Cpf1 incluem 5'- TTN (em que N é definido como qualquer nucleotídeo, W é definido como A ou T, e Y é definido C ou T). Em geral, a complementaridade entre a sequência guia do crRNA e a sequência alvo é de pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95% ou pelo menos 99%. Em modalidades específicas, a complementaridade é completa (isto é, 100%). Em várias modalidades, o comprimento da sequência guia do crRNA pode variar de cerca de 15 nucleotídeos a cerca de 25 nucleotídeos. Por exemplo, a sequência guia do crRNA pode ter cerca de 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 ou 25 nucleotídeos de comprimento. Em modalidades específicas, o crRNA pode ter cerca de 19, 20, 21 ou 22 nucleotídeos de comprimento.

[075] O crRNA e o tracrRNA compreendem sequências repetidas que formam uma ou mais estruturas de loop de haste, que podem interagir com a proteína CRISPR. O comprimento de cada loop e haste pode variar. Por exemplo, os um ou mais loops podem variar de cerca de 3 a cerca de 10 nucleotídeos de comprimento, e uma ou mais hastes podem variar de cerca de 6 a cerca de 20 pares de bases de comprimento. As uma ou mais hastes podem compreender um ou mais protuberâncias de 1 a cerca de 10 nucleotídeos.

[076] O crRNA pode variar em comprimento de cerca de 25 nucleotídeos a cerca de 100 nucleotídeos. Em várias modalidades, o crRNA pode variar em comprimento de cerca de 25 a cerca de 50 nucleotídeos, de cerca de 590 a cerca de 75 nucleotídeos ou de cerca de 75 a cerca de 100 nucleotídeos. O tracrRNA pode variar em comprimento de cerca de 50 nucleotídeos a cerca de 300 nucleotídeos. Em várias modalidades, o tracrRNA pode variar em comprimento de cerca de 50 a cerca de 90 nucleotídeos, de cerca de 90 a cerca de 110 nucleotídeos, de cerca de 110 a cerca de 130 nucleotídeos, de cerca de 130 a cerca de 150 nucleotídeos, de cerca de 150 a cerca de 170 nucleotídeos, de cerca de 170 a cerca de 200 nucleotídeos, de cerca de 200 a cerca de 250 nucleotídeos ou de cerca de 250 a cerca de 300 nucleotídeos.

[077] A sequência de tracrRNA no RNA guia geralmente é baseada na sequência de codificação do tracrRNA de tipo selvagem nas espécies bacterianas de interesse. Em algumas modalidades, a sequência de tracrRNA de tipo selvagem (ou a região de repetição constante de crRNA e a região 5' correspondente do tracrRNA que forma uma estrutura dúplex com a região de repetição constante de crRNA) pode ser modificada para facilitar a formação da estrutura secundária, aumento da estabilidade de estrutura secundária, facilitar a expressão em células eucarióticas, aumento da eficiência da edição e assim por diante. Por exemplo, uma ou mais alterações nucleotídicas podem ser introduzidas na sequência de RNA guia constante (vide Exemplo 8, abaixo).

[078] O RNA guia pode ser uma molécula única (isto é, um único RNA guia ou sgRNA), em que a sequência de crRNA está ligada à sequência de tracrRNA. Alternativamente, o RNA guia pode ser duas moléculas separadas. Uma primeira molécula compreendendo a sequência guia de crRNA na extremidade 5' e uma sequência adicional na extremidade 3' que é capaz de emparelhar a base com a extremidade 5’ de uma segunda molécula, em que a segunda molécula compreende a sequência 5' que é capaz de emparelhar a base com a extremidade 3' da primeira molécula, bem como a sequência adicional de tracrRNA. Em algumas modalidades, o RNA guia dos sistemas CRISPR/Cpf1 tipo V pode compreender apenas crRNA.

[079] Em algumas modalidades, as uma ou mais regiões de loop de haste do RNA guia podem ser modificadas para compreender uma ou mais sequências de aptâmeros (Konermann et al., Nature, 2015, 517 (7536): 583-588; Zalatan et al. Cell, 2015, 160 (1-2): 339-50). Exemplos de domínios de proteína de aptâmero de RNA adequados incluem proteína de revestimento MS2 (MCP), proteína de revestimento de bacteriófago PP7 (PCP), proteína Com de bacteriófago Mu, proteína N22 de bacteriófago lambda, proteína N22, proteína de ligação de loop estaminal (SLBP), proteína 1 relacionada à síndrome do retardo mental X frágil (FXR1), proteínas derivadas de bacteriófagos, como AP205, BZ13, f1, f2, fd, fr, ID2, JP34 / GA, JP501, JP34, JP500, KU1, M11, M12, MX1, NL95, PP7, ϕCb5, ϕCb8r, ϕCb12r, ϕCb23r, Qβ, R17, SP-β, TW18, TW19 e VK, seus fragmentos ou derivados. O comprimento da sequência de aptâmero adicional pode variar de cerca de 20 nucleotídeos a cerca de 200 nucleotídeos.

[080] O RNA guia pode compreender ribonucleotídeos padrão, ribonucleotídeos modificados (por exemplo, pseudouridina), isômeros de ribonucleotídeos e/ou análogos de ribonucleotídeos. Em algumas modalidades, o RNA guia pode adicionalmente compreender pelo menos um marcador detectável. O rótulo detectável pode ser um fluoróforo (por exemplo, FAM, TMR, Cy3, Cy5, Texas Red, Oregon Green, Alexa Fluors, etiquetas Halo ou corante fluorescente adequado), uma etiqueta de detecção (por exemplo, biotina, digoxigenina e similares), pontos quânticos ou partículas de ouro. Os especialistas na técnica estão familiarizados com o projeto e a construção de gRNA, por exemplo, as ferramentas de projeto de gRNA estão disponíveis na

Internet ou em fontes comerciais.

[081] O RNA guia pode ser sintetizado quimicamente, sintetizado enzimaticamente ou uma combinação dos mesmos. Por exemplo, o RNA guia pode ser sintetizado usando métodos padrão de síntese em fase sólida à base de fosforamidito. Alternativamente, o RNA guia pode ser sintetizado in vitro, ligando operacionalmente o DNA que codifica o RNA guia a uma sequência de controle de promotor que é reconhecida por uma polimerase de RNA de fago. Exemplos de sequências promotoras de fagos adequadas incluem sequências promotoras de T7, T3, SP6 ou variações das mesmas. Nas modalidades em que o RNA guia compreende duas moléculas separadas (isto é, crRNA e tracrRNA), o crRNA pode ser quimicamente sintetizado e o tracrRNA pode ser sintetizado enzimaticamente. (III) Ácidos Nucleicos

[082] Um outro aspecto da presente descrição fornece ácidos nucleicos que codificam as proteínas de fusão descritas acima na seção (I) e os complexos CRISPR descritos na seção (II). Os complexos CRISPR podem ser codificados por ácidos nucleicos únicos ou ácidos nucleicos múltiplos. Os ácidos nucleicos podem ser DNA ou RNA, lineares ou circulares, de filamento simples ou filamento duplo. O RNA ou DNA pode ser otimizado por códon para tradução eficiente em proteína na célula eucariótica de interesse. Os programas de otimização de códon estão disponíveis como freeware ou de fontes comerciais.

[083] Em algumas modalidades, o ácido nucleico que codifica a proteína de fusão ou os componentes proteicos do complexo CRISPR ou ele pode ser RNA. O RNA pode ser sintetizado enzimaticamente in vitro. Para isso, o DNA que codifica a proteína de interesse pode ser operacionalmente ligado a uma sequência promotora que é reconhecida por uma polimerase de RNA de fago para a síntese de RNA in vitro. Por exemplo, a sequência do promotor pode ser uma sequência do promotor

T7, T3 ou SP6 ou uma variação de uma sequência do promotor T7, T3 ou SP6. O DNA que codifica a proteína pode fazer parte de um vetor, conforme detalhado abaixo. Em tais modalidades, o RNA transcrito in vitro pode ser purificado, tapado e/ou poliadenilado. Em outras modalidades, o RNA que codifica a proteína de fusão ou o componente de proteína do complexo pode ser parte de um RNA autorreplicante (Yoshioka et al., Cell Stem Cell, 2013, 13: 246-254). O RNA autorreplicante pode ser derivado de um replicon de RNA do vírus da encefalite equina venezuelana não infecciosa e autorreplicante (VEE), que é um RNA de filamento simples de sentido positivo que é capaz de se autorreplicar para um número limitado de divisões celulares e que pode ser modificado para codificar proteínas de interesse (Yoshioka et al., Cell Stem Cell, 2013, 13: 246-254).

[084] Em outras modalidades, o ácido nucleico que codifica a proteína de fusão ou a proteína CRISPR e o RNA guia do complexo pode ser DNA. A sequência de codificação do DNA pode ser operacionalmente ligada a pelo menos uma sequência de controle do promotor para expressão na célula de interesse. Em certas modalidades, a sequência codificadora de DNA pode ser operacionalmente ligada a uma sequência promotora para expressão da proteína ou RNA em células bacterianas (por exemplo, E. coli) ou células eucarióticas (por exemplo, levedura, inseto ou mamífero). Promotores bacterianos adequados incluem, sem limite, promotores T7, promotores Iac operon, promotores trp, promotores tac (que são híbridos dos promotores trp e lac), variações de qualquer um dos anteriores, e combinações de qualquer dos anteriores. Exemplos não limitativos de promotores Pol II eucarióticos adequados incluem promotores constitutivos, regulados ou específicos de células ou tecidos. Sequências de controle de promotor constitutivo eucariótico adequado incluem, mas não estão limitadas a, promotor precoce imediato de citomegalovírus (CMV), promotor de vírus símio (SV40), promotor tardio principal de adenovírus, promotor de vírus de sarcoma de Rous (RSV), promotor de vírus de tumor mamário de rato (MMTV), promotor de fosfoglicerato quinase (PGK), promotor-alfa de fator de alongamento (ED1), promotores de ubiquitina, promotores de actina, promotores de tubulina, promotores de imunoglobulina, seus fragmentos ou combinações de qualquer um dos anteriores. Exemplos de sequências de controle de promotor reguladas por eucariotas adequadas incluem, sem limitação, as reguladas por choque térmico, metais, esteroides, antibióticos ou álcool. Exemplos não limitativos de promotores específicos de tecido incluem promotor B29, promotor CD14, promotor CD43, promotor CD45, promotor CD68, promotor de desmina, promotor de elastase-1, promotor de endoglina, promotor de fibronectina, promotor Flt-1, promotor GFAP, promotor GPIIb, promotor ICAM-2, promotor INF-p, promotor Mb, promotor NphsI, promotor OG- 2, promotor SP-B, promotor SYN1 e promotor WASP. A sequência do promotor pode ser do tipo selvagem ou pode ser modificada para expressão mais eficiente ou eficaz. Em algumas modalidades, a sequência de codificação de DNA também pode ser ligada a um sinal de poliadenilação (por exemplo, sinal SV40 poliA, sinal poliA do hormônio de crescimento bovino (BGH), etc.) e/ou pelo menos uma sequência de terminação transcricional. A sequência que codifica o RNA guia está operacionalmente ligada a uma sequência de controle do promotor Pol III para expressão em células eucarióticas. Exemplos de promotores Pol III adequados incluem, mas não estão limitados a, promotores de RNA U6, U3, H1 e 7SL de mamíferos. Em algumas situações, a proteína de fusão ou os componentes do complexo podem ser purificados a partir de células bacterianas ou eucarióticas.

[085] Em várias modalidades, o ácido nucleico que codifica a proteína de fusão ou a proteína CRISPR e o RNA guia do complexo pode estar presente em um vetor. Os vetores adequados incluem vetores plasmídicos, vetores virais e RNA autorreplicante (Yoshioka et al., Cell Stem Cell, 2013, 13: 246-254). Em algumas modalidades, o ácido nucleico que codifica a proteína de fusão ou os componentes do complexo pode estar presente em um vetor de plasmídeo. Exemplos não limitativos de vetores de plasmídeo adequados incluem pUC, pBR322, pET, pBluescript e variantes dos mesmos. Em outras modalidades, o ácido nucleico que codifica a proteína de fusão ou os componentes do complexo ou pode ser parte de um vetor viral (por exemplo, vetores lentivirais, vetores virais adenoassociados, vetores adenovirais e assim por diante). O plasmídeo ou vetor viral pode compreender sequências de controle de expressão adicionais (por exemplo, sequências potenciadoras, sequências Kozak, sequências de poliadenilação, sequências de terminação transcricionais, etc.), sequências marcadoras selecionáveis (por exemplo, genes de resistência a antibióticos), origens de replicação e similares. Informações adicionais sobre vetores e seu uso podem ser encontradas em "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, Nova York, 2003 ou "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3ª edição, 2001. (IV) Kits

[086] Um outro aspecto da presente descrição fornece kits compreendendo pelo menos uma das proteínas de fusão detalhadas acima na seção (I), pelo menos um dos complexos CRISPR descritos acima na seção (II) e/ou pelo menos um dos ácidos nucleicos descritos acima na seção (III). Os kits podem adicionalmente compreender reagentes de transfecção, meio de crescimento celular, meio de seleção, reagentes de transcrição in vitro, reagentes de purificação de ácido nucleico, reagentes de purificação de proteínas, tampões e similares. Os kits aqui fornecidos geralmente incluem instruções para executar os métodos detalhados abaixo. As instruções incluídas nos kits podem ser afixadas no material da embalagem ou podem ser incluídas como uma bula. Embora as instruções sejam tipicamente materiais escritos ou impressos, elas não se limitam a isso. Qualquer meio capaz de armazenar essas instruções e comunicá-las a um usuário final é contemplado por esta descrição. Esses meios incluem, mas não estão limitadas a, meios de armazenamento eletrônico (por exemplo, discos magnéticos, fitas, cartuchos, chips), meios ópticos (por exemplo, CD ROM) e similares. Conforme usado aqui, o termo "instruções" pode incluir o endereço de um site da Internet que forneça as instruções. (V) Células

[087] A presente descrição também fornece células compreendendo pelo menos uma das proteínas de fusão detalhadas acima na seção (I), pelo menos um dos complexos CRISPR descritos acima na seção (II) e/ou pelo menos um dos ácidos nucleicos descritos acima na seção (III). Em geral, a célula é uma célula eucariótica. Por exemplo, a célula pode ser uma célula humana, uma célula de mamífero não humana, uma célula de vertebrado não mamífero, uma célula de invertebrado, uma célula de inseto, uma célula de planta, uma célula de levedura ou um organismo eucariótico de única célula. (VI) Métodos para Aumentar Eficiência de Genoma Alvo, Modificação Transcricional ou Epigenética

[088] Outro aspecto da presente descrição abrange métodos para aumentar a eficiência da modificação de genoma direcionada, modificação transcricional direcionada ou modificação epigenética direcionada em células eucarióticas, aumentando a acessibilidade de uma proteína de modificação de DNA programável à sua sequência alvo no DNA cromossômico. Em algumas modalidades, o método compreende introduzir na célula eucariótica de interesse pelo menos uma das proteínas de fusão descritas acima na seção (I), pelo menos um dos complexos CRISPR descritos acima na seção (II) ou ácido nucleico que codifica a em pelo menos uma proteína de fusão ou complexo CRISPR como descrito acima na seção (III) e, opcionalmente, um polinucleotídeo doador.

[089] A proteína de modificação de DNA programável da proteína de fusão é projetada para reconhecer e se ligar a uma sequência alvo no DNA cromossômico, e um ou mais domínios de proteína de interação com nucleossomo da proteína de fusão interagem com os nucleossomos na sequência alvo para alterar ou remodelar a estrutura nucleossômica e/ou cromatina. Como consequência, a proteína de modificação do DNA aumentou o acesso à sequência cromossômica alvo, de modo que a eficiência da modificação pela proteína de modificação do DNA foi aumentada. Em modalidades específicas, a proteína de fusão compreende pelo menos um domínio de proteína de interação com nucleossomo ligado a uma CRISPR nuclease, de modo que as interações entre o (s) domínio (s) da proteína que interagem com o nucleossomo e os nucleossomos / cromatina na ou perto da sequência alvo aumentam a eficiência das modificações genômicas direcionadas (vide exemplos 1-8).

[090] Assim, os métodos aqui divulgados podem aumentar a edição do genoma direcionado à eficiência (por exemplo, correções de genes, nocautes de genes, knock-ins de genes e similares), modificações epigenéticas direcionadas e regulação transcricional direcionada. (a) Introdução à Célula

[091] Como mencionado acima, o método compreende a introdução na célula de pelo menos uma proteína de fusão, pelo menos um complexo CRISPR ou ácido (s) nucleico (s) que codifica a referida proteína de fusão ou complexo CRISPR (e, opcionalmente, um polinucleotídeo doador). A pelo menos uma proteína de fusão, complexo CRISPR ou ácido nucleico podem ser introduzidos na célula de interesse por uma variedade de meios.

[092] Em algumas modalidades, a célula pode ser transfectada com as moléculas apropriadas (isto é, proteína, DNA e/ou RNA). Os métodos de transfecção adequados incluem nucleofecção (ou eletroporação), transfecção mediada por fosfato de cálcio, transfecção de polímero catiônico (por exemplo, DEAE-dextrano ou polietilenimina), transdução viral, transfecção de virossoma, transfecção de virion, transfecção de lipossomas, transfecção de lipossomas catiônicos, transfecção de imunolipossomos, lipídios não lipossômicos transfecção, transfecção de dendrímero, transfecção por choque térmico, magnetofecção, lipofecção, entrega por gene gun (injetor de gene), impalefecção, sonoporação, transfecção óptica e captação de ácidos nucleicos melhorada por agente proprietário. Os métodos de transfecção são bem conhecidos na técnica (vide, por exemplo, "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, Nova York, 2003 ou "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3ª edição 2001). Em outras modalidades, as moléculas podem ser introduzidas na célula por microinjeção. Por exemplo, as moléculas podem ser injetadas no citoplasma ou núcleos das células de interesse. A quantidade de cada molécula introduzida na célula pode variar, mas os especialistas na técnica estão familiarizados com os meios para determinar a quantidade apropriada.

[093] As várias moléculas podem ser introduzidas na célula simultaneamente ou sequencialmente. Por exemplo, a proteína de fusão ou o complexo CRISPR (ou os ácidos nucleicos codificadores) e o polinucleotídeo doador podem ser introduzidos ao mesmo tempo. Alternativamente, um pode ser introduzido primeiro e depois o outro pode ser introduzido posteriormente na célula.

[094] Em geral, a célula é mantida em condições apropriadas para o crescimento e/ou manutenção das células. As condições adequadas de cultura de células são bem conhecidas na técnica e são descritas, por exemplo, em Santiago et al., Proc. Natl. Acad. Sci. USA, 2008, 105: 5809-5814; Moehle et al. Proc. Natl. Acad. Sci. USA, 2007, 104: 3055- 3060; Urnov et al., Nature, 2005, 435: 646-651; e Lombardo et al., Nat. Biotechnol., 2007, 25: 1298-1306. Os especialistas na técnica entendem que os métodos para cultivar células são conhecidos na técnica e podem e variarão dependendo do tipo de célula. A otimização de rotina pode ser usada, em todos os casos, para determinar as melhores técnicas para um tipo de célula específico. (b) Genoma Direcionado ou Modificação Epigenética

[095] Os um ou mais domínios de proteína de interação com nucleossomo da proteína de fusão ou do complexo CRISPR interage com nucleossomos e/ou DNA cromossômico na ou perto da sequência cromossômica alvo, de modo que a estrutura nucleossômica e/ou cromatina seja alterada / remodelada, aumentando assim a acessibilidade da proteína de modificação de DNA programável da proteína de fusão ou a proteína CRISPR do complexo CRISPR para a sequência cromossômica alvo. O aumento do acesso à sequência cromossômica alvo resulta em maior frequência / eficiência do genoma- alvo, modificação transcricional ou epigenética.

[096] Nas modalidades em que a proteína de fusão compreende uma proteína de modificação de DNA programável com atividade de nuclease, a proteína de fusão pode clivar uma ou ambas as cadeias da sequência cromossômica direcionada. As quebras de filamento duplo podem ser reparadas por um processo de reparo de união final não homóloga (NHEJ). Como o NHEJ é propenso a erros, indels (isto é, deleções ou inserções) de pelo menos um par de bases, substituições de pelo menos um par de bases ou combinações dos mesmos podem ocorrer durante o reparo da ruptura. Por conseguinte, a sequência cromossômica direcionada pode ser modificada, mutada ou inativada. Por exemplo, uma exclusão, inserção ou substituição no quadro de leitura de uma sequência de codificação pode levar a um produto proteico alterado ou a nenhum produto proteico (que é denominado "knock out"). Em algumas iterações, o método pode compreender ainda a introdução na célula de um polinucleotídeo doador (vide abaixo) compreendendo uma sequência doadora que é flanqueada por uma sequência que possui identidade substancial de sequência para sequências localizadas em ambos os lados da sequência cromossômica alvo, de modo que durante o reparo da quebra de filamento duplo por um processo de reparo dirigido por homologia (HDR), a sequência doadora no polinucleotídeo doador pode ser trocada ou integrada na sequência cromossômica na sequência cromossômica alvo. A integração de uma sequência exógena é denominada "knock in".

[097] Em várias iterações, portanto, a eficiência da modificação do genoma direcionado pode ser aumentada em pelo menos cerca de 0,1 vez, pelo menos cerca de 0,5 vez, pelo menos cerca de 1 vez, pelo menos cerca de 2 vezes, pelo menos cerca de 5 vezes, pelo menos cerca de 10 vezes, ou pelo menos cerca de 20 vezes, pelo menos cerca de 50 vezes, pelo menos cerca de 100 vezes ou mais do que cerca de 100 vezes em relação à proteína de modificação de DNA programável dos pais que não está ligado a pelo menos um domínio de proteína de interação com nucleossomo.

[098] Nas modalidades em que a proteína de fusão compreende uma proteína de modificação de DNA programável com atividade de não nuclease, a proteína de fusão pode modificar o DNA ou proteínas associadas na sequência cromossômica alvo ou modificar a expressão da sequência cromossômica alvo. Por exemplo, quando a proteína de modificação de DNA programável compreende atividade de modificação epigenética, o status de acetilação de histonas, metilação, fosforilação, adenilação, etc. pode ser modificado ou o status de metilação, aminação etc. do DNA pode ser modificado. Como um exemplo, em modalidades nas quais a proteína de modificação de DNA programável compreende a atividade da citidina-desaminase, um ou mais resíduos de citidina na sequência cromossômica alvo podem ser convertidos em resíduos de uridina. Alternativamente, quando a proteína de modificação de DNA programável compreende ativação transcricional ou atividade de repressão, a transcrição na sequência cromossômica alvo pode ser aumentada ou diminuída.

[099] A modificação epigenética resultante ou a regulação transcricional podem ser aumentadas em pelo menos cerca de 0,1 vez, pelo menos cerca de 0,5 vez, pelo menos cerca de 1 vez, pelo menos cerca de 2 vezes, pelo menos cerca de 5 vezes, em pelo menos cerca de 10 vezes ou pelo menos cerca de 20 vezes, pelo menos cerca de 50 vezes, pelo menos cerca de 100 vezes ou mais do que cerca de 100 vezes em relação à proteína de modificação de DNA programável dos pais que não está ligada a pelo menos um domínio de proteína de interação com nucleossomo.

[100] O genoma direcionado, as modificações epigenéticas transcricionais detalhadas acima podem ser realizadas isoladamente ou multiplexadas (isto é, duas ou mais sequências cromossômicas podem ser direcionadas simultaneamente). (c) Polinucleotídeo Doador Opcional

[101] Nas modalidades em que a proteína de fusão compreende uma proteína de modificação de DNA programável com atividade de nuclease, o método pode adicionalmente compreender a introdução de pelo menos um polinucleotídeo doador na célula. O polinucleotídeo doador pode ser de filamento simples ou duplo, linear ou circular e/ou RNA ou DNA. Em algumas modalidades, o polinucleotídeo doador pode ser um vetor, por exemplo, um vetor plasmídico.

[102] O polinucleotídeo doador compreende pelo menos uma sequência doadora. Em alguns aspectos, a sequência doadora do polinucleotídeo doador pode ser uma versão modificada de uma sequência cromossômica endógena ou nativa. Por exemplo, a sequência doadora pode ser essencialmente idêntica a uma porção da sequência cromossômica na ou próxima à sequência alvo da proteína de modificação do DNA, mas que compreende pelo menos uma alteração de nucleotídeo. Assim, após integração ou troca com a sequência nativa, a sequência no local cromossômico alvo compreende pelo menos uma alteração de nucleotídeo. Por exemplo, a alteração pode ser uma inserção de um ou mais nucleotídeos, uma exclusão de um ou mais nucleotídeos, uma substituição de um ou mais nucleotídeos ou combinações dos mesmos. Como consequência da integração "correção genética" da sequência modificada, a célula pode produzir um produto genético modificado a partir da sequência cromossômica direcionada.

[103] Em outros aspectos, a sequência doadora do polinucleotídeo doador pode ser uma sequência exógena. Como usado aqui, uma sequência "exógena" refere-se a uma sequência que não é nativa da célula ou a uma sequência cuja localização nativa está em um local diferente no genoma da célula. Por exemplo, a sequência exógena pode compreender a sequência de codificação da proteína, que pode ser operacionalmente ligada a uma sequência de controle do promotor exógeno, de modo que, após a integração no genoma, a célula seja capaz de expressar a proteína codificada pela sequência integrada. Alternativamente, a sequência exógena pode ser integrada na sequência cromossômica, de modo que sua expressão seja regulada por uma sequência de controle de promotor endógeno. Em outras iterações, a sequência exógena pode ser uma sequência de controle transcricional, outra sequência de controle de expressão, uma sequência de codificação de RNA e assim por diante. Como observado acima, a integração de uma sequência exógena em uma sequência cromossômica é denominada "knock in".

[104] Como pode ser apreciado pelos especialistas na técnica, o comprimento da sequência do doador pode e irá variar. Por exemplo, a sequência doadora pode variar em comprimento, de vários nucleotídeos a centenas de nucleotídeos e centenas de milhares de nucleotídeos.

[105] Tipicamente, a sequência do doador no polinucleotídeo doador é flanqueada por uma sequência a montante e uma sequência a jusante, que têm identidade substancial da sequência para sequências localizadas a montante e a jusante, respectivamente, da sequência direcionada pela proteína de modificação de DNA programável. Devido a essas semelhanças de sequência, as sequências a montante e a jusante do polinucleotídeo doador permitem a recombinação homóloga entre o polinucleotídeo doador e a sequência cromossômica direcionada, de modo que a sequência doadora possa ser integrada (ou trocada com) a sequência cromossômica.

[106] A sequência a montante, como aqui utilizada, refere-se a uma sequência de ácido nucleico que compartilha identidade substancial de sequência com uma sequência cromossômica a montante da sequência direcionada pela proteína de modificação de DNA programável. Do mesmo modo, a sequência a jusante refere-se a uma sequência de ácido nucleico que compartilha uma identidade substancial da sequência com uma sequência cromossômica a jusante da sequência alvo da proteína de modificação de DNA programável. Como aqui utilizado, a frase "identidade substancial da sequência" refere-se a sequências com pelo menos cerca de 75% de identidade de sequência. Assim, as sequências a montante e a jusante no polinucleotídeo doador podem ter cerca de 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% ou 99% de identidade de sequência com a sequência a montante ou a jusante da sequência alvo. Em uma modalidade exemplar, as sequências a montante e a jusante no polinucleotídeo doador podem ter cerca de 95% ou 100% de identidade de sequência com sequências cromossômicas a montante ou a jusante da sequência direcionada da proteína de modificação de DNA programável.

[107] Em algumas modalidades, a sequência a montante compartilha identidade de sequência substancial com uma sequência cromossômica localizada imediatamente a montante da sequência direcionada pela proteína de modificação de DNA programável. Em outras modalidades, a sequência a montante compartilha identidade de sequência substancial com uma sequência cromossômica que está localizada dentro de cerca de cem (100) nucleotídeos a montante da sequência alvo. Assim, por exemplo, a sequência a montante pode compartilhar uma identidade substancial da sequência com uma sequência cromossômica localizada cerca de 1 a cerca de 20, cerca de 21 a cerca de 40, cerca de 41 a cerca de 60, cerca de 61 a cerca de 80 ou cerca de 81 a cerca de 100 nucleotídeos a montante da sequência alvo. Em algumas modalidades, a sequência a jusante compartilha identidade de sequência substancial com uma sequência cromossômica localizada imediatamente a jusante da sequência direcionada pela proteína de modificação de DNA programável. Em outras modalidades, a sequência a jusante compartilha identidade de sequência substancial com uma sequência cromossômica que está localizada dentro de cerca de cem (100) nucleotídeos a jusante da sequência alvo. Assim, por exemplo, a sequência a jusante pode compartilhar uma identidade substancial de sequência com uma sequência cromossômica localizada cerca de 1 a cerca de 20, cerca de 21 a cerca de 40, cerca de 41 a cerca de 60, cerca de 61 a cerca de 80 ou cerca de 81 a cerca de 100 nucleotídeos a jusante da sequência alvo.

[108] Cada sequência a montante ou a jusante pode variar em comprimento de cerca de 20 nucleotídeos a cerca de 5000 nucleotídeos. Em algumas modalidades, as sequências a montante e a jusante podem compreender cerca de 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800 ou 5000 nucleotídeos. Em modalidades específicas, as sequências a montante e a jusante podem variar em comprimento de cerca de 50 a cerca de 1500 nucleotídeos. (d) Tipos de Células

[109] Uma variedade de células é adequada para uso nos métodos aqui divulgados. Em geral, a célula é uma célula eucariótica. Por exemplo, a célula pode ser uma célula humana, uma célula de mamífero não humana, uma célula de vertebrado não mamífero, uma célula de invertebrado, uma célula de inseto, uma célula de planta, uma célula de levedura ou um organismo eucariótico de célula única. Em algumas modalidades, a célula também pode ser um embrião de uma célula. Por exemplo, um embrião de mamífero não humano, incluindo embriões de rato, hamster, roedor, coelho, felino, canino, ovino, suíno, bovino, equino e primata. Ainda em outras modalidades, a célula pode ser uma célula-tronco, como células-tronco embrionárias, células-tronco do tipo ES, células-tronco fetais, células-tronco adultas e semelhantes. Em uma modalidade, a célula-tronco não é uma célula-tronco embrionária humana. Além disso, as células estaminais podem incluir aquelas produzidas pelas técnicas divulgadas no documento WO2003/046141, que é aqui incorporado na sua totalidade, ou Chung et al. (Cell Stem

Cell, 2008, 2: 113-117). A célula pode ser in vitro ou in vivo (isto é, dentro de um organismo). Em modalidades exemplares, a célula é uma célula de mamífero ou linhagem de células de mamífero. Em modalidades particulares, a célula é uma célula humana ou uma linhagem de células humanas.

[110] Exemplos não limitativos de células ou linhagens celulares de mamíferos adequadas incluem células renais embrionárias humanas (HEK293, HEK293T); células de carcinoma cervical humano (HELA); células pulmonares humanas (W138); células hepáticas humanas (Hep G2); células de osteossarcoma U2-OS humanas, células A549 humanas, células A-431 humanas e células K562 humanas; células de ovário de hamster chinês (CHO), células de rim de filhote de hamster (BHK); células NS0 de mieloma de camundongo, células 3T3 de fibroblastos embrionários de camundongo (NIH3T3), células A20 de linfoma B de camundongo; células B16 de melanoma de camundongo; células C2C12 de mioblasto de camundongo; células SP2/0 de mieloma de camundongo; células C3H-10T1/2 embrionárias de camundongo; células CT26 de carcinoma de camundongo, células DuCuP da próstata de camundongo; células EMT6 de mama de camundongo; células Hepa1c1c7 de hepatoma de camundongo; células J5582 de mieloma de camundongo; células MTD-1A epiteliais de camundongo; células MyEnd do miocárdio de camundongo; células RenCa renais de camundongo; células RIN-5F pancreáticas de camundongo; células X64 de melanoma de camundongo; células YAC-1 de linfoma de rato; células 9L de glioblastoma de rato; células RBL de linfoma B de rato; células B35 de neuroblastoma de rato; células de hepatoma de rato (HTC); células BRL 3A de fígado de rato buffalo; células renais caninas (MDCK); células mamárias caninas (CMT); células D17 de osteossarcoma de rato; células DH82 de monócitos / macrófagos de rato; células de fibroblastos transformados em SV-40 (COS7) de rim de macaco; células CVI-76 de rim de macaco; células de rim de macaco verde africano (VERO-76). Uma extensa lista de linhas celulares de mamíferos pode ser encontrada no catálogo da American Type Culture Collection (ATCC, Manassas, VA). (VII) Métodos para Detectar Loci Genômicos Específicos

[111] Em modalidades nas quais a proteína de fusão compreende uma modificação de DNA programável com atividade de não nuclease ou o complexo CRISPR compreende um CRISP cataliticamente inativo A proteína R tendo atividade não nuclease, a referida proteína de fusão ou complexo CRISPR podem ser usados em métodos para detectar ou visualizar loci genômicos específicos em células eucarióticas. Em tais modalidades, a proteína de fusão ou proteína CRISPR do complexo adicionalmente compreende pelo menos um rótulo detectável, como um fluoróforo (por exemplo, FAM, TMR, Cy3, Cy5, Texas Red, Oregon Green, Alexa Fluors, etiquetas Halo, ou corante fluorescente adequado), uma etiqueta de detecção (por exemplo, biotina, digoxigenina e similares), pontos quânticos ou partículas de ouro. Alternativamente, o RNA guia do complexo CRISPR pode adicionalmente compreender uma etiqueta detectável para detecção in situ (por exemplo, FISH ou CISH). O pelo menos um domínio de proteína de interação com nucleossomo da proteína de fusão ou complexo CRISPR aumenta o acesso da proteína de modificação de DNA programável ou da proteína CRISPR tendo atividade de não nuclease para a sequência cromossômica alvo, melhorando assim a detecção de loci genômicos específicos ou de sequências cromossômicas direcionadas.

[112] O método compreende introduzir na célula eucariótica a proteína de fusão marcada de forma detectável, complexo CRISPR marcado de forma detectável ou ácido nucleico de codificação e detectar a proteína de modificação de DNA programável marcada ou a proteína CRISPR marcada ligada à sequência cromossômica alvo. A detecção pode ser por meio de imagem dinâmica de células vivas, microscopia fluorescente, microscopia confocal, imunofluorescência, imunodetecção, ligação RNA-proteína, ligação proteína-proteína e similares. A etapa de detecção pode ser realizada em células vivas ou células fixas.

[113] Nas modalidades em que o método compreende a detecção da dinâmica estrutural da cromatina em células vivas, a proteína de fusão marcada de forma detectável ou o complexo CRISPR marcado de forma detectável podem ser introduzidos na célula como proteínas ou ácidos nucleicos. Nas modalidades em que o método compreende a detecção da sequência cromossômica direcionada em células fixas, a proteína de fusão marcada de forma detectável ou o complexo CRISPR marcado de forma detectável podem ser introduzidos na célula como proteínas (ou complexos de proteína-RNA). Os meios para fixar e permeabilizar células são bem conhecidos na técnica. Em algumas modalidades, as células fixas podem ser submetidas a processos de desnaturação química e/ou térmica para converter DNA cromossômico de filamento duplo em DNA de filamento simples. Em outras modalidades, as células fixas não estão sujeitas a processos de desnaturação química e/ou térmica. (VIII) Aplicações

[114] As composições e métodos aqui divulgados podem ser usados em uma variedade de aplicações terapêuticas, de diagnóstico, industriais e de pesquisa. Em algumas modalidades, a presente descrição pode ser usada para modificar qualquer sequência cromossômica de interesse em uma célula, animal ou planta, a fim de modelar e/ou estudar a função de genes, estudar condições genéticas ou epigenéticas de interesse ou estudar vias bioquímicas envolvidas em várias doenças ou distúrbios. Por exemplo, organismos transgênicos podem ser criados para modelar doenças ou distúrbios, em que a expressão de uma ou mais sequências de ácidos nucleicos associadas a uma doença ou distúrbio é alterada. O modelo da doença pode ser usado para estudar os efeitos de mutações no organismo, estudar o desenvolvimento e/ou progressão da doença, estudar o efeito de um composto farmaceuticamente ativo na doença e/ou avaliar a eficácia de uma terapia genética potencial estratégia.

[115] Em outras modalidades, as composições e métodos podem ser usados para realizar triagens genômicas funcionais eficientes e econômicas, que podem ser usadas para estudar a função dos genes envolvidos em um processo biológico específico e como qualquer alteração na expressão gênica pode afetar o processo biológico ou para realizar mutagênese de varredura profunda ou saturante de loci genômicos em conjunto com um fenótipo celular. A mutagênese de saturação ou varredura profunda pode ser usada para determinar características mínimas críticas e vulnerabilidades discretas de elementos funcionais necessários para expressão de genes, resistência a medicamentos e reversão de doenças, por exemplo.

[116] Em outras modalidades, as composições e métodos aqui divulgados podem ser usados para testes de diagnóstico para estabelecer a presença de uma doença ou distúrbio e/ou para uso na determinação de opções de tratamento. Exemplos de testes de diagnóstico adequados incluem a detecção de mutações específicas nas células cancerígenas (por exemplo, mutação específica no EGFR, HER2 e similares), detecção de mutações específicas associadas a doenças específicas (por exemplo, repetições de trinucleotídeos, mutações na β-globina associada à doença celular de anemia falciforme, SNPs específicos, etc.), detecção de hepatite, detecção de vírus (por exemplo, zika) e assim por diante.

[117] Em modalidades adicionais, as composições e métodos aqui divulgados podem ser utilizados para corrigir mutações genéticas associadas a uma doença ou distúrbio específico, como, por exemplo, mutações corretas do gene da globina associadas à doença das células falciformes ou talassemia, mutações corretas no gene da adenosina desaminase associado à deficiência imunológica combinada grave (SCID), reduz a expressão de HTT, o gene causador da doença de Huntington, ou corrigir mutações no gene da rodopsina para o tratamento da retinite pigmentosa. Tais modificações podem ser feitas em células ex vivo.

[118] Em ainda outras modalidades, as composições e métodos aqui divulgados podem ser utilizados para gerar plantas de cultura com características aprimoradas ou maior resistência a estresses ambientais. A presente descrição também pode ser usada para gerar animais de fazenda com características aprimoradas ou animais de produção. Por exemplo, os porcos têm muitas características que os tornam atraentes como modelos biomédicos, especialmente em medicina regenerativa ou xenotransplante. (IX) MODALIDADES ENUMERADAS

[119] As seguintes modalidades enumeradas são apresentadas para ilustrar certos aspectos da presente invenção e não se destinam a limitar seu escopo.

[120] 1. Proteína de fusão compreendendo pelo menos um domínio de proteína de interação com nucleossomo ligado a uma proteína de modificação de DNA programável.

[121] 2. A proteína de fusão da modalidade 1, em que o pelo menos um domínio de proteína de interação com um nucleossomo é um domínio de ligação ao DNA de uma proteína box do grupo de alta mobilidade (HMG) (HMGB) escolhida entre HMGB1, HMGB2 ou HMGB3; uma proteína de ligação ao nucleossomo do HMG (HMGN) escolhida entre HMGN1, HMGN2, HMGN3a, HMGN3b, HMGN4 ou

HMGN5; um domínio globular central a partir de uma variante de histona H1; um domínio de ligação ao DNA a partir de uma proteína do complexo de remodelação de cromatina, escolhida entre o complexo switch / sacarose não fermentável (SWI/SNF), o complexo switch de imitação (ISWI), o complexo de ligação de cromodomaina-helicase-DNA (CHD), complexo de remodelação de nucleossomos e desacetilase (NuRD), complexo INO80, complexo SWR1, complexo RSC ou sua combinação.

[122] 3. A proteína de fusão da modalidade 2, em que o pelo menos um domínio de proteína de interação com nucleossomo é o domínio de box A de HMGB1, proteína HMGN1, proteína HMGN2, proteína HMGN3a, proteína HMGN3b, domínio globular central de histona H1, domínio de ligação ao DNA da proteína ISWI, domínio de ligação ao DNA da proteína CHD1 ou combinação dos mesmos.

[123] 4. A proteína de fusão de qualquer uma das modalidades 1 a 3, em que a proteína de modificação de DNA programável tem atividade de nuclease.

[124] 5. A proteína de fusão da modalidade 4, em que a proteína de modificação de DNA programável é uma nuclease ou nickase de repetições palindrômicas curtas e regularmente intercaladas agrupadas (CRISPR), uma nuclease de dedo de zinco (ZFN), uma nuclease de efetor do tipo ativador de transcrição (TALEN), uma meganuclease ou uma proteína quimérica compreendendo um domínio de ligação a DNA programável ligado a um domínio nuclease.

[125] 6. Proteína de fusão, de acordo com qualquer uma das modalidades de 1 a 3, caracterizada pelo fato de que a proteína de modificação de DNA programável tem atividade de não nuclease.

[126] 7. A proteína de fusão da modalidade 6, em que a proteína de modificação de DNA programável é uma proteína quimérica que compreende um domínio de ligação a DNA programável ligado a um domínio de não nuclease.

[127] 8. A proteína de fusão da modalidade 7, em que o domínio de ligação ao DNA programável é uma proteína CRISPR modificada para não possuir toda atividade de nuclease, uma proteína de dedo de zinco ou um efetor do tipo ativador de transcrição.

[128] 9. A proteína de fusão da modalidade 7, em que o domínio de não nuclease tem atividade de acetiltransferase, atividade de desacetilase, atividade de metiltransferase, atividade de desmetilase, atividade de quinase, atividade de fosfatase, atividade de ubiquitina ligase, atividade de desubiquitinante, atividade de adenilação, atividade de desadenilação, atividade de SUMOilação, atividade de deSUMOilação, atividade de ribosilação, atividade de derribosilação, atividade de miristoilação, atividade de desmististoilação, atividade de citrulinação, atividade de helicase, atividade de aminação, atividade de desaminação, atividade de alquilação, atividade de desalquilação, atividade de oxidação, atividade de ativação transcricional ou atividade de repressão da transcrição.

[129] 10. A proteína de fusão da modalidade 9, em que o domínio de não nuclease tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressão transcricional.

[130] 11. A proteína de fusão, de acordo com qualquer uma das modalidades de 1 a 10, em que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína de modificação de DNA programável diretamente por meio de uma ligação química, indiretamente por meio de um ligante ou uma combinação dos mesmos.

[131] 12. A proteína de fusão, de acordo com qualquer uma das modalidades de 1 a 11, em que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína de modificação de DNA programável em seu terminal N, terminal C, um local interno ou combinação dos mesmos.

[132] 13. A proteína de fusão de qualquer uma das modalidades 1 a 12, adicionalmente compreendendo pelo menos um sinal de localização nuclear, pelo menos um domínio de penetração de células, pelo menos um domínio de marcador ou uma combinação dos mesmos.

[133] 14. Uma proteína de fusão compreendendo uma proteína de repetições palindrômicas curtas regularmente intercaladas agrupadas (CRISPR) ligada a pelo menos um domínio de proteína de interação com nucleossomo.

[134] 15. A proteína de fusão da modalidade 14, em que a proteína CRISPR é uma CRISPR/Cas9 nuclease ou nickase tipo II, ou a proteína CRISPR é uma nuclease ou nickase CRISPR/Cpf1 tipo V.

[135] 16. A proteína de fusão da modalidade 14, em que a proteína CRISPR é uma proteína CRISPR/Cas9 tipo II modificada para não possuir toda atividade de nuclease e ligada a um domínio de não nuclease ou uma proteína CRISPR/Cpf1 tipo V modificada para não possuir toda a atividade da nuclease e ligada a um domínio não nuclease.

[136] 17. A proteína de fusão da modalidade 16, em que o domínio de não nuclease tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressão transcricional.

[137] 18. A proteína de fusão, de acordo com qualquer uma das modalidades 14 a 17, em que pelo menos um domínio de proteína de interação com nucleossomo é um domínio de ligação a DNA da box do grupo de alta mobilidade (HMG) (HMG), um domínio de ligação a DNA da box do HMG, uma proteína de ligação a nucleossomo HMG (HMGN), um domínio globular central a partir de uma variante de histona H1, um domínio de ligação ao DNA de uma proteína complexa de remodelação de cromatina ou uma combinação dos mesmos.

[138] 19. A proteína de fusão da modalidade 18, em que pelo menos um domínio de proteína de interação com nucleossomo é o domínio de box A de HMGB1, proteína HMGN1, proteína HMGN2, proteína HMGN3a, proteína HMGN3b, proteína globular central da histona H1, domínio de ligação ao DNA da proteína de switch de imitação (ISWI), domínio de ligação ao DNA de cromodomaína- helicase-proteína 1 (CHD1) ou uma combinação dos mesmos.

[139] 20. A proteína de fusão, de acordo com qualquer uma das modalidades 14 a 19, em que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína CRISPR diretamente por meio de uma ligação química, indiretamente por meio de um ligante ou uma combinação dos mesmos.

[140] 21. A proteína de fusão, de acordo com qualquer uma das modalidades 14 a 20, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína CRISPR em seu terminal N, terminal C, um local interno ou uma combinação dos mesmos.

[141] 22. A proteína de fusão de qualquer uma das modalidades 14 a 21, adicionalmente compreendendo pelo menos um sinal de localização nuclear, pelo menos um domínio de penetração de células, pelo menos um domínio de marcador ou uma combinação dos mesmos.

[142] 23. A proteína de fusão de qualquer uma das modalidades 14 a 22, em que a proteína CRISPR é Streptococcus pyogenes Cas9 (SpCas9), Streptococcus thermophilus Cas9 (StCas9), Streptococcus pasteurianus (SpaCas9), Campylobacter jejuni Cas9 (CjCas9), Staphylococcus aureus (SaCas9), Francisella novicida Cas9 (FnCas9), Neisseria cinerea Cas9 (NcCas9), Neisseria meningitis Cas9 (NmCas9), Francisella novicida Cpf1 (FnCpf1), Acidaminococcus sp. Cpf1 (AsCpf1), ou Lachnospiraceae bacterium ND2006 Cpf1 (LbCpf1).

[143] 24. A proteína de fusão de qualquer uma das modalidades

14 a 23, em que a proteína de fusão tem uma sequência de aminoácidos tendo pelo menos cerca de 90% de identidade de sequência com a SEQ ID NO: 61, SEQ ID NO: 62, SEQ ID NO: 63, SEQ ID NO: 64, SEQ ID NO: 65, SEQ ID NO: 66, SEQ ID NO: 67, SEQ ID NO: 68, SEQ ID NO: 69, SEQ ID NO: 70, SEQ ID NO: 71, SEQ ID NO: 72, SEQ ID NO: 73, SEQ ID NO: 74, SEQ ID NO: 75, SEQ ID NO: 76, SEQ ID NO: 77, SEQ ID NO: 78 ou SEQ ID NO: 79.

[144] 25. A proteína de fusão, de acordo com qualquer uma das modalidades 14 a 24, caracterizada pelo fato de que a proteína de fusão tem uma sequência de aminoácidos conforme estabelecido na SEQ ID NO: 61, SEQ ID NO: 62, SEQ ID NO: 63, SEQ ID NO: 64, SEQ ID NO: 65, SEQ ID NO: 66, SEQ ID NO: 67, SEQ ID NO: 68, SEQ ID NO: 69, SEQ ID NO: 70, SEQ ID NO: 70, SEQ ID NO: 71, SEQ ID NO: 72, SEQ ID NO: 73, SEQ ID NO: 74, SEQ ID NO: 75, SEQ ID NO: 76, SEQ ID NO: 77, SEQ ID NO: 78 ou SEQ ID NO: 79.

[145] 26. Um complexo compreendendo pelo menos uma proteína de fusão de qualquer uma das modalidades 14 a 25 e pelo menos um RNA guia.

[146] 27. Um ácido nucleico que codifica a proteína de fusão de qualquer uma das modalidades 1 a 25.

[147] 28. O ácido nucleico da modalidade 27, que é códon otimizado para tradução em uma célula eucariótica.

[148] 29. O ácido nucleico das modalidades 27 ou 28, que faz parte de um vetor viral, um vetor plasmídico ou um RNA autorreplicante.

[149] 30. Um método para aumentar a eficiência do genoma direcionado ou modificação epigenética em uma célula eucariótica, o método compreendendo a introdução na célula eucariótica de pelo menos uma proteína de fusão, conforme estabelecido em qualquer uma das modalidades 1 a 25, ou codificação de ácido nucleico a pelo menos uma proteína de fusão, como estabelecido em qualquer uma das modalidades 27 a 29, em que a proteína de modificação de DNA programável de pelo menos uma proteína de fusão é direcionada a uma sequência cromossômica alvo e pelo menos um domínio de proteína de interação com nucleossomo da pelo menos uma proteína de fusão altera a estrutura nucleossômica ou cromatina, de modo que a pelo menos uma proteína de fusão aumente o acesso à sequência cromossômica alvo, aumentando assim a eficiência do genoma alvo ou modificação epigenética.

[150] 31. O método da modalidade 30, em que a proteína de modificação de DNA de pelo menos uma proteína de fusão compreende uma proteína CRISPR e o método adicionalmente compreende a introdução na célula eucariótica de pelo menos um RNA guia ou ácido nucleico que codifica o pelo menos um RNA guia.

[151] 32. O método das modalidades 30 ou 31, em que o método adicionalmente compreende introduzir na célula eucariótica pelo menos um polinucleotídeo doador, o polinucleotídeo doador compreendendo pelo menos uma sequência doadora.

[152] 33. O método de qualquer uma das modalidades 30 a 32, em que a célula eucariótica é in vitro.

[153] 34. O método de qualquer uma das modalidades 30 a 32, em que a célula eucariótica é in vivo.

[154] 35. O método de qualquer uma das modalidades 30 a 34, em que a célula eucariótica é uma célula de mamífero.

[155] 36. O método de qualquer uma das modalidades 30 a 35, em que a célula eucariótica é uma célula humana.

[156] 37. Método para aumentar a eficiência do genoma direcionado ou modificação epigenética em uma célula eucariótica, o método compreendendo a introdução na célula eucariótica: (a) pelo menos uma proteína de fusão ou ácido nucleico que codifica pelo menos uma proteína de fusão, cada fusão proteína compreendendo uma proteína CRISPR ligada a pelo menos um domínio de proteína de interação com nucleossomo, em que a proteína CRISPR (i) tem atividade de nuclease ou nickase ou (ii) é modificada para não possuir toda a atividade de nuclease e está ligada a um domínio de não nuclease; e (b) pelo menos um RNA guia ou ácido nucleico que codifica pelo menos um RNA guia; em que a proteína CRISPR da pelo menos uma proteína de fusão é direcionada a uma sequência cromossômica alvo e o pelo menos um domínio de proteína de interação com nucleossomo da pelo menos uma proteína de fusão altera a estrutura nucleossômica ou cromatina, de modo que a pelo menos uma proteína de fusão tenha acesso aumentado à sequência cromossômica alvo, aumentando assim a eficiência do genoma direcionado ou modificação epigenética.

[157] 38. O método da modalidade 37, em que a proteína CRISPR é uma proteína CRISPR/Cas9 tipo II ou uma proteína CRISPR/Cpf1 tipo V.

[158] 39. O método das modalidades 37 ou 38, em que o domínio não nuclease tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressão transcricional.

[159] 40. O método, de acordo com qualquer uma das modalidades 37 a 39, caracterizado pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo é um domínio de ligação ao DNA de box do grupo de alta mobilidade (HMG) (HMG) (HMGB), uma proteína de ligação ao nucleossomo (HMGN) de HMG, um domínio globular central a partir de uma variante de histona H1, um domínio de ligação ao DNA a partir de uma proteína do complexo de remodelação de cromatina ou uma combinação dos mesmos.

[160] 41. O método de qualquer uma das modalidades 37 a 40, em que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína CRISPR diretamente por meio de uma ligação química, indiretamente por meio de um ligante ou uma combinação dos mesmos.

[161] 42. O método de qualquer uma das modalidades 37 a 41, em que o pelo menos um domínio de proteína de interação com nucleossomo está ligado ao terminal N, terminal C e/ou a um local interno da proteína CRISPR.

[162] 43. O método de qualquer uma das modalidades 37 a 42, em que a pelo menos uma proteína de fusão adicionalmente compreende pelo menos um sinal de localização nuclear, pelo menos um domínio de penetração de células, pelo menos um domínio de marcador ou uma combinação dos mesmos.

[163] 44. O método de qualquer uma das modalidades 37 a 43, em que o ácido nucleico que codifica a pelo menos uma proteína de fusão é códon otimizado para tradução na célula eucariótica.

[164] 45. O método de qualquer uma das modalidades 37 a 44, em que o ácido nucleico que codifica a pelo menos uma proteína de fusão faz parte de um vetor viral, um vetor plasmídeo ou um RNA autorreplicante.

[165] 46. O método de qualquer uma das modalidades 37 a 45, e em que o método adicionalmente compreende a introdução na célula eucariótica de pelo menos um polinucleotídeo doador, o polinucleotídeo doador compreendendo pelo menos uma sequência doadora.

[166] 47. O método de qualquer uma das modalidades 37 a 46, em que a célula eucariótica é in vitro.

[167] 48. O método de qualquer uma das modalidades 37 a 46, em que a célula eucariótica é in vivo.

[168] 49. O método de qualquer uma das modalidades 37 a 48, em que a célula eucariótica é uma célula de mamífero.

[169] 50. O método de qualquer uma das modalidades 37 a 48, em que a célula eucariótica é uma célula humana.

DEFINIÇÕES

[170] A menos que definido de outra forma, todos os termos técnicos e científicos aqui utilizados têm o significado comumente entendido por um especialista na técnica ao qual esta invenção pertence. As seguintes referências fornecem aos especialistas uma definição geral de muitos dos termos usados nesta invenção: Singleton et al., Dictionary of Microbiology and Molecular Biology (2nd Ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5ª Ed., R. Rieger et al. (eds.), Springer Verlag (1991); e Hale e Marham, The Harper Collins Dictionary of Biology (1991). Conforme usado aqui, os seguintes termos têm os significados que lhes são atribuídos, a menos que especificado de outra forma.

[171] Ao introduzir elementos da presente descrição ou das modalidades preferidas da mesma, os artigos "a", "o", "um", "uma" e "referido(a)" pretendem significar que há um ou mais dos elementos. Os termos "compreendendo", "incluindo" e "tendo" pretendem ser inclusivos e significam que pode haver outros elementos além dos listados.

[172] O termo "cerca de" quando usado em relação a um valor numérico, x, por exemplo, significa x ± 5%.

[173] Como usado aqui, os termos "complementar" ou "complementaridade" se referem à associação de ácidos nucleicos de filamento duplo por emparelhamento de bases através de ligações de hidrogênio específicas. O emparelhamento de base pode ser o pareamento de base padrão do Watson-Crick (por exemplo, pares 5'-A G T C-3’ com a sequência complementar 3'-T C A G-5'). O emparelhamento de bases também pode ser Hoogsteen ou ligação de hidrogênio Hoogsteen invertida. A complementaridade é normalmente medida em relação a uma região dúplex e, portanto, exclui saliências, por exemplo. A complementaridade entre duas vertentes da região dúplex pode ser parcial e expressa como uma porcentagem (por exemplo, 70%), se apenas algumas (por exemplo, 70%) das bases forem complementares. As bases que não são complementares são "incompatíveis". A complementaridade também pode ser completa (ou seja, 100%), se todas as bases na região dúplex forem complementares.

[174] Como aqui utilizado, o termo "sistema CRISPR" refere-se a um complexo compreendendo uma proteína CRISPR (isto é, nuclease, nickase ou proteína cataliticamente morta) e um RNA guia.

[175] O termo "sequência endógena", como usado aqui, refere-se a uma sequência cromossômica que é nativa da célula.

[176] Como usado aqui, o termo "exógeno" refere-se a uma sequência que não é nativa da célula ou uma sequência cromossômica cuja localização nativa no genoma da célula está em um local cromossômico diferente.

[177] Um "gene", como usado aqui, refere-se a uma região de DNA (incluindo éxons e íntrons) que codifica um produto genético, bem como a todas as regiões de DNA que regulam a produção do produto gênico, quer essas sequências reguladoras sejam adjacentes ou não às sequências codificadoras e/ou transcritas. Por conseguinte, um gene inclui, mas não está limitado a, sequências promotoras, terminadores, sequências reguladoras de tradução, como sítios de ligação ao ribossomo e sítios de entrada interna do ribossomo, melhoradores, silenciadores, isoladores, elementos de contorno, origens de replicação, sítios de inserção de matrizes e regiões de controle de locus.

[178] O termo "heterólogo" refere-se a uma entidade que não é endógena ou nativa da célula de interesse. Por exemplo, uma proteína heteróloga refere-se a uma proteína que é derivada de ou foi originalmente derivada de uma fonte exógena, como uma sequência de ácido nucleico introduzida exogenamente. Em alguns casos, a proteína heteróloga não é normalmente produzida pela célula de interesse.

[179] O termo "nickase" refere-se a uma enzima que quebra uma cadeia de uma sequência de ácido nucleico de filamento duplo (isto é, corta uma sequência de filamento duplo). Por exemplo, uma nuclease com atividade de clivagem de filamento duplo pode ser modificada por mutação e/ou exclusão para funcionar como uma nickase e clivar apenas uma cadeia de uma sequência de filamento duplo.

[180] O termo "nuclease", como aqui utilizado, refere-se a uma enzima que cliva ambas as cadeias de uma sequência de ácido nucleico de filamento duplo.

[181] Os termos "ácido nucleico" e "polinucleotídeo" se referem a um polímero desoxirribonucleotídeo ou ribonucleotídeo, em conformação linear ou circular e na forma de filamento simples ou duplo. Para os fins da presente descrição, esses termos não devem ser interpretados como limitativos em relação ao comprimento de um polímero. Os termos podem abranger análogos conhecidos de nucleotídeos naturais, bem como nucleotídeos que são modificados nas porções base, açúcar e/ou fosfato (por exemplo, esqueletos de fosforotioato). Em geral, um análogo de um nucleotídeo específico tem a mesma especificidade de emparelhamento de bases; isto é, um análogo de A irá emparelhar com T.

[182] O termo "nucleotídeo" refere-se a desoxirribonucleotídeos ou ribonucleotídeos. Os nucleotídeos podem ser nucleotídeos padrão (isto é, adenosina, guanosina, citidina, timidina e uridina), isômeros de nucleotídeos ou análogos de nucleotídeos. Um análogo de nucleotídeo refere-se a um nucleotídeo que possui uma base de purina ou pirimidina modificada ou uma porção de ribose modificada. Um análogo de nucleotídeo pode ser um nucleotídeo de ocorrência natural (por exemplo, inosina, pseudouridina, etc.) ou um nucleotídeo de ocorrência não natural. Exemplos não limitativos de modificações nas porções de açúcar ou de base de um nucleotídeo incluem a adição (ou remoção) de grupos acetila, grupos amino, grupos carboxila, grupos carboximetila, grupos hidroxila, grupos metila, grupos fosforila e grupos tiol, também como a substituição dos átomos de carbono e nitrogênio das bases por outros átomos (por exemplo, 7-deaza purinas). Análogos de nucleotídeos também incluem nucleotídeos didesóxi, nucleotídeos de 2’-O-metila, ácidos nucleicos bloqueados (LNA), ácidos nucleicos peptídicos (PNA) e morfolinos.

[183] Os termos "polipeptídeo" e "proteína" são usados de forma intercambiável para se referir a um polímero de resíduos de aminoácidos.

[184] Como usado aqui, o termo "proteína de modificação de DNA programável" refere-se a uma proteína que é projetada para ligar uma sequência-alvo específica em ou próximo à sequência-alvo.

[185] O termo "identidade de sequência", como aqui utilizado, indica uma medida quantitativa do grau de identidade entre duas sequências de comprimento substancialmente igual. A identidade percentual de duas sequências, sejam sequências de ácidos nucleicos ou aminoácidos, é o número de correspondências exatas entre duas sequências alinhadas, divididas pelo comprimento da sequência mais curta e multiplicadas por 100. Um alinhamento aproximado para sequências de ácidos nucleicos é fornecido pelo algoritmo de homologia local de Smith e Waterman, Advances in Applied Mathematics 2: 482- 489 (1981). Este algoritmo pode ser aplicado a sequências de aminoácidos utilizando a matriz de pontuação desenvolvida por Dayhoff, Atlas of Protein Sequences and Structure, M. O. Dayhoff ed., 5 suppl. 3: 353-358, National Biomedical Research Foundation, Washington, DC, EUA, e normalizado por Gribskov, Nucl. Acids Res. 14 (6): 6745-6763

(1986). Uma implementação exemplar desse algoritmo para determinar a porcentagem de identidade de uma sequência é fornecida pelo Genetics Computer Group (Madison, Wis.) No aplicativo utilitário "BestFit". Outros programas adequados para calcular a porcentagem de identidade ou similaridade entre sequências são geralmente conhecidos na técnica, por exemplo, outro programa de alinhamento é o BLAST, usado com parâmetros padrão. Por exemplo, BLASTN e BLASTP podem ser usados usando os seguintes parâmetros padrão: código genético = padrão; filtro = nenhum; vertente = ambos; ponto de corte = 60; esperar = 10; Matriz = BLOSUM62; Descrições = 50 sequências; classificar por = ALTA PONTUAÇÃO; Bancos de dados = não redundantes, traduções GenBank + EMBL + DDBJ + PDB + GenBank CDS + proteína Swiss + Spupdate + PIR. Detalhes desses programas podem ser encontrados no site GenBank. Em geral, as substituições são substituições conservadoras de aminoácidos: limitadas a trocas dentro dos membros do grupo 1: glicina, alanina, valina, leucina e isoleucina; grupo 2: serina, cisteína, treonina e metionina; grupo 3: prolina; grupo 4: fenilalanina, tirosina e triptofano; grupo 5: aspartato, glutamato, asparagina e glutamina.

[186] Os termos "sequência alvo", "sequência cromossômica alvo" e "sítio-alvo" são usados de forma intercambiável para se referir à sequência específica no DNA cromossômico à qual a proteína programável de modificação do DNA é direcionada e ao local no qual a programável A proteína de modificação do DNA modifica o DNA ou as proteínas associadas ao DNA.

[187] Técnicas para determinar a identidade da sequência de ácidos nucleicos e aminoácidos são conhecidas na técnica. Tipicamente, essas técnicas incluem a determinação da sequência nucleotídica do mRNA para um gene e/ou a determinação da sequência de aminoácidos codificada assim, e a comparação dessas sequências com uma segunda sequência de nucleotídeo ou aminoácido. Sequências genômicas também podem ser determinadas e comparadas dessa maneira.

[188] Em geral, identidade refere-se a uma correspondência exata de nucleotídeo para nucleotídeo ou de aminoácido para aminoácido de dois polinucleotídeos ou sequências de polipeptídeos, respectivamente. Duas ou mais sequências (polinucleotídeo ou aminoácido) podem ser comparadas determinando sua identidade percentual.

[189] Como várias alterações podem ser feitas nas células e nos métodos descritos acima sem se afastar do escopo da invenção, pretende-se que toda a matéria contida na descrição acima e nos exemplos dados abaixo seja interpretada como ilustrativa e não em um sentido limitante.

EXEMPLOS

[190] Os exemplos a seguir ilustram certos aspectos da descrição. A Tabela 1 lista as sequências peptídicas dos domínios que interagem com os nucleossomos e a Tabela 2 apresenta as sequências cromossômicas alvo usadas nos Exemplos 1-8 apresentados abaixo. Tabela 1. Sequência de Peptídeo de Domínios Interagindo com Nucleosomo Domínio Sequência (NH2-COOH) SEQ Interagindo ID com NO: Nucleossomo Domino Box A MGKGDPKKPRGKMSSYAFFVQTCREEHKKKHPDASV 40 de HMGB1 (1- NFSEFSKKCSERWKTMSAKEKGKFEDMAKADKARYE 84 aa) REMKTYIPPKGE Proteína MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPK 41 HMGN1 KAAAKDKSSDKKVQTKGKRGAKGKQAEVANQETKED humana LPAENGETKTEESPASDEAGEKEAKSD Proteína MPKRKAEGDAKGDKAKVKDEPQRRSARLSAKPAPPK 42 HMGN2 PEPKPKKAPAKKGEKVPKGKKGKADAGKEGNNPAEN humana GDAKTDQAQKAEGAGDAK Proteína MPKRKSPENTEGKDGSKVTKQEPTRRSARLSAKPAPP 43 HMGN3a KPEPKPRKTSAKKEPGAKISRGAKGKKEEKQEAGKEG humana TAPSENGETKAEEAQKTESVDNEGE

Proteína MPKRKSPENTEGKDGSKVTKQEPTRRSARLSAKPAPP 44 HMGN3b KPEPKPRKTSAKKEPGAKISRGAKGKKEEKQEAGKEG humana TEN Domínio STDHPKYSDMIVAAIQAEKNRAGSSRQSIQKYIKSHYK 45 globular central VGENADSQIKLSIKRLVTTGVLKQTKGVGASGSFRLAK de Histona SDEP Human H1 (22-101 aa) Domínio de LLNPTKRERKENYSIDNYYKDVLNTGRSSTPSHPRMP 46 ligação de DNA KPHVFHSHQLQPPQLKVLYEKERMWTAKKTGYVPTM ATPase ISW1 DDVKAAYGDISDEEEKKQKLELLKLSVNNSQPLTEEEE do complexo de KMKADWESEGFTNWNKLEFRKFITVSGKYGRNSIQAIA remodelação de RELAPGKTLEEVRAYAKAFWSNIERIEDYEKYLKIIENE cromatina ISWI EEKIKRVKMQQEALRRKLSEYKNPFFDLKLKHPPSSNN de levedura KRTYSEEEDRFILLMLFKYGLDRDDVYELVRDEIRDCP

LFELDFYFRSRTPVELARRGNTLLQCLEKEFNAGIVLD DATKDRMKKEDENGKRIREEFADQTANEKENVDGVES

KKAKIEDTSNVGTEQLVAEKIPENETTH Proteína 1 DMDSIGESEVRALYKAILKFGNLKEILDELIADGTLPVKS 47 domínio de FEKYGETYDEMMEAAKDCVHEEEKNRKEILEKLEKHA ligação de DNA TAYRAKLKSGEIKAENQPKDNPLTRLSLKKREKKAVLF (CHD1) NFKGVKSLNAESLLSRVEDLKYLKNLINSNYKDDPLKF contendo SLGNNTPKPVQNWSSNWTKEEDEKLLIGVFKYGYGS domínio cromo WTQIRDDPFLGITDKIFLNEVHNPVAKKSASSSDTTPTP de levedura SKKGKGITGSSKKVPGAIHLGRRVDYLLSFLRGGLNTK

SPS Tabela 2. Sítios-alvo Cromossomais Locus Sítio Sequência (5’-3’) SEQ ID NO: Streptococcus pyogenes Cas9 (SpCas9) POR #1 AGCCGTGAGTGGAGGGAGCGTGG 48 POR #2 AGAGGGAGGGGTTGGACTACAGG 49 POR #3 CATTCGCCAGTACGAGCTTGTGG 50 CAR #1 CTTTAATGCGCTGACTTGTGAGG 51 EMX1 #1 GTGGCGCATTGCCACGAAGCAGG 52 EMX1 #2 TTCTTCTTCTGCTCGGACTCAGG 53 Streptococcus pasteurianus Cas9 (SpaCas9) POR #1 TGCTGGAAAGGGGAGACCAAGGGTGA 54 POR #2 AGAGCTACGAGAACCAGAAGCCGTGA 55 Francisella novicida Cpf1 (FnCpf1) POR #1 TTCCCGGCCTCACCCTTGGTCTCCCC 56

POR #2 TTGGTCTCCCCTTTCCAGCATTCGCC 57 POR #3 TTCCAGCATTCGCCAGTACGAGCTTG 58 Campylobacter jejuni Cas9 (CjCas9) POR #1 GATCAACATGGGAGACTCCCACGTGGACAC 59 POR #2 AGATACTTCTTCGGCCACCGCCTCGGACAC 60 Exemplo 1. Melhoria da atividade de Streptococcus pyogenes Cas9 (SpCas9) usando o domínio de box A de HMGB1 humana

[191] Um domínio HMGB1 de box A humana (SEQ ID NO: 40) foi fundido com SpCas9 (+NLS) no terminal carboxila nuclease com o ligante LEGGGS (SEQ ID NO: 1) entre Cas9 e o domínio de box A de HMGB1. As células K562 humanas (1 x 106) foram transfectadas com o DNA de plasmídeo que codifica a proteína de fusão ou a proteína SpCas9 de tipo selvagem em quantidades de equivalente molar (5,2 e 5,0 µg para a proteína de fusão e a proteína Cas9 de tipo selvagem, respectivamente) em combinação com 3 µg de um plasmídeo sgRNA para direcionar um sítio genômico (# 1) no locus oxidoredutase do citocromo p450 humano (POR). A transfecção foi realizada usando nucleofecção em um nucleofector Amaxi. Três dias após a transfecção, as células foram lisadas com uma solução de extração de DNA (QuickExtract™) e a região genômica alvo foi amplificada por PCR. As atividades de clivagem alvo da Cas9 nuclease (% indels) foram medidas usando ensaios Cel-I. Como mostrado na Tabela 3, a fusão do domínio de box A de HMGB1 humana com a nuclease aumentou a eficiência da clivagem SpCas9 no sítio-alvo. Tabela 3. Eficiência de Clivagem Nuclease Sítio-alvo Indel (%) SpCas9 de tipo selvagem POR/sítio #1 8,5 Fusão SpCas9- box A de HMGB1 POR/sítio #1 21,3 Exemplo 2. Melhoria de atividade de Streptococcus pyogenes Cas9 (SpCas9) usando HMGN1, HMGN2, HMGN3a e HMGN3b

[192] HMGN1 humano, HMGN2, HMGN3a e HMGN3b (SEQ ID

NOS: 41-44, respectivamente) foram fundidos com SpCas9 (+NLS) no terminal carboxil nuclease com o ligante LEGGGS (SEQ ID NO: 1) entre Cas9 e cada um dos peptídeos HMGN. As células K562 humanas (1 x 106) foram transfectadas com o DNA de plasmídeo que codifica cada uma das proteínas de fusão ou a proteína SpCas9 de tipo selvagem em quantidades de equivalente molar (5,2 e 5,0 µg para cada uma das proteínas de fusão e a proteína Cas9 de tipo selvagem, respectivamente) em combinação com 3 µg de um plasmídeo sgRNA para atingir um sítio genômico (# 1) no locus oxidorredutase do citocromo p450 humano (POR). A transfecção foi realizada usando nucleofecção em um nucleofector Amaxi. Três dias após a transfecção, as células foram lisadas com uma solução de extração de DNA (QuickExtract™) e a região genômica alvo foi amplificada por PCR. As atividades de clivagem alvo de Cas9 (% indels) foram medidas usando ensaios Cel-I. Os resultados, como resumido na Tabela 4, mostram que a fusão de cada um dos peptídeos HMGN humanos com a nuclease aumentou a eficiência da clivagem SpCas9 no sítio-alvo. Tabela 4. Eficiência de Clivagem Nuclease Sítio-alvo Indel (%) SpCas9 de tipo selvagem POR/sítio #1 8,5 Fusão SpCas9-HMGN1 POR/sítio #1 18,3 Fusão SpCas9-HMGN2 POR/sítio #1 13,3 Fusão SpCas9-HMGN3a POR/sítio #1 13,5 Fusão SpCas9-HMGN3b POR/sítio #1 14,4 Exemplo 3. Melhoria de atividade de Streptococcus pyogenes Cas9 (SpCas9) usando o domínio globular central da histona H1 humana

[193] Um domínio globular central de histona H1 humana (SEQ ID NO: 45) foi fundido com SpCas9 (+NLS) no terminal carboxil nuclease com o ligante LEGGGS (SEQ ID NO: 1) entre Cas9 e o domínio globular. As células K562 humanas (1 x 106) foram transfectadas com o DNA de plasmídeo que codifica a proteína de fusão ou a proteína SpCas9 de tipo selvagem em quantidades de equivalente molar (5,2 e 5,0 µg para a proteína de fusão e a proteína Cas9 de tipo selvagem, respectivamente) em combinação com 3 µg de um plasmídeo sgRNA para direcionar um sítio genômico (# 1) no locus oxidoredutase do citocromo p450 humano (POR). A transfecção foi realizada usando nucleofecção em um nucleofector Amaxi. Três dias após a transfecção, as células foram lisadas com uma solução de extração de DNA (QuickExtract™) e a região genômica alvo foi amplificada por PCR. As atividades de clivagem alvo Cas9 (% indels) foram medidas usando ensaios Cel-I. Os resultados são apresentados na Tabela 5. A fusão do domínio globular central de histona H1 humana com a nuclease aumentou a eficiência da clivagem SpCas9 no sítio-alvo. Table 5. Eficiência de Clivagem Nuclease Target Site Indel (%) SpCas9 de tipo selvagem POR/sítio #1 8,5 Fusão de domínio globular central de POR/sítio #1 19,4 SpCas9-H1 Exemplo 4. Melhoria da atividade de Streptococcus pyogenes Cas9 (SpCas9) usando um domínio de ligação ao DNA da proteína de remodelação de cromatina

[194] SpCas9 (+NLS) foi fundido com o domínio de ligação ao DNA do complexo ATPase ISW1 de remodelação de cromatina de levedura (SEQ ID NO: 46) no terminal amino nuclease com o ligante TGSG (SEQ ID NO: 2) entre Cas9 e o domínio de ligação ao DNA. Independentemente, o SpCas9 do tipo selvagem foi fundido com o domínio de ligação ao DNA da proteína 1 que contém o domínio de cromo de levedura (CHD1) (SEQ ID NO: 47) no terminal carboxil nuclease com o ligante LEGGGS (SEQ ID NO: 1) entre o Cas9 e o domínio de ligação ao DNA. As células K562 humanas (1 x 106) foram transfectadas com o DNA de plasmídeo que codifica cada uma das proteínas de fusão ou a proteína SpCas9 de tipo selvagem em quantidades de equivalente molar (6,0 e 5,0 µg para cada uma das proteínas de fusão e a proteína Cas9 de tipo selvagem, respectivamente) em combinação com 3 µg de um plasmídeo sgRNA para atingir um sítio genômico (# 1) no locus oxidoredutase do citocromo p450 humano (POR). A transfecção foi realizada usando nucleofecção em um nucleofector Amaxi. Três dias após a transfecção, as células foram lisadas com uma solução de extração de DNA (QuickExtract™) e a região genômica alvo foi amplificada por PCR. As atividades de clivagem-alvo Cas9 (% indels) foram medidas usando ensaios Cel-I. Os resultados, como resumido na Tabela 6, mostram que a fusão de cada um dos domínios de ligação ao DNA com a nuclease aumentou a eficiência da clivagem de SpCas9 no sítio-alvo. Table 6. Eifciência de Clivagem Nuclease Sítio-alvo Indel (%) SpCas9 de tipo selvagem POR/sítio #1 8,5 Fusão de domínio de ligação de DNA POR/sítio #1 21,1 ISW1-SpCas9 Fusão de domínio de ligação de DNA POR/sítio #1 20,8 CHD1-SpCas9 Exemplo 5. Melhoria da atividade de Streptococcus pyogenes Cas9 (SpCas9) usando combinações de domínios de interação de nucleossomos

[195] SpCas9 (+NLS) foi fundido com o HMGN1 humano (SEQ ID N: 41) no terminal amino nuclease com o ligante TGSG (SEQ ID NO: 2) entre Cas9 e HMGN1 e com o domínio de box A de HMGB1 humano (SEQ ID NO: 40) ou o domínio globular central de histona H1 humana (SEQ ID NO: 45) ou o domínio de ligação ao DNA da proteína 1 (CHD1) que contém o domínio cromo de levedura (SEQ ID NO: 47) no terminal carboxil nuclease com o ligante LEGGGS (SEQ ID NO: 1) entre Cas9 e cada um dos domínios de proteína. As células K562 humanas (1 x 106) foram transfectadas com o DNA de plasmídeo que codifica cada uma das proteínas de fusão ou a proteína SpCas9 de tipo selvagem em quantidades de equivalente molar (5,4 µg para as proteínas Box A de HMGB1 e de fusão do domínio globular central e H1, 6,0 µg para a proteína de fusão do domínio de ligação ao DNA de CHD1 e 5,0 µg para a proteína Cas9 de tipo selvagem) em combinação com 3 µg de um plasmídeo sgRNA para direcionar um sítio genômico (#1, #2, #3) no locus oxidorredutase do citocromo humano p450 (POR), ou um sítio genômico (#1) no locus do membro 3 do grupo I (CAR) da subfamília 1 do receptor nuclear humano, ou um sítio genômico (# 1, # 2) no locus da homeobox 1 (EMX1) de espiráculos vazios humana.

A transfecção foi realizada usando nucleofecção em um nucleofector Amaxi.

Cinco dias após a transfecção, as células foram lisadas com uma solução de extração de DNA (QuickExtract™) e cada região genômica alvo foi amplificada por PCR.

As atividades de clivagem alvo Cas9 (% indels) foram medidas usando ensaios Cel-I.

Os resultados, como resumido na Tabela 7, mostram que a fusão combinatória desses domínios de proteína com a nuclease aumentou a eficiência da clivagem de SpCas9 nos sítios-alvo.

Tabela 7. Eficiência de Clivagem Nuclease Sítio-alvo Indel (%) SpCas9 de tipo selvagem POR/sítio #1 3,4 POR/sítio #2 1,3 POR/sítio #3 22,2 CAR/sítio #1 2,1 EMX1/sítio #1 2,2 EMX1/sítio #2 1,1 Fusão HMGN1-SpCas9- box A de HMGB1 POR/sítio #1 28,2 POR/sítio #2 8,3 POR/sítio #3 42,7 CAR/sítio #1 14,3 EMX1/sítio #1 29,0 EMX1/sítio #2 12,1 Fusão HMGN1-SpCas9- domínio globular POR/sítio #1 24,3 central H1 POR/sítio #2 6,5 POR/sítio #3 44,2 CAR/sítio #1 23,9 EMX1/sítio #1 26,9 EMX1/sítio #2 21,0 Fusão HMGN1-SpCas9- domínio de ligação POR/sítio #1 21,5 ao DNA de CHD1 POR/sítio #2 3,6 POR/sítio #3 39,8 CAR/sítio #1 9,0 EMX1/sítio #1 23,5 EMX1/sítio #2 20,2 Exemplo 6. Melhoria da atividade de Streptococcus pasteurianus Cas9 (SpaCas9) usando combinações de domínios de interação de nucleossomos

[196] Streptococcus pasteurianus Cas9 (SpaCas9) (+NLS) foi fundido com o HMGN1 humano (SEQ ID NO: 41) no terminal amino nuclease com o ligante TGSG (SEQ ID NO: 2) entre Cas9 e HMGN1 e com o domínio de box A de HMGB1 humano (SEQ ID NO: 41) ou o domínio globular central da histona H1 humana (SEQ ID NO: 45) ou o domínio de ligação ao DNA da proteína 1 (CHD1) que contém o domínio cromo de levedura (SEQ ID NO: 47) no terminal carboxil nuclease com o ligante LEGGGS (SEQ ID NO: 1) entre Cas9 e cada um dos domínios de proteína. As células K562 humanas (1 x 106) foram transfectadas com o DNA de plasmídeo que codifica cada uma das proteínas de fusão ou a proteína SpaCas9 do tipo selvagem em quantidades de equivalente molar (5,4 e 5,0 µg para cada uma das proteínas de fusão e a proteína Cas9 do tipo selvagem, respectivamente) em combinação com 3 µg de um plasma sgRNA meio para direcionar um sítio genômico (# 1, # 2) no locus oxidorredutase do citocromo humano p450 (POR). A transfecção foi realizada usando nucleofecção em um nucleofector Amaxi. Três dias após a transfecção, as células foram lisadas com uma solução de extração de DNA (QuickExtract™) e a região genômica alvo foi amplificada por PCR. As atividades de clivagem alvo Cas9 (% indels) foram medidas usando ensaios Cel-I. Como resumido na Tabela 8, a fusão combinatória desses domínios de proteína com a nuclease aumentou a eficiência da clivagem SpaCas9 nos sítios-alvo. tabela 8. Eficiência de Clivagem Nuclease Target Site Indel (%) SpaCas9 de tipo selvagem POR/sítio #1 16,6 POR/sítio #2 12,9 Fusão de HMGN1-SpaCas9- box A de POR/sítio #1 20,6 HMGB1 POR/sítio #2 35,8 fusão de HMGN1-SpaCas9- domínio globular POR/sítio #1 28,6 central H1 POR/sítio #2 31,7 Fusão HMGN1-SpCas9- domínio de ligação POR/sítio #1 19,4 ao DNA de CHD1 POR/sítio #2 18,5 Exemplo 7. Melhoria da atividade de Francisella novicida Cpf1 (FnCpf1) usando combinações de domínios de interação de nucleossomos

[197] Francisella novicida Cpf1 (FnCpf1) (+NLS) foi fundida com o HMGN1 humano (SEQ ID NO: 41) no terminal amino nuclease com o ligante TGSG (SEQ ID NO: 2) entre Cpf1 e HMGN1 e com o domínio de box A de HMGB1 humano (SEQ ID NO: 40) ou o domínio globular central da histona H1 humana (SEQ ID NO: 45) ou o domínio de ligação ao DNA da proteína 1 (CHD1) que contém o domínio cromo de levedura (SEQ ID NO: 47) no terminal carboxil nuclease com o ligante LEGGGS (SEQ ID NO: 1) entre Cpf1 e cada um dos domínios de proteína. As células K562 humanas (1 x 106) foram transfectadas com o DNA de plasmídeo que codifica cada uma das proteínas de fusão ou a proteína FnCpf1 do tipo selvagem em quantidades de equivalente molar (5,4 e 5,0 µg para cada uma das proteínas de fusão e a proteína Cas9 do tipo selvagem, respectivamente) em combinação com 3 µg de um plasmídeo sgRNA para atingir um sítio genômico (# 1, # 2, # 3) no locus oxidorredutase do citocromo p450 humano (POR). A transfecção foi realizada usando nucleofecção em um nucleofector Amaxi. Três dias após a transfecção, as células foram lisadas com uma solução de extração de DNA (QuickExtract™) e a região genômica alvo foi amplificada por PCR. As atividades de clivagem alvo Cas9 (% indels) foram medidas usando ensaios Cel-I. Os resultados, como resumido na Tabela 9, mostram que a fusão combinatória desses domínios de proteína com a nuclease aumentou a eficiência da clivagem de FnCpf1 nos sítios-alvo. Tabela 9. Eficiência de Clivagem Nuclease Sítio-alvo Indel (%) FnCpf1 de tipo selvagem POR/sítio #1 2,3 POR/sítio #2 5,3 POR/sítio #3 3,0 Fusão HMGN1-FnCpf1-box A de HMGB1 POR/sítio #1 8,2 POR/sítio #2 12,8 POR/sítio #3 13,2 Fusão HMGN1-FnCpf1-domínio globular POR/sítio #1 8,7 central H1 POR/sítio #2 12,9 POR/sítio #3 13,2 Fusão HMGN1-FnCpf1-domínio de ligação POR/sítio #1 7,7 ao DNA de CHD1 POR/sítio #2 7,5 POR/sítio #3 9,4 Exemplo 8. Melhoria da eficiência de edição de genes de Campylobacter jejuni Cas9 (CjCas9)

[198] Campylobacter jejuni Cas9 (CjCas9) (+NLS) foi fundido com o HMGN1 humano (SEQ ID NO: 41) no terminal amino nuclease com o ligante TGSG (SEQ ID NO: 2) entre Cas9 e HMGN1 e com o domínio de box A de HMGB1 humano (SEQ ID NO: 40) ou o domínio globular central da histona H1 humana (SEQ ID NO: 45) no terminal carboxil nuclease com o ligante LEGGGS (SEQ ID NO: 1) entre Cas9 e cada um dos domínios de proteína. O gRNA de CjCas9 de tipo selvagem foi modificado pela introdução de uma mutação U para C na região de repetição constante do crRNA e uma mutação correspondente de A para G na região 5’ da sequência de tracrRNA. A sequência de sgRNA modificada é: 5'-

NNNNNNNNNNNNNNNNNNNNNGUUCUAGUCCCUGAAAAGGGAC

UAGAAUAAAGAGUUUGCGGACACUCUGCGGGGUUACAAUCCCC UAAAACCGRUUU-3’. As sequências guia direcionadas a dois sítios diferentes (# 1, # 2) no gene oxidoredutase do citocromo p450 humano (POR) foram clonadas CjCas9 de tipo selvagem e arcabouço de sgRNA modificado, respectivamente. A expressão dos sgRNAs estava sob o controle de um promotor U6. As células K562 humanas (1x106) foram transfectadas com 4 µg de DNA de plasmídeo CjCas9 e 3 µg de um DNA de plasmídeo sgRNA. A transfecção foi realizada usando nucleofecção em um nucleofector Amaxi. Três dias após a transfecção, as células foram lisadas com QuickExtract e as regiões genômicas alvo foram amplificadas por PCR. As atividades de clivagem de DNA alvo de CjCas9 (% indels) foram medidas usando ensaios de Cel-I. Os resultados são apresentados na FIG. 1 e mostram que as proteínas de fusão aumentaram a eficiência de clivagem nos sítios-alvo e que o arcabouço de sgRNA de CjCas9 aumentou efetivamente a eficiência de clivagem de CjCas9 nos sítios-alvo.

[199] A Tabela 10 apresenta as sequências de aminoácidos das proteínas de fusão específicas. Os domínios das proteínas que interagem com os nucleossomos são mostrados em negrito, os ligantes são mostrados em itálico e o NLS é sublinhado. Tabela 10. Proteínas de fusão CRISPR Fusão SpCas9- box A de HMGB1 (SEQ ID NO:61)

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSG ETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDK KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGH FLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLE NLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLL AQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLV KLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKN LPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTN RKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEEN EDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLIN GIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEH IANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRER MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNA KLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYD ENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGE IRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESIL PKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLG ITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQK GNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRK RYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSMGKGDP KKPRGKMSSYAFFVQTCREEHKKKHPDASVNFSEFSKKCSERWKTMSAKEK

GKFEDMAKADKARYEREMKTYIPPKGE Fusão SpCas9-HMGN1 (SEQ ID NO:62)

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSG ETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDK KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGH FLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLE NLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLL AQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLV KLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKN LPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTN RKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEEN EDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLIN GIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEH IANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRER MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNA KLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYD ENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGE IRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESIL PKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLG ITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQK GNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRK RYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSMPKRKVS SAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQTKGKRGA

KGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSD Fusão SpCas9-HMGN2 (SEQ ID NO:63)

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSG ETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDK KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGH FLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLE NLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLL AQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLV KLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKN LPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTN RKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEEN EDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLIN GIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEH IANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRER MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNA KLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYD ENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGE IRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESIL PKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLG ITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQK GNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRK RYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSMPKRKA EGDAKGDKAKVKDEPQRRSARLSAKPAPPKPEPKPKKAPAKKGEKVPKGKK

GKADAGKEGNNPAENGDAKTDQAQKAEGAGDAK Fusão SpCas9-HMGN3a (SEQ ID NO:64)

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSG ETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDK KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGH FLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLE NLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLL AQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLV KLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKN LPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTN RKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEEN EDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLIN GIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEH IANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRER MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNA KLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYD ENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGE IRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESIL PKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLG ITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQK GNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRK RYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSMPKRKSP ENTEGKDGSKVTKQEPTRRSARLSAKPAPPKPEPKPRKTSAKKEPGAKISRG

AKGKKEEKQEAGKEGTAPSENGETKAEEAQKTESVDNEGE Fusão SpCas9-HMGN3b (SEQ ID NO:65)

AKGKKEEKQEAGKEGTEN Fusão SpCas9-Histona H1 globular (SEQ ID NO:66)

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSG ETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDK KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGH FLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLE NLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLL AQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLV KLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKN LPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTN RKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEEN EDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLIN GIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEH IANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRER MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNA KLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYD ENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGE IRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESIL PKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLG ITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQK GNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRK RYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSSTDHPKY SDMIVAAIQAEKNRAGSSRQSIQKYIKSHYKVGENADSQIKLSIKRLVTTGVLKQ

TKGVGASGSFRLAKSDEP Fusão ISWI-SpCas9 (SEQ ID NO:67)

LLNPTKRERKENYSIDNYYKDVLNTGRSSTPSHPRMPKPHVFHSHQLQPPQLK VLYEKERMWTAKKTGYVPTMDDVKAAYGDISDEEEKKQKLELLKLSVNNSQP LTEEEEKMKADWESEGFTNWNKLEFRKFITVSGKYGRNSIQAIARELAPGKTL EEVRAYAKAFWSNIERIEDYEKYLKIIENEEEKIKRVKMQQEALRRKLSEYKNPF FDLKLKHPPSSNNKRTYSEEEDRFILLMLFKYGLDRDDVYELVRDEIRDCPLFE LDFYFRSRTPVELARRGNTLLQCLEKEFNAGIVLDDATKDRMKKEDENGKRIR EEFADQTANEKENVDGVESKKAKIEDTSNVGTEQLVAEKIPENETTHTGSGMD KKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGET AEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLI EGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLI AQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQ IGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKAL VRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKL NREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLP NEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRK VTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDI LEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIR DKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIAN LAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERMK RIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYD VDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLI TQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDEND KLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPK LESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRK RPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKR NSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGN ELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRV ILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYT

STKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKV Fusão SpCas9-CHD1 (SEQ ID NO:68)

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSG ETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDK KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGH FLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLE NLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLL AQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLV KLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKN LPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTN RKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEEN EDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLIN GIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEH IANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRER MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNA KLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYD ENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKK YPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGE IRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESIL PKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLG ITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQK GNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFS KRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRK RYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSDMDSIGE SEVRALYKAILKFGNLKEILDELIADGTLPVKSFEKYGETYDEMMEAAKDCVHE EEKNRKEILEKLEKHATAYRAKLKSGEIKAENQPKDNPLTRLSLKKREKKAVLF NFKGVKSLNAESLLSRVEDLKYLKNLINSNYKDDPLKFSLGNNTPKPVQNWSS NWTKEEDEKLLIGVFKYGYGSWTQIRDDPFLGITDKIFLNEVHNPVAKKSASSS

DTTPTPSKKGKGITGSSKKVPGAIHLGRRVDYLLSFLRGGLNTKSPS Fusão HMGN1-SpCas9-box A de HMGB1 (SEQ ID NO:69)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFD SGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEE DKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFR GHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRR LENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLD NLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLT LLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTF RIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKT NRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE NEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLI NGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHE HIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRE RMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLS DYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLN AKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKY DENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANG EIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESI LPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGEL QKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISE FSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTID RKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSGKGD PKKPRGKMSSYAFFVQTCREEHKKKHPDASVNFSEFSKKCSERWKTMSAKE

KGKFEDMAKADKARYEREMKTYIPPKGE Fusão HMGN1-SpCas9-Histona H1 globular (SEQ ID NO:70)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFD SGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEE DKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFR GHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRR LENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLD NLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLT LLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTF RIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKT NRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE NEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLI NGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHE HIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRE RMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLS DYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLN AKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKY DENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANG EIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESI LPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGEL QKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISE FSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTID RKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSSTDHP KYSDMIVAAIQAEKNRAGSSRQSIQKYIKSHYKVGENADSQIKLSIKRLVTTGVL

KQTKGVGASGSFRLAKSDEP Fusão HMGN1-SpCas9-CDH1 (SEQ ID NO:71)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFD SGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEE DKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFR GHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRR LENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLD NLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLT LLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTF RIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDK NLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKT NRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE NEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLI NGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHE HIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRE RMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLS DYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLN AKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKY DENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANG EIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESI LPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELL GITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGEL QKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISE FSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTID RKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDPKKKRKVLEGGGGSDMDSI GESEVRALYKAILKFGNLKEILDELIADGTLPVKSFEKYGETYDEMMEAAKDCV HEEEKNRKEILEKLEKHATAYRAKLKSGEIKAENQPKDNPLTRLSLKKREKKA VLFNFKGVKSLNAESLLSRVEDLKYLKNLINSNYKDDPLKFSLGNNTPKPVQN WSSNWTKEEDEKLLIGVFKYGYGSWTQIRDDPFLGITDKIFLNEVHNPVAKKSA

SSSDTTPTPSKKGKGITGSSKKVPGAIHLGRRVDYLLSFLRGGLNTKSPS Fusão HMGN1-SpaCas9-box A de HMGB1 (SEQ ID NO:72)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMTNGKILGLDIGIASVGVGIIEAKTGKVVHANSRLFSAANAENNAERRGFRGS RRLNRRKKHRVKRVRDLFEKYGIVTDFRNLNLNPYELRVKGLTEQLKNEELFAAL RTISKRRGISYLDDAEDDSTGSTDYAKSIDENRRLLKNKTPGQIQLERLEKYGQL RGNFTVYDENGEAHRLINVFSTSDYEKEARKILETQADYNKKITAEFIDDYVEILT QKRKYYHGPGNEKSRTDYGRFRTDGTTLENIFGILIGKCNFYPDEYRASKASYT AQEYNFLNDLNNLKVSTETGKLSTEQKESLVEFAKNTATLGPAKLLKEIAKILDCK VDEIKGYREDDKGKPDLHTFEPYRKLKFNLESINIDDLSREVIDKLADILTLNTERE GIEDAIKRNLPNQFTEEQISEIIKVRKSQSTAFNKGWHSFSAKLMNELIPELYATS DEQMTILTRLEKFKVNKKSSKNTKTIDEKEVTDEIYNPVVAKSVRQTIKIINAAVKK YGDFDKIVIEMPRDKNADDEKKFIDKRNKENKKEKDDALKRAAYLYNSSDKLPDE VFHGNKQLETKIRLWYQQGERCLYSGKPISIQELVHNSNNFEIDHILPLSLSFDDS LANKVLVYAWTNQEKGQKTPYQVIDSMDAAWSFREMKDYVLKQKGLGKKKRD YLLTTENIDKIEVKKKFIERNLVDTRYASRVVLNSLQSALRELGKDTKVSVVRGQF TSQLRRKWKIDKSRETYHHHAVDALIIAASSQLKLWEKQDNPMFVDYGKNQVVD KQTGEILSVSDDEYKELVFQPPYQGFVNTISSKGFEDEILFSYQVDSKYNRKVSD ATIYSTRKAKIGKDKKEETYVLGKIKDIYSQNGFDTFIKKYNKDKTQFLMYQKDSL TWENVIEVILRDYPTTKKSEDGKNDVKCNPFEEYRRENGLICKYSKKGKGTPIKS LKYYDKKLGNCIDITPEESRNKVILQSINPWRADVYFNPETLKYELMGLKYSDLSF EKGTGNYHISQEKYDAIKEKEGIGKKSEFKFTLYRNDLILIKDIASGEQEIYRFLSR TMPNVNHYVELKPYDKEKFDNVQELVEALGEADKVGRCIKGLNKPNISIYKVRTD VLGNKYFVKKKGDKPKLDFKNNKKPKKKRKVLEGGGGSGKGDPKKPRGKMSS YAFFVQTCREEHKKKHPDASVNFSEFSKKCSERWKTMSAKEKGKFEDMAKA

DKARYEREMKTYIPPKGE Fusão HMGN1-SpaCas9-Histona H1 globular (SEQ ID NO:73)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMTNGKILGLDIGIASVGVGIIEAKTGKVVHANSRLFSAANAENNAERRGFRGS RRLNRRKKHRVKRVRDLFEKYGIVTDFRNLNLNPYELRVKGLTEQLKNEELFAAL RTISKRRGISYLDDAEDDSTGSTDYAKSIDENRRLLKNKTPGQIQLERLEKYGQL RGNFTVYDENGEAHRLINVFSTSDYEKEARKILETQADYNKKITAEFIDDYVEILT QKRKYYHGPGNEKSRTDYGRFRTDGTTLENIFGILIGKCNFYPDEYRASKASYT AQEYNFLNDLNNLKVSTETGKLSTEQKESLVEFAKNTATLGPAKLLKEIAKILDCK VDEIKGYREDDKGKPDLHTFEPYRKLKFNLESINIDDLSREVIDKLADILTLNTERE GIEDAIKRNLPNQFTEEQISEIIKVRKSQSTAFNKGWHSFSAKLMNELIPELYATS DEQMTILTRLEKFKVNKKSSKNTKTIDEKEVTDEIYNPVVAKSVRQTIKIINAAVKK YGDFDKIVIEMPRDKNADDEKKFIDKRNKENKKEKDDALKRAAYLYNSSDKLPDE VFHGNKQLETKIRLWYQQGERCLYSGKPISIQELVHNSNNFEIDHILPLSLSFDDS LANKVLVYAWTNQEKGQKTPYQVIDSMDAAWSFREMKDYVLKQKGLGKKKRD YLLTTENIDKIEVKKKFIERNLVDTRYASRVVLNSLQSALRELGKDTKVSVVRGQF TSQLRRKWKIDKSRETYHHHAVDALIIAASSQLKLWEKQDNPMFVDYGKNQVVD KQTGEILSVSDDEYKELVFQPPYQGFVNTISSKGFEDEILFSYQVDSKYNRKVSD ATIYSTRKAKIGKDKKEETYVLGKIKDIYSQNGFDTFIKKYNKDKTQFLMYQKDSL TWENVIEVILRDYPTTKKSEDGKNDVKCNPFEEYRRENGLICKYSKKGKGTPIKS LKYYDKKLGNCIDITPEESRNKVILQSINPWRADVYFNPETLKYELMGLKYSDLSF EKGTGNYHISQEKYDAIKEKEGIGKKSEFKFTLYRNDLILIKDIASGEQEIYRFLSR TMPNVNHYVELKPYDKEKFDNVQELVEALGEADKVGRCIKGLNKPNISIYKVRTD VLGNKYFVKKKGDKPKLDFKNNKKPKKKRKVLEGGGGSSTDHPKYSDMIVAAI QAEKNRAGSSRQSIQKYIKSHYKVGENADSQIKLSIKRLVTTGVLKQTKGVGAS

GSFRLAKSDEP Fusão HMGN1-SpaCas9-CHD1 (SEQ ID NO:74)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMTNGKILGLDIGIASVGVGIIEAKTGKVVHANSRLFSAANAENNAERRGFRGS RRLNRRKKHRVKRVRDLFEKYGIVTDFRNLNLNPYELRVKGLTEQLKNEELFAAL RTISKRRGISYLDDAEDDSTGSTDYAKSIDENRRLLKNKTPGQIQLERLEKYGQL RGNFTVYDENGEAHRLINVFSTSDYEKEARKILETQADYNKKITAEFIDDYVEILT QKRKYYHGPGNEKSRTDYGRFRTDGTTLENIFGILIGKCNFYPDEYRASKASYT AQEYNFLNDLNNLKVSTETGKLSTEQKESLVEFAKNTATLGPAKLLKEIAKILDCK VDEIKGYREDDKGKPDLHTFEPYRKLKFNLESINIDDLSREVIDKLADILTLNTERE GIEDAIKRNLPNQFTEEQISEIIKVRKSQSTAFNKGWHSFSAKLMNELIPELYATS DEQMTILTRLEKFKVNKKSSKNTKTIDEKEVTDEIYNPVVAKSVRQTIKIINAAVKK YGDFDKIVIEMPRDKNADDEKKFIDKRNKENKKEKDDALKRAAYLYNSSDKLPDE VFHGNKQLETKIRLWYQQGERCLYSGKPISIQELVHNSNNFEIDHILPLSLSFDDS LANKVLVYAWTNQEKGQKTPYQVIDSMDAAWSFREMKDYVLKQKGLGKKKRD YLLTTENIDKIEVKKKFIERNLVDTRYASRVVLNSLQSALRELGKDTKVSVVRGQF TSQLRRKWKIDKSRETYHHHAVDALIIAASSQLKLWEKQDNPMFVDYGKNQVVD KQTGEILSVSDDEYKELVFQPPYQGFVNTISSKGFEDEILFSYQVDSKYNRKVSD ATIYSTRKAKIGKDKKEETYVLGKIKDIYSQNGFDTFIKKYNKDKTQFLMYQKDSL TWENVIEVILRDYPTTKKSEDGKNDVKCNPFEEYRRENGLICKYSKKGKGTPIKS LKYYDKKLGNCIDITPEESRNKVILQSINPWRADVYFNPETLKYELMGLKYSDLSF EKGTGNYHISQEKYDAIKEKEGIGKKSEFKFTLYRNDLILIKDIASGEQEIYRFLSR TMPNVNHYVELKPYDKEKFDNVQELVEALGEADKVGRCIKGLNKPNISIYKVRTD VLGNKYFVKKKGDKPKLDFKNNKKPKKKRKVLEGGGGSDMDSIGESEVRALYK AILKFGNLKEILDELIADGTLPVKSFEKYGETYDEMMEAAKDCVHEEEKNRKEIL EKLEKHATAYRAKLKSGEIKAENQPKDNPLTRLSLKKREKKAVLFNFKGVKSL NAESLLSRVEDLKYLKNLINSNYKDDPLKFSLGNNTPKPVQNWSSNWTKEEDE KLLIGVFKYGYGSWTQIRDDPFLGITDKIFLNEVHNPVAKKSASSSDTTPTPSKK

GKGITGSSKKVPGAIHLGRRVDYLLSFLRGGLNTKSPS Fusão HMGN1-FnCpf1-HNGB1 (SEQ ID NO:75)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIID KYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEY IKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIK SFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAP EAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNT IIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKND KSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLS LETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQG KKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFE ECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILF IKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAK SIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPE WKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQI YNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKIT HPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFND EINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHD KLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFG FKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK KMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLD KGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKEL EKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLIS PVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNL VIKNEEYFEFVQNRNNPKKKRKVLEGGGGSGKGDPKKPRGKMSSYAFFVQTC REEHKKKHPDASVNFSEFSKKCSERWKTMSAKEKGKFEDMAKADKARYERE

MKTYIPPKGE Fusão HMGN1-FnCpf1-Histona H1 globular (SEQ ID NO:76)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIID KYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEY IKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIK SFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAP EAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNT IIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKND KSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLS LETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQG KKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFE ECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILF IKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAK SIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPE WKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQI YNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKIT HPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFND EINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHD KLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFG FKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK KMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLD KGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKEL EKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLIS PVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNL VIKNEEYFEFVQNRNNPKKKRKVLEGGGGSSTDHPKYSDMIVAAIQAEKNRAG SSRQSIQKYIKSHYKVGENADSQIKLSIKRLVTTGVLKQTKGVGASGSFRLAKS

DEP Fusão HMGN1-FnCpf1-CHD1 (SEQ ID NO:77)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIID KYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEY IKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIK SFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAP EAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNT IIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKND KSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLS LETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQG KKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFE ECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILF IKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAK SIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPE WKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQI YNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKIT HPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFND EINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHD KLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFG FKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK KMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLD KGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKEL EKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLIS PVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNL VIKNEEYFEFVQNRNNPKKKRKVLEGGGGSDMDSIGESEVRALYKAILKFGNLK EILDELIADGTLPVKSFEKYGETYDEMMEAAKDCVHEEEKNRKEILEKLEKHAT AYRAKLKSGEIKAENQPKDNPLTRLSLKKREKKAVLFNFKGVKSLNAESLLSR VEDLKYLKNLINSNYKDDPLKFSLGNNTPKPVQNWSSNWTKEEDEKLLIGVFK YGYGSWTQIRDDPFLGITDKIFLNEVHNPVAKKSASSSDTTPTPSKKGKGITGS

SKKVPGAIHLGRRVDYLLSFLRGGLNTKSPS Fusão HMGN1-CjCas9-box A de HMGB1 (SEQ ID NO:78)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMARILAFDIGISSIGWAFSENDELKDCGVRIFTKVENPKTGESLALPRRLARSA RKRLARRKARLNHLKHLIANEFKLNYEDYQSFDESLAKAYKGSLISPYELRFRAL NELLSKQDFARVILHIAKRRGYDDIKNSDDKEKGAILKAIKQNEEKLANYQSVGEY LYKEYFQKFKENSKEFTNVRNKKESYERCIAQSFLKDELKLIFKKQREFGFSFSK KFEEEVLSVAFYKRALKDFSHLVGNCSFFTDEKRAPKNSPLAFMFVALTRIINLLN NLKNTEGILYTKDDLNALLNEVLKNGTLTYKQTKKLLGLSDDYEFKGEKGTYFIEF KKYKEFIKALGEHNLSQDDLNEIAKDITLIKDEIKLKKALAKYDLNQNQIDSLSKLEF KDHLNISFKALKLVTPLMLEGKKYDEACNELNLKVAINEDKKDFLPAFNETYYKD EVTNPVVLRAIKEYRKVLNALLKKYGKVHKINIELAREVGKNHSQRAKIEKEQNEN YKAKKDAELECEKLGLKINSKNILKLRLFKEQKEFCAYSGEKIKISDLQDEKMLEID HIYPYSRSFDDSYMNKVLVFTKQNQEKLNQTPFEAFGNDSAKWQKIEVLAKNLP TKKQKRILDKNYKDKEQKNFKDRNLNDTRYIARLVLNYTKDYLDFLPLSDDENTK LNDTQKGSKVHVEAKSGMLTSALRHTWGFSAKDRNNHLHHAIDAVIIAYANNSIV KAFSDFKKEQESNSAELYAKKISELDYKNKRKFFEPFSGFRQKVLDKIDEIFVSKP ERKKPSGALHEETFRKEEEFYQSYGGKEGVLKALELGKIRKVNGKIVKNGDMFR VDIFKHKKTNKFYAVPIYTMDFALKVLPNKAVARSKKGEIKDWILMDENYEFCFSL YKDSLILIQTKDMQEPEFVYYNAFTSSTVSLIVSKHDNKFETLSKNQKILFKNANE KEVIAKSIGIQNLKVFEKYIVSALGEVTKAEFRQREDFKKPKKKRKVLEGGGGSG KGDPKKPRGKMSSYAFFVQTCREEHKKKHPDASVNFSEFSKKCSERWKTMS

AKEKGKFEDMAKADKARYEREMKTYIPPKGE Fusão HMGN1-CjCas9-Histona H1 globular (SEQ ID NO:79)

MPKRKVSSAEGAAKEEPKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQ TKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSDTG SGMARILAFDIGISSIGWAFSENDELKDCGVRIFTKVENPKTGESLALPRRLARSA RKRLARRKARLNHLKHLIANEFKLNYEDYQSFDESLAKAYKGSLISPYELRFRAL NELLSKQDFARVILHIAKRRGYDDIKNSDDKEKGAILKAIKQNEEKLANYQSVGEY LYKEYFQKFKENSKEFTNVRNKKESYERCIAQSFLKDELKLIFKKQREFGFSFSK KFEEEVLSVAFYKRALKDFSHLVGNCSFFTDEKRAPKNSPLAFMFVALTRIINLLN NLKNTEGILYTKDDLNALLNEVLKNGTLTYKQTKKLLGLSDDYEFKGEKGTYFIEF KKYKEFIKALGEHNLSQDDLNEIAKDITLIKDEIKLKKALAKYDLNQNQIDSLSKLEF KDHLNISFKALKLVTPLMLEGKKYDEACNELNLKVAINEDKKDFLPAFNETYYKD EVTNPVVLRAIKEYRKVLNALLKKYGKVHKINIELAREVGKNHSQRAKIEKEQNEN YKAKKDAELECEKLGLKINSKNILKLRLFKEQKEFCAYSGEKIKISDLQDEKMLEID HIYPYSRSFDDSYMNKVLVFTKQNQEKLNQTPFEAFGNDSAKWQKIEVLAKNLP TKKQKRILDKNYKDKEQKNFKDRNLNDTRYIARLVLNYTKDYLDFLPLSDDENTK LNDTQKGSKVHVEAKSGMLTSALRHTWGFSAKDRNNHLHHAIDAVIIAYANNSIV KAFSDFKKEQESNSAELYAKKISELDYKNKRKFFEPFSGFRQKVLDKIDEIFVSKP ERKKPSGALHEETFRKEEEFYQSYGGKEGVLKALELGKIRKVNGKIVKNGDMFR VDIFKHKKTNKFYAVPIYTMDFALKVLPNKAVARSKKGEIKDWILMDENYEFCFSL YKDSLILIQTKDMQEPEFVYYNAFTSSTVSLIVSKHDNKFETLSKNQKILFKNANE KEVIAKSIGIQNLKVFEKYIVSALGEVTKAEFRQREDFKKPKKKRKVLEGGGGSS TDHPKYSDMIVAAIQAEKNRAGSSRQSIQKYIKSHYKVGENADSQIKLSIKRLVT TGVLKQTKGVGASGSFRLAKSDEP

Claims

REIVINDICAÇÕES

1. Proteína de fusão caracterizada pelo fato de que compreende pelo menos um domínio de proteína de interação com nucleossomo ligado a uma proteína de modificação de DNA programável.

2. Proteína de fusão, de acordo com a reivindicação 1, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo é um domínio de ligação ao DNA de uma proteína box do grupo de alta mobilidade (HMG) (HMGB) escolhida entre HMGB1, HMGB2 ou HMGB3; uma proteína de ligação ao nucleossomo HMG (HMGN) escolhida entre HMGN1, HMGN2, HMGN3a, HMGN3b, HMGN4 ou HMGN5; um domínio globular central a partir de uma variante de histona H1; um domínio de ligação ao DNA a partir de uma proteína do complexo de remodelação da cromatina escolhida do complexo de switch / sacarose não fermentável (SWI/SNF), o complexo de switch de imitação (ISWI), o complexo de ligação de cromodomaina-helicase-DNA (CHD), o complexo remodelação de nucleossomo e desacetilase (NuRD), complexo INO80, complexo SWR1, complexo RSC ou sua combinação.

3. Proteína de fusão, de acordo com a reivindicação 2, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo é domínio box A de HMGB1, proteína HMGN1, proteína HMGN2, proteína HMGN3a, proteína HMGN3b, domínio globular central de histona H1, domínio de ligação ao DNA de proteína ISWI, domínio de ligação ao DNA de proteína CHD1 ou combinação dos mesmos.

4. Proteína de fusão, de acordo com qualquer uma das reivindicações 1 a 3, caracterizada pelo fato de que a proteína de modificação de DNA programável tem atividade de nuclease.

5. Proteína de fusão, de acordo com a reivindicação 4,

caracterizada pelo fato de que a proteína de modificação de DNA programável é uma nuclease ou nickase de repetições palindrômicas curtas e intercaladas regularmente (CRISPR), uma nuclease de dedo de zinco (ZFN), uma nuclease de efetor do tipo ativador de transcrição (TALEN), uma meganuclease ou uma proteína quimérica compreendendo um domínio de ligação a DNA programável ligado a um domínio nuclease.

6. Proteína de fusão, de acordo com qualquer uma das reivindicações 1 a 3, caracterizada pelo fato de que a proteína de modificação de DNA programável tem atividade de não nuclease.

7. Proteína de fusão, de acordo com a reivindicação 6, caracterizada pelo fato de que a proteína de modificação de DNA programável é uma proteína quimérica que compreende um domínio de ligação a DNA programável ligado a um domínio de não nuclease.

8. Proteína de fusão, de acordo com a reivindicação 7, caracterizada pelo fato de que o domínio de ligação ao DNA programável é uma proteína CRISPR modificada para não possuir toda atividade de nuclease, uma proteína de dedo de zinco ou um efetor do tipo ativador de transcrição.

9. Proteína de fusão, de acordo com a reivindicação 7, caracterizada pelo fato de que o domínio não nuclease tem atividade de acetiltransferase, atividade de desacetilase, atividade de metiltransferase, atividade de desmetilase, atividade de quinase, atividade de fosfatase, atividade de ubiquitina ligase, atividade de desubiquitinante, atividade de adenilação, atividade de desadenilação, atividade SUMOilação, atividade deSUMOilação, atividade de ribosilação, atividade de derribosilação, atividade de miristoilação, atividade de desmististoilação, atividade de citrulinação, atividade de helicase, atividade de aminação, atividade de desaminação, atividade de alquilação, atividade de desalquilação, atividade de oxidação,

atividade de ativação transcricional ou atividade de repressão da transcrição.

10. Proteína de fusão, de acordo com a reivindicação 9, caracterizada pelo fato de que o domínio não nuclease tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressão transcricional.

11. Proteína de fusão, de acordo com qualquer uma das reivindicações 1 a 10, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína de modificação de DNA programável diretamente por meio de uma ligação química, indiretamente por meio de um ligante ou uma combinação dos mesmos.

12. Proteína de fusão, de acordo com qualquer uma das reivindicações 1 a 11, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína de modificação de DNA programável em seu terminal N, terminal C, um local interno ou combinação dos mesmos.

13. Proteína de fusão, de acordo com qualquer uma das reivindicações 1 a 12, caracterizada pelo fato de que adicionalmente compreende pelo menos um sinal de localização nuclear, pelo menos um domínio de penetração de células, pelo menos um domínio de marcador ou combinação dos mesmos.

14. Proteína de fusão caracterizada pelo fato de que compreende uma proteína de repetições palindrômicas curtas e intercaladas regularmente agrupada (CRISPR) ligada a pelo menos um domínio de proteína de interação com nucleossomo.

15. Proteína de fusão, de acordo com a reivindicação 14, caracterizada pelo fato de que a proteína CRISPR é uma nuclease ou nickase CRISPR/Cas9 tipo II, ou a proteína CRISPR é uma nuclease ou nickase CRISPR/Cpf1 tipo V.

16. Proteína de fusão, de acordo com as reivindicações 14 ou 15, caracterizada pelo fato de que a proteína CRISPR é uma proteína CRISPR/Cas9 tipo II modificada para não possuir toda a atividade de nuclease e ligada a um domínio não nuclease, ou uma proteína CRISPR/Cpf1 tipo V modificada para não possuir toda a atividade de nuclease e ligada a um domínio não nuclease.

17. Proteína de fusão, de acordo com a reivindicação 16, caracterizada pelo fato de que o domínio não nuclease tem atividade de citosina desaminase, atividade de histona acetiltransferase, atividade de ativação transcricional ou atividade de repressão transcricional.

18. Proteína de fusão, de acordo com qualquer uma das reivindicações 14 a 17, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo é um domínio de ligação a DNA da box do grupo de alta mobilidade (HMG) (HMG), uma proteína HMG de ligação a nucleossomo (HMGN), domínio globular central a partir de uma variante de histona H1, um domínio de ligação ao DNA a partir de uma proteína complexa de remodelação de cromatina ou uma combinação dos mesmos.

19. Proteína de fusão, de acordo com a reivindicação 18, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo é o domínio box de HMGB1, proteína HMGN1, proteína HMGN2, proteína HMGN3a, proteína HMGN3b, domínio globular central de histona H1, domínio de ligação ao DNA da proteína switch de imitação (ISWI), domínio de ligação ao DNA da proteína 1 de cromodomaína-helicase-DNA (CHD1) ou uma combinação dos mesmos.

20. Proteína de fusão, de acordo com qualquer uma das reivindicações 14 a 19, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína CRISPR diretamente por meio de uma ligação química,

indiretamente por meio de um ligante, ou uma combinação dos mesmos.

21. Proteína de fusão, de acordo com qualquer uma das reivindicações 14 a 20, caracterizada pelo fato de que pelo menos um domínio de proteína de interação com nucleossomo está ligado à proteína CRISPR em seu terminal N, terminal C, um local interno ou uma combinação dos mesmos.

22. Proteína de fusão, de acordo com qualquer uma das reivindicações 14 a 21, caracterizada pelo fato de que adicionalmente compreende pelo menos um sinal de localização nuclear, pelo menos um domínio de penetração de célula, pelo menos um domínio de marcador ou uma combinação dos mesmos.

23. Proteína de fusão, de acordo com qualquer uma das reivindicações 14 a 22, caracterizada pelo fato de que a proteína CRISPR é Streptococcus pyogenes Cas9 (SpCas9), Streptococcus thermophilus Cas9 (StCas9), Streptococcus pasteurianus (SpaCas9), Campylobacter jejuni Cas9 (CjCas9), Staphylococcus aureus (SaCas9), Francisella novicida Cas9 (FnCas9), Neisseria cinerea Cas9 (NcCas9), Neisseria meningitis Cas9 (NmCas9), Francisella novicida Cpf1 (FnCpf1), Acidaminococcus sp. Cpf1 (AsCpf1), ou Lachnospiraceae bacterium ND2006 Cpf1 (LbCpf1).

24. Proteína de fusão, de acordo com qualquer uma das reivindicações 14 a 23, caracterizada pelo fato de que a proteína de fusão tem uma sequência de aminoácidos com pelo menos cerca de 90% de identidade de sequência com a SEQ ID NO: 61, SEQ ID NO: 62, SEQ ID NO: 63, SEQ ID NO: 64, SEQ ID NO: 65, SEQ ID NO: 66, SEQ ID NO: 67, SEQ ID NO: 68, SEQ ID NO: 69, SEQ ID NO: 70, SEQ ID NO: 71, SEQ ID NO: 72, SEQ ID NO: 73, SEQ ID NO: 74, SEQ ID NO: 75, SEQ ID NO: 76, SEQ ID NO: 77, SEQ ID NO: 78 ou SEQ ID NO: 79.

25. Proteína de fusão, de acordo com qualquer uma das reivindicações 14 a 24, caracterizada pelo fato de que a proteína de fusão tem uma sequência de aminoácidos conforme estabelecido na SEQ ID NO: 61, SEQ ID NO: 62, SEQ ID NO: 63, SEQ ID NO: 63, SEQ ID NO: 64, SEQ ID NO: 65, SEQ ID NO: 66, SEQ ID NO: 67, SEQ ID NO: 68, SEQ ID NO: 69, SEQ ID NO: 70, SEQ ID NO: 71, SEQ ID NO: 72, SEQ ID NO: 73, SEQ ID NO: 74, SEQ ID NO: 75, SEQ ID NO: 76, SEQ ID NO: 77, SEQ ID NO: 78 ou SEQ ID NO: 79.

26. Complexo caracterizado pelo fato de que compreende pelo menos uma proteína de fusão como definida em qualquer uma das reivindicações 14 a 25 e pelo menos um RNA guia.

27. Ácido nucleico caracterizado pelo fato de que codifica a proteína de fusão, como definida em qualquer uma das reivindicações 1 a 25.

28. Ácido nucleico, de acordo com a reivindicação 27, caracterizado pelo fato de que é um códon otimizado para tradução em uma célula eucariótica.

29. Ácido nucleico de acordo com as reivindicações 27 ou 28, caracterizado pelo fato de que faz parte de um vetor viral, um vetor plasmídico ou um RNA autorreplicante.

30. Método para aumentar a eficiência do genoma direcionado ou modificação epigenética em uma célula eucariótica, o método compreendendo a introdução na célula eucariótica de pelo menos uma proteína de fusão, como definida em qualquer uma das reivindicações 1 a 25, ou ácido nucleico que codifica a pelo menos uma proteína de fusão, como definida em qualquer uma das reivindicações 27 a 29, caracterizado pelo fato de que a proteína de modificação de DNA programável da pelo menos uma proteína de fusão é direcionada para uma sequência cromossômica alvo e pelo menos um domínio de proteína de interação com nucleossomo da pelo menos uma proteína de fusão altera a estrutura nucleossômica ou cromatina de modo que a pelo menos uma proteína de fusão aumente o acesso à sequência cromossômica alvo, aumentando assim a eficiência do genoma direcionado ou modificação epigenética.

31. Método, de acordo com a reivindicação 30, caracterizado pelo fato de que a proteína de modificação de DNA da pelo menos uma proteína de fusão compreende uma proteína CRISPR e o método adicionalmente compreende a introdução na célula eucariótica de pelo menos um RNA guia ou ácido nucleico que codifica o pelo menos um RNA guia.

32. Método, de acordo com a reivindicação 30 ou 31, caracterizado pelo fato de que o método adicionalmente compreende a introdução na célula eucariótica de pelo menos um polinucleotídeo doador, o polinucleotídeo doador compreendendo pelo menos uma sequência doadora.

33. Método, de acordo com qualquer uma das reivindicações 30 a 32, caracterizado pelo fato de que a célula eucariótica é in vitro.

34. Método, de acordo com qualquer uma das reivindicações 30 a 32, caracterizado pelo fato de que a célula eucariótica é in vivo.

35. Método, de acordo com qualquer uma das reivindicações 30 a 34, caracterizado pelo fato de que a célula eucariótica é uma célula de mamífero.

36. Método, de acordo com qualquer uma das reivindicações 30 a 34, caracterizado pelo fato de que a célula eucariótica é uma célula humana.