BR112021016019A2

BR112021016019A2 - Sistemas e proteínas de fusão crispr/cas

Info

Publication number: BR112021016019A2
Application number: BR112021016019-1A
Authority: BR
Inventors: Fuqiang Chen
Original assignee: Sigma-Aldrich Co. Llc
Priority date: 2019-02-15
Filing date: 2020-02-13
Publication date: 2021-10-05
Also published as: CN113728099A; CA3129835A1; US20200263155A1; JP2022520104A; US11965184B2; KR20210139271A; IL285300A; US10947517B2; JP2023156365A; US20230287377A1; WO2020168102A1; US20210163910A1; AU2020221274A1; EP3924475A1; AU2024202275A1; SG11202108812SA; AU2020221274B2

Abstract

sistemas e proteínas de fusão crispr/cas. trata-se de sistemas cas9 geneticamente modificados revelados no presente documento.

Description

Relatório Descritivo da Patente de Invenção para “SISTE- MAS E PROTEÍNAS DE FUSÃO CRISPR/CAS”.

PEDIDOS RELACIONADOS

[0001] A presente invenção reivindica o benefício de prioridade do Pedido Provisório U.S. No. 62/806.708, depositado em 15 de fevereiro de 2019, cuja totalidade é incorporada no presente documento a título de referência.

CAMPO

[0002] A presente invenção refere-se a sistemas Cas9 genetica- mente modificados, ácidos nucleicos que codificam os ditos sistemas e métodos de uso dos ditos sistemas para modificação do genoma.

ANTECEDENTES

[0003] Muitos tipos diferentes de ligantes de peptídeo foram testa- dos para fundir GFP a Cas9, mas normalmente resultam em menor ati- vidade do Cas9 subjacente.

SUMÁRIO DA REVELAÇÃO

[0004] Dentre os vários aspectos da presente revelação, incluem- se sistemas Cas9 geneticamente modificados.

[0005] Outros aspectos e características da revelação são detalha- dos abaixo.

BREVE DESCRIÇÃO DOS DESENHOS

[0006] A Figura 1 mostra que cada uma das proteínas de fusão Cas9 divulgadas no presente documento retém a atividade de edição paralela ao nível da proteína SpCas9.

[0007] A Figura 2A e a Figura 2B mostram que as eficiências de edição das proteínas de fusão Cas9 divulgadas no presente documento foram várias vezes maiores que as das proteínas comerciais em todos os alvos.

LISTAGEM DE SEQUÊNCIAS

[0008] O pedido instantâneo contém Listagem de Sequências que foi enviada eletronicamente em formato ASCII e é aqui incorporada a título de referência em sua totalidade. A dita cópia ASCII, criada em 13 de fevereiro de 2020, é denominada P19-027_WO-PCT_SL.txt e tem

87.735 bytes de tamanho.

DESCRIÇÃO DETALHADA

[0009] A fusão de proteínas acessórias com proteínas CRISPR cria uma ampla gama de oportunidades para localizar várias funcionalidades de proteínas em locais definidos dentro das células. Dentre outras coi- sas, são divulgados ligantes peptídicos que permitem a fusão de prote- ínas heterólogas com proteínas CRISPR de maneiras que preservam a funcionalidade CRISPR. (I) SISTEMAS CAS9 GENETICAMENTE MODIFICADOS

[0010] Um aspecto da presente revelação fornece proteínas Cas9 e sistemas geneticamente modificados. Por exemplo, proteínas de fu- são do marcador Cas9 são divulgadas. Em alguns aspectos, os siste- mas incluem proteínas Cas9 geneticamente modificadas e RNAs guia geneticamente modificados, em que cada RNA guia geneticamente mo- dificado é projetado para se complexar com a proteína Cas9 genetica- mente modificada específica. Esses sistemas Cas9 geneticamente mo- dificados não ocorrem naturalmente. (A) PROTEÍNAS CAS9 GENETICAMENTE MODIFICADAS

[0011] Proteína Cas9 é a única proteína efetora em sistemas CRISPR Tipo II, que estão presentes em várias bactérias. A proteína Cas9 geneticamente modificada divulgada no presente documento pode ser a partir de Acaryochloris sp., Acetohalobium sp., Acidamino- coccus sp., Acidithiobacillus sp., Acidothermus sp., Akkermansia sp., Alicyclobacillus sp., Allochromatium sp., Ammonifex sp., Anabaena sp., Arthrospira sp., Bacillus sp., Bifidobacterium sp., Burkholderiales sp., Caldicelulosiruptor sp., Campylobacter sp., Candidatus sp., Clostridium sp., Corynebacterium sp., Crocosphaera sp., Cyanothece sp., Exigu- obacterium sp., Fibrobacter sp., Finegoldia sp., Francisella sp., Kte- donobacter sp., Lachnospiraceae sp., Lactobacillus sp., Listeria sp., Lyngbya sp., Marinobacter sp., Methanohalobium sp., Microscilla sp., Microcoleus sp., Microcystis sp., Mycoplasma sp., Natranaerobius sp., Neisseria sp., Nitratifractor sp., Nitrosococcus sp., Nocardiopsis sp., No- dularia sp., Nostoc sp., Oenococcus sp., Oscillatoria sp., Parasutterella sp., Pasteurella sp., Parvibaculum sp., Pelotomaculum sp., Petrotoga sp., Polaromonas sp., Prevotella sp., Pseudoalteromonas sp., Ralstonia sp., Rhodospirillum sp., Staphylococcus sp., Streptococcus sp., Strep- tomyces sp., Streptosporangium sp., Synechococcus sp., Thermosipho sp., Trepumma sp., Verrucomicrobia sp. e Wolinella sp.

[0012] Espécies exemplificativas das quais a proteína Cas9 ou ou- tros componentes podem ser a partir de, ou derivados a partir de, in- cluem Acaryochloris spp. (por exemplo, Acaryochloris marina), Aceto- halobium spp. (por exemplo, Acetohalobium arabaticum), Acidamino- coccus spp., Acidithiobacillus spp. (por exemplo, Acidithiobacillus cal- dus, Acidithiobacillus ferrooxidans), Acidothermus spp., Akkermansia spp., Alicyclobacillus spp. (por exemplo, Alicyclobacillus acidocaldarius), Allochromatium spp. (por exemplo, Allochromatium vinosum), Ammoni- fex spp. (por exemplo, Ammonifex degensii), Anabaena spp. (por exem- plo, Anabaena variabilis), Arthrospira spp. (por exemplo, Arthrospira ma- xima, Arthrospira platensis), Bacillus spp. (por exemplo, Bacillus pseu- domycoides, Bacillus selenitireducens), Bifidobacterium spp., Burkhol- deriales spp. (por exemplo, Burkholderiales bacterium), Caldicelulo- siruptor spp. (por exemplo, Caldicelulosiruptor becscii), Campylobacter spp. (por exemplo, Campylobacter jejuni, Campylobacter lari), Candida- tus spp., (por exemplo, Candidatus Desulforudis), Clostridium spp. (por exemplo, Clostridium botulinum, Clostridium difficile), Corynebacterium spp. (por exemplo, Corynebacterium diphtheria), Crocosphaera spp.

(por exemplo, Crocosphaera watsonii), Cyanothece spp., Deltaprote- obacterium spp., Exiguobacterium spp. (por exemplo, Exiguobacterium sibiricum), (Fibrobacter spp. (por exemplo, Fibrobacter succinogene), Fi- negoldia spp. (por exemplo, Finegoldia magna), Francisella spp. (por exemplo, Francisella novicida), Gammaproteobacterium, Ktedonobacter spp. (por exemplo, Ktedonobacter racemifer), Lachnospiraceae spp., Lactobacillus spp. (por exemplo, Lactobacillus buchneri, Lactobacillus delbrueckii, Lactobacillus gasseri, Lactobacillus salivarius), Listeria spp. (por exemplo, Listeria innocua), Leptotrichia spp., Lyngbya spp., Mari- nobacter spp., Methanohalobium spp. (por exemplo, Methanohalobium evestigatum), Microcoleus spp. (por exemplo, Microcoleus chthonoplas- tes), Microscilla spp. (por exemplo, Microscilla marina), Microcystis spp. (por exemplo, Microcystis aeruginosa), Mycoplasma spp., Natranaero- bius spp. (por exemplo, Natranaerobius thermophilus), Neisseria spp. (por exemplo, Neisseria cinerea, Neisseria meningitidis), Nitratifractor spp., Nitrosococcus spp. (por exemplo, Nitrosococcus halophilus, Nitro- sococcus watsoni), Nocardiopsis spp. (por exemplo, Nocardiopsis das- sonvillei), Nodularia spp. (por exemplo, Nodularia spumigena), Nostoc spp., Oenococcus spp., Oscillatoria spp., Parasutterella spp., Parviba- culum spp. (por exemplo, Parvibaculum lavamentivorans), Pasteurella spp. (por exemplo, Pasteurella multocida), Pelotomaculum spp., (por exemplo, Pelotomaculum thermopropionicum), Petrotoga spp. (por exemplo, Petrotoga mobilis), Planctomyces spp., Polaromonas spp. (por exemplo, Polaromonas naphthalenivorans), Prevotella spp., Pseudoal- teromonas spp. (por exemplo, Pseudoalteromonas haloplanktis), Rals- tonia spp., Ruminococcus spp., Rhodospirillum spp. (por exemplo, Rho- dospirillum rubrum), Staphylococcus spp. (por exemplo, Staphylococcus aureus), Streptococcus spp. (por exemplo, Streptococcus pasteurianus, Streptococcus pyogenes, Streptococcus thermophilus), Sutterella spp. (por exemplo, Sutterella wadsworthensis), Streptomyces spp. (por exemplo, Streptomyces pristinaespiralis, Streptomyces viridochromoge- nes, Streptomyces viridochromogenes), Streptosporangium spp. (por exemplo,Streptosporangium roseum, Streptosporangium roseum), Synechococcus spp., Thermosipho spp. (por exemplo, Thermosipho africanus), Trepumma spp. (por exemplo, Trepumma denticola), e Ver- rucomicrobia spp., Wolinella spp. (por exemplo, Wolinella succinoge- nes), e/ou espécies delineadas em pesquisas de bioinformática de ban- cos de dados genômicos, como aqueles divulgados em Makarova, Kira S., et al. "An updated evolutionary classification of CRISPR–Cas sys- tems." Nature Reviews Microbiology 13.11 (2015): 722 and Koonin, Eu- gene V., Kira S. Makarova, and Feng Zhang. "Diversity, classification and evolution of CRISPR-Cas systems." Current opinion in microbiology 37 (2017): 67-78, cada um dos quais é incorporado ao presente docu- mento a título de referência em sua totalidade.

[0013] Em algumas modalidades, a proteína Cas9 geneticamente modificada pode ser a partir de Streptococcus pyogenes. Em algumas modalidades, a proteína Cas9 geneticamente modificada pode ser a partir de Streptococcus thermophilus. Em algumas modalidades, a pro- teína Cas9 geneticamente modificada pode ser a partir de Neisseria me- ningitidis. Em algumas modalidades, a proteína Cas9 geneticamente modificada pode ser a partir de Staphylococcus aureus. Em algumas modalidades, a proteína Cas9 geneticamente modificada pode ser a partir de Campylobacter jejuni.

[0014] Proteínas Cas9 de tipo selvagem compreendem dois domí- nios de nuclease, isto é, domínios RuvC e HNH, cada um dos quais cliva uma fita de uma sequência de fita dupla. Proteínas Cas9 também com- preendem domínios REC que interagem com o RNA guia (por exemplo, REC1, REC2) ou o heteroduplex RNA/DNA (por exemplo, REC3), e um domínio que interage com o motivo adjacente ao protoespaçador (PAM) (isto é, domínio com interação de PAM).

[0015] A proteína Cas9 pode ser geneticamente modificada para compreender uma ou mais modificações (isto é, uma substituição de um pelo menos um aminoácido, uma deleção de um pelo menos um ami- noácido, uma inserção de um pelo menos um aminoácido) de modo que a proteína Cas9 tem atividade, especificidade e/ou estabilidade alte- rada.

[0016] Por exemplo, a proteína Cas9 pode ser geneticamente mo- dificada por uma ou mais mutações e/ou deleções para inativar um ou ambos os domínios de nuclease. A inativação de um domínio de nu- clease gera uma proteína Cas9 que cliva uma fita de uma sequência de fita dupla (isto é, uma nickase Cas9). O domínio RuvC pode ser inati- vado por mutações, como D10A, D8A, E762A e/ou D986A, e o domínio HNH pode ser inativado por mutações, como H840A, H559A, N854A, N856A e/ou N863A (com referência ao sistema de numeração de Strep- tococcus pyogenes Cas9, SpyCas9). A inativação de ambos os domí- nios de nuclease gera uma proteína Cas9 sem atividade de clivagem (isto é, uma Cas9 cataliticamente inativa ou morta).

[0017] A proteína Cas9 também pode ser geneticamente modifi- cada por uma ou mais substituições, deleções, e/ou inserções de ami- noácidos para ter especificidade de alvejamento melhorada, fidelidade melhorada, especificidade PAM alterada, efeitos fora do alvo diminuídos e/ou estabilidade aumentada. Exemplos não limitativos de uma ou mais mutações que melhoram a especificidade de alvejamento, melhoram a fidelidade e/ou diminuem os efeitos fora do alvo incluem N497A, R661A, Q695A, K810A, K848A, K855A, Q926A, K1003A, R1060A e/ou D1135E (com referência ao sistema de numeração de SpyCas9).

[0018] Em modalidades alternativas, a proteína Cas pode ser a par- tir de um sistema CRISPR/Cas Tipo I. Em algumas modalidades, a pro- teína Cas pode ser um componente do complexo Cascade de um sis- tema CRISPR/Cas Tipo I. Por exemplo, a proteína Cas pode ser uma proteína Cas3. Em algumas modalidades, a proteína Cas pode ser a partir de um sistema CRISPR/Cas Tipo III. Em algumas modalidades, a proteína Cas pode ser a partir de um sistema CRISPR/Cas Tipo IV. Em algumas modalidades, a proteína Cas pode ser a partir de um sistema CRISPR/Cas Tipo V. Em algumas modalidades, a proteína Cas pode ser a partir de um sistema CRISPR/Cas Tipo VI. Em algumas modalida- des, a proteína Cas pode ter uma atividade de clivagem de RNA. Em várias modalidades, a proteína Cas pode ser classificada como Cas9, Cas12a (também conhecida como Cpf1), Cas12b, Cas12c, Cas12d, Cas12e (também conhecida como CasX), Cas13a, ou Cas13b. (I) DOMÍNIOS HETERÓLOGOS

[0019] A proteína Cas9 pode ser geneticamente modificada para compreender pelo menos um domínio heterólogo, isto é, a Cas9 é fun- dida a um ou mais domínios heterólogos. Em situações em que dois ou mais domínios heterólogos são fundidos com Cas9, os dois ou mais do- mínios heterólogos podem ser iguais ou podem ser diferentes. O um ou mais domínios heterólogos podem ser fundidos à extremidade do N-ter- minal, à extremidade do C-terminal, um local interno ou combinação dos mesmos. A fusão pode ser direta por meio da ligação química, ou a li- gação pode ser indireta por meio de um ou mais ligantes.

[0020] Em certas modalidades preferidas, as proteínas Cas9 gene- ticamente modificadas descritas no presente documento incluem um ou mais sinais de localização nuclear (NLS). Exemplos não limitativos de sinais de localização nuclear incluem PKKKRKV (SEQ ID NO:1), PKK- KRRV (SEQ ID NO:2), KRPAATKKAGQAKKKK (SEQ ID NO:3), YGRK- KRRQRRR (SEQ ID NO:4), RKKRRQRRR (SEQ ID NO:5), PAAKRVKLD (SEQ ID NO:6), RQRRNELKRSP (SEQ ID NO:7), VSRKRPRP (SEQ ID NO:8), PPKKARED (SEQ ID NO:9), PQPKKKPL (SEQ ID NO:10), SALIKKKKKMAP (SEQ ID NO:11), PKQKKRK (SEQ ID NO:12), RKLKKKIKKL (SEQ ID NO:13), REKKKFLKRR (SEQ ID

NO:14), KRKGDEVDGVDEVAKKKSKK (SEQ ID NO:15), RKCLQAG- MNLEARKTKK (SEQ ID NO:16), NQSSNFGPMKGGNFGGRSSG- PYGGGGQYFAKPRNQGGY (SEQ ID NO:17), e RMRIZFKNKGKDTA- ELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO:18).

[0021] Em uma modalidade particular, o sinal de localização nuclear é selecionado a partir de PKKKRKV (SEQ ID NO:1) e PAAKRVKLD (SEQ ID NO:6). Em uma outra modalidade particular, a proteína Cas9 geneticamente modificada inclui tanto PKKKRKV (SEQ ID NO:1) quanto PAAKRVKLD (SEQ ID NO:6). Em uma outra modalidade particular, a proteína Cas9 geneticamente modificada inclui o pelo menos dois de PKKKRKV (SEQ ID NO:1) e pelo menos um de PAAKRVKLD (SEQ ID NO:6). Em uma outra modalidade particular, a proteína Cas9 genetica- mente modificada inclui dois de PKKKRKV (SEQ ID NO:1) e um de PAAKRVKLD (SEQ ID NO:6).

[0022] Nestas e em outras modalidades preferidas, as proteínas Cas9 geneticamente modificadas incluem um ou mais domínios marca- dores. Domínios marcadores incluem proteínas fluorescentes e marca- dores de purificação ou epítopo. Proteínas fluorescentes adequadas in- cluem, sem limite, proteínas fluorescentes verdes (por exemplo, GFP, eGFP, GFP-2, tagGFP, turboGFP, Emerald, Azami Green, Azami Green Monomérico, CopGFP, AceGFP, ZsGreen1), proteínas fluorescentes amarelas (por exemplo, YFP, EYFP, Citrine, Venus, YPet, PhiYFP, ZsYellow1), proteínas fluorescentes azuis (por exemplo, BFP, EBFP, EBFP2, Azurite, mKalama1, GFPuv, Sapphire, T-sapphire), proteínas fluorescentes ciano (por exemplo, ECFP, Cerulean, CyPet, AmCyan1, Midoriishi-Cyan), proteínas fluorescentes vermelhas (por exemplo, mKate, mKate2, mPlum, DsRed monomer, mCherry, mRFP1, DsRed- Express, DsRed2, DsRed-Monomer, HcRed-Tandem, HcRed1, As- Red2, eqFP611, mRasberry, mStrawberry, Jred), proteínas fluorescen-

tes laranjas (por exemplo, mOrange, mKO, Kusabira-Orange, Monome- ric Kusabira-Orange, mTangerine, tdTomato) ou combinações das mes- mas. O domínio marcador pode compreender repetições em tandem de uma ou mais proteínas fluorescentes (por exemplo, Suntag).

[0023] Em uma modalidade, a proteína marcadora é selecionada a partir do seguinte: Sequência de proteína marcadora MVSKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLK- FICTTGKLPVPW-

PTLVTTLTYGVQCFSRYPDHMKQHDFFKSAMPEGYVQERTIFFKDD GNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHN- VYIMADKQKNGIKVNF-

KIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSTQSKLSKDPN EKRDHMVLLEFVTAAGITLGMDELYK (SEQ ID NO:19) MVSKGEAVIKEFMRFKVHMEGSMNGHEFEIEGEGEGRPYEGT- QTAKLKVTKGGPL-

PFSWDILSPQFMYGSRAFTKHPADIPDYYKQSFPEGFKWERVMNFE DGGAVTVTQDTSLEDGTLIYKVKLRGTNFPPDGPVMQKKTM- GWEASTERLYPEDGVLKGDIK-

MALRLKDGGRYLADFKTTYKAKKPVQMPGAYNVDRKLDITSHNEDY TVVEQYERSEGRHSTGGMDELYK (SEQ ID NO:20)

[0024] Exemplos não limitativos de marcadores de purificação ou epítopo adequados incluem 6xHis (SEQ ID NO:22), FLAG® (por exem- plo, SEQ ID NO:21), HA, GST, Myc, SAM e semelhantes. Exemplos não limitativos de fusões heterólogas que facilitam a detecção ou enriqueci- mento de complexos CRISPR incluem estreptavidina (Kipriyanov et al., Human Antibodies, 1995, 6 (3): 93-101.), Avidina (Airenne et al., Biomo- lecular Engineering, 1999, 16 (1-4): 87-92), formas monoméricas de avi- dina (Laitinen et al., Journal of Biological Chemistry, 2003, 278 (6): 4010- 4014), marcadores de peptídeo que facilitam a biotinilação durante a produção recombinante (Cull et al., Methods in Enzymology, 2000, 326: 430-440).

[0025] Além de um sinal (ou sinais) de localização nuclear e uma proteína marcadora (ou umas proteínas marcadoras), em várias moda- lidades a proteína Cas9 geneticamente modificada também pode incluir um ou mais domínios heterólogos, como um domínio de penetração ce- lular, um domínio marcador, um domínio de interrupção de cromatina, um domínio de modificação epigenética (por exemplo, um domínio de citidina desaminase, um domínio de histona acetiltransferase e seme- lhantes), um domínio de regulação da transcrição, um domínio de liga- ção de aptâmero de RNA ou um domínio de nuclease não Cas9.

[0026] Em algumas modalidades, os um ou mais domínios heteró- logos podem ser um domínio de penetração celular. Exemplos de domí- nios de penetração celular adequados incluem, sem limite, GRKKRR- QRRRPPQPKKKRKV (SEQ ID NO:23), PLSSIFSRIGDPPKKKRKV (SEQ ID NO:24), GALFLGWLGAAGSTMGAPKKKRKV (SEQ ID NO:25), GALFLGFLGAAGSTMGAWSQPKKKRKV (SEQ ID NO:26), KETWWETWWTEWSQPKKKRKV (SEQ ID NO:27), YARAAARQARA (SEQ ID NO:28), THRLPRRRRRR (SEQ ID NO:29), GGRRARRRRRR (SEQ ID NO:30), RRQRRTSKLMKR (SEQ ID NO:31), GWTLNSAGYLL- GKINLKALAALAKKIL (SEQ ID NO:32), KALAWEAKLAKALAKALAKH- LAKALAKALKCEA (SEQ ID NO:33) e RQIKIWFQNRRMKWKK (SEQ ID NO:34).

[0027] Em ainda outras modalidades, os um ou mais domínios he- terólogos podem ser um motivo de modulação da cromatina (CMM). Exemplos não limitativos de CMMs incluem peptídeos que interagem com nucleossomas derivados a partir de proteínas do grupo de alta mo- bilidade (HMG) Proteínas (por exemplo, proteínas HMGB1, HMGB2, HMGB3, HMGN1, HMGN2, HMGN3a, HMGN3b, HMGN4, e HMGN5), o domínio globular central de variantes de histona H1 (por exemplo,

histona H1.0, H1.1, H1.2, H1.3, H1.4, H1.5, H1.6, H1.7, H1.8, H1.9, e H.1.10), ou domínios de ligação de DNA de complexos de remodelagem de cromatina (por exemplo, SWI/SNF (SWItch/Sacarose Não-Fermen- tável), ISWI (Imitação SWItch), CHD (ligação de Cromodomínio-Heli- case-DNA), Mi-2/NuRD (Remodelagem de nucleossomas e Deaceti- lase), INO80, SWR1, e complexos de RSC.

Em outras modalidades, CMMs também podem ser derivados a partir de topoisomerases, heli- cases ou proteínas virais.

A fonte de CMM pode e irá variar.

CMMs po- dem ser a partir de seres humanos, animais (isto é, vertebrados e inver- tebrados), plantas, algas ou levedura.

Exemplos não limitativos de CMMs específicos são listados na tabela abaixo.

Os versados na téc- nica podem facilmente identificar homólogos em outras espécies e/ou o motivo de fusão relevante nos mesmos.

Proteína No. de Motivo da fusão Acesso

HMGN1 Humano P05114 Comprimento total

HMGN2 Humano P05204 Comprimento total

HMGN3a Humano Q15651 Comprimento total

HMGN3b Humano Q15651-2 Comprimento total

HMGN4 Humano O00479 Comprimento total

HMGN5 Humano P82970 Motivo de ligação ao nu- cleossoma

HMGB1 Humano P09429 Caixa A

Histona H1.0 Humana P07305 Motivo globular

Histona H1.2 Humana P16403 Motivo globular

CHD1 Humano O14646 Motivo de ligação de DNA

Levedura CHD1 P32657 Motivo de ligação de DNA

Levedura ISWI P38144 Motivo de ligação de DNA TOP1 Humano P11387 Motivo de ligação de DNA Herpesvírus humano 8 J9QSF0 Motivo de ligação ao nu- LANA cleossoma CMV IE1 Humano P13202 Motivo de constrição de cromatina DNA helicase M. leprae P40832 Motivo de ligação de HhH

[0028] Em ainda outras modalidades, os um ou mais domínios he- terólogos podem ser um domínio de modificação epigenética. Exemplos não limitativos de domínios de modificação epigenética adequados in- cluem aqueles com desaminação de DNA (por exemplo, citidina desa- minase, adenosina desaminase, guanina desaminase), atividade de DNA metiltransferase (por exemplo, citosina metiltransferase), atividade de DNA desmetilase, aminação de DNA, atividade de oxidação de DNA, DNA helicase atividade, atividade histona acetiltransferase (HAT) (por exemplo, domínio HAT derivado a partir da proteína de ligação de E1A p300), atividade histona desacetilase, atividade histona metiltransfe- rase, atividade histona desmetilase, atividade histona quinase, atividade histona fosfatase, atividade histona ubiquitina ligase, atividade desubi- quitinante de histona, atividade de adenilação de histona, atividade de deadenilação de histona, atividade de SUMOilação de histona, atividade de desSUMOilação de histona, atividade de ribosilação de histona, ati- vidade de deribosilação de histona, atividade de miristoilação de his- tona, atividade de desmiristoilação de histona, atividade de citrulinação de histona, atividade de alquilação de histona, atividade de desalquila- ção de histona ou uma atividade de oxidação. Em modalidades especí- ficas, o domínio de modificação epigenética pode compreender a ativi- dade da citidina desaminase, atividade da adenosina desaminase, ativi- dade da histona acetiltransferase ou atividade da DNA metiltransferase.

[0029] Em outras modalidades, um ou mais domínios heterólogos podem ser um domínio de regulação da transcrição (isto é, um domínio de ativação da transcrição ou um domínio repressor da transcrição). Do- mínios de ativação transcricional adequados incluem, sem limite, domí- nio VP16 do vírus herpes simplex, VP64 (isto é,quatro cópias em tan- dem de VP16), VP160 (isto é, dez cópias em tandem de VP16), domínio de ativação NFκB p65 (p65), domínio transativador (Rta) do vírus Eps- tein-Barr R, VPR (isto é, VP64+p65+Rta), domínios de ativação trans- cricional dependentes de p300, domínios de ativação 1 e 2 de p53, do- mínios de ativação do fator de choque térmico 1 (HSF1), domínios de ativação Smad4 (SAD), domínios de ativação da proteína de ligação do elemento de resposta do cAMP (CREB), domínios de ativação E2A, do- mínios de ativação do fator nuclear de células T ativadas (NFAT) ou combinações dos mesmos. Exemplos não limitativos de domínios re- pressores transcricionais adequados incluem domínios repressores de caixa associada a Kruppel (KRAB), domínios repressores Mxi, domínios repressores precoces de cAMP indutíveis (ICER), domínios repressores ricos em glicina YY1, repressores semelhantes a Sp1, repressores E (spl), Repressores IκB, repressores Sin3, repressores de proteína 2 de ligação de metil-CpG (MeCP2) ou combinações dos mesmos. A ativa- ção transcricional ou domínios repressores transcricionais podem ser geneticamente fundidos à proteína Cas9 ou ligados por meio de intera- ções proteína-proteína não covalente, proteína-RNA ou proteína-DNA.

[0030] Em modalidades adicionais, os um ou mais domínios hete- rólogos podem ser um domínio de ligação de aptâmero de RNA (Kumr- mann et al., Nature, 2015, 517(7536):583-588; Zalatan et al., Cell, 2015, 160(1-2):339-50). Exemplos de domínios de proteína de aptâmero de RNA adequados incluem proteína de revestimento MS2 (MCP), proteína de revestimento de bacteriófago PP7 (PCP), proteína Com de bacterió- fago Mu, proteína N22 de bacteriófago lambda, proteína de ligação de haste-laço (SLBP), proteína relacionada à síndrome de retardo mental Frágil X 1 (FXR1), proteínas derivadas a partir de bacteriófago AP205, BZ13, f1, f2, fd, fr, ID2, JP34/GA, JP501, JP34, JP500, KU1, M11, M12, MX1, NL95, PP7, ϕCb5, ϕCb8r, ϕCb12r, ϕCb23r, Qβ, R17, SP-β, TW18, TW19, e VK, fragmentos dos mesmos, ou derivados dos mesmos.

[0031] Em ainda outras modalidades, um ou mais domínios heteró- logos podem ser um domínio de nuclease não Cas9. Domínios de nu- clease adequados podem ser obtidos a partir de qualquer endonuclease ou exonuclease. Exemplos não limitativos de endonucleases a partir das quais um domínio de nuclease pode ser derivado incluem, mas não es- tão limitados a, endonucleases de restrição e endonucleases de ho- ming. Em algumas modalidades, o domínio de nuclease pode ser deri- vado a partir de uma endonuclease de restrição tipo II-S. As endonu- cleases do tipo II-S clivam o DNA em locais que são tipicamente vários pares de bases de distância a partir do local de reconhecimento/ligação e, como tal, têm domínios de ligação e clivagem separáveis. Essas en- zimas geralmente são monômeros que se associam transitoriamente para formar dímeros para clivar cada fita de DNA em locais alternados. Exemplos não limitativos de endonucleases de tipo II-S adequadas in- cluem BfiI, BpmI, BsaI, BsgI, BsmBI, BsmI, BspMI, FokI, MboII e SapI. Em algumas modalidades, o domínio de nuclease pode ser um domínio de nuclease FokI ou um derivado do mesmo. O domínio de nuclease tipo II-S pode ser modificado para facilitar a dimerização de dois domí- nios de nuclease diferentes. Por exemplo, o domínio de clivagem de FokI pode ser modificado por mutação de certos resíduos de aminoáci- dos. A título de exemplo não limitativo, resíduos de aminoácidos nas posições 446, 447, 479, 483, 484, 486, 487, 490, 491, 496, 498, 499, 500, 531, 534, 537, e 538 de domínios de nuclease FokI são alvos para modificação. Em modalidades específicas, o domínio de nuclease FokI pode compreender um primeiro meio-domínio FokI compreendendo mu- tações Q486E, I499L e/ou N496D e um segundo meio-domínio FokI compreendendo mutações E490K, I538K e/ou H537R.

[0032] Os um ou mais domínios heterólogos podem ser ligados di- retamente à proteína Cas9 por meio de uma ou mais ligações químicas (por exemplo, ligações covalentes), ou um ou mais domínios heterólo- gos podem ser ligados indiretamente à proteína Cas9 por meio de um ou mais ligantes.

[0033] Um ligante é um grupo químico que conecta um ou mais ou- tros grupos químicos por meio de pelo menos uma ligação covalente. Ligantes adequados incluem aminoácidos, peptídeos, nucleotídeos, áci- dos nucleicos, moléculas ligantes orgânicas (por exemplo, derivados de maleimida, N-etoxibenzilimidazol, bifenil-3,4′, ácido 5-tricarboxílico, p- aminobenziloxicarbonil e semelhantes), ligantes dissulfeto, e ligantes de polímero (por exemplo, PEG). O ligante pode incluir um ou mais grupos espaçadores incluindo, mas não se limitando a alquileno, alquenileno, alquinileno, alquila, alquenila, alquinila, alcoxi, arila, heteroarila, aral- quila, aralquenila, aralquinila e semelhantes. O ligante pode ser neutro ou carregar uma carga positiva ou negativa. Além disso, o ligante pode ser clivável de modo que a ligação covalente do ligante que conecta o ligante a outro grupo químico pode ser quebrada ou clivada sob certas condições, incluindo pH, temperatura, concentração de sal, luz, um ca- talisador ou uma enzima. Em algumas modalidades, o ligante pode ser a ligante peptídico. O ligante peptídico pode ser um ligante de aminoá- cido flexível (por exemplo, compreendendo aminoácidos pequenos, não polares ou polares).

[0034] Em uma modalidade particular, o ligante é selecionado a par- tir do seguinte: Sequência de Proteína Ligante

AEAAAKEAAAKEAAAKEAAAKALEAEAAAKEAAAKEAAAKEAAAKA

(SEQ ID NO:35) SGGSSGGSSGSETPGTSESATPESSGGSSGGS (SEQ ID NO:36)

[0035] Outros exemplos não limitativos de ligantes flexíveis incluem LEGGGS (SEQ ID NO:37), TGSG (SEQ ID NO:38), GGSGGGSG (SEQ ID NO:39), (GGGGS)1-4 (SEQ ID NO:40) e (Gly)6-8 (SEQ ID NO:41). Al- ternativamente, o ligante peptídico pode ser um ligante de aminoácido rígido. Tais ligantes incluem (EAAAK)1-4 (SEQ ID NO:42), A(EAAAK)2-5A (SEQ ID NO:43), PAPAP (SEQ ID NO:44), e (AP)6-8 (SEQ ID NO:45). Exemplos adicionais de ligantes adequados são bem conhecidos na téc- nica e programas para projetar ligantes estão prontamente disponíveis (Crasto et al., Protein Eng., 2000, 13(5):309-312).

[0036] Em algumas modalidades, as proteínas Cas9 geneticamente modificadas podem ser produzidas de forma recombinante em sistemas livres de células, células bacterianas ou células eucarióticas e purifica- das usando meios de purificação padrão. Em outras modalidades, as proteínas Cas9 geneticamente modificadas são produzidas in vivo em células eucarióticas de interesse a partir de ácidos nucleicos que codifi- cam as proteínas Cas9 geneticamente modificadas (consultar seção (II) abaixo).

[0037] Em modalidades nas quais a proteína Cas9 geneticamente modificada compreende atividade de nuclease ou nickase, A proteína Cas9 geneticamente modificada pode compreender ainda pelo menos um domínio de penetração celular, bem como pelo menos um domínio de interrupção da cromatina. Em modalidades nas quais a proteína Cas9 geneticamente modificada é ligada a um domínio de modificação epigenética, a proteína Cas9 geneticamente modificada pode compre- ender ainda pelo menos um domínio de penetração celular, bem como pelo menos um domínio de interrupção da cromatina. Além disso, em modalidades em que a proteína Cas9 geneticamente modificada é li-

gada a um domínio de regulação da transcrição, a proteína Cas9 gene- ticamente modificada pode compreender ainda pelo menos um domínio de penetração celular, bem como pelo menos um domínio de interrup- ção da cromatina e/ou pelo menos um domínio de ligação de aptâmero de RNA.

[0038] Os vários componentes da proteína de fusão podem ser combinados, a partir de N-terminal ao C-terminal, em qualquer ordem. Por exemplo, em que A representa a proteína marcadora, B representa um sinal de localização nuclear e C representa a proteína Cas9, a pro- teína de fusão pode ser disposta, a partir do terminal N ao terminal C, da seguinte maneira: A-B-C; A-C-B; B-A-C; B-C-A; C-A-B; ou C-B-A, em que um ligante (“-L-“) pode ser disposto entre quaisquer dois itens (por exemplo, A-L-B-C; A-B-L-C; A-L-B-L-C; e assim por diante). (B) RNAs guia geneticamente modificados

[0039] Os RNAs guia geneticamente modificados são projetados para se complexarem com a proteína Cas9 geneticamente modificada específica. Um RNA guia compreende (i) um RNA CRISPR (crRNA) que contém uma sequência guia na extremidade 5' que hibridiza com uma sequência alvo e (ii) uma sequência de transação de crRNA (tracrRNA) que recruta a proteína Cas9. A sequência guia de crRNA de cada RNA guia é diferente (isto é, é específica para a sequência). A sequência tracrRNA é geralmente a mesma em RNAs guia projetados para com- plexar com uma proteína Cas9 a partir de uma espécie bacteriana par- ticular.

[0040] A sequência guia de crRNA é projetada para hibridizar com uma sequência alvo (isto é, protoespaçador) em uma sequência de fita dupla. Em geral, a complementaridade entre o crRNA e a sequência alvo é de pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95% ou pelo menos 99%. Em modalidades específicas, a com- plementaridade é completa (isto é, 100%). Em várias modalidades, o comprimento da sequência guia de crRNA pode variar de cerca de 15 nucleotídeos a cerca de 25 nucleotídeos. Por exemplo, a sequência guia de crRNA pode ter cerca de 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 ou 25 nucleotídeos de comprimento. Em modalidades específicas, o crRNA tem cerca de 19, 20 ou 21 nucleotídeos de comprimento. Em uma mo- dalidade, a sequência guia de crRNA tem um comprimento de 20 nucle- otídeos.

[0041] O RNA guia compreende a sequência de repetição que forma pelo menos uma estrutura de haste de laço, que interage com a proteína Cas9, e a sequência 3' que permanece de fita simples. O com- primento de cada laço e haste pode variar. Por exemplo, o laço pode variar de cerca de 3 a cerca de 10 nucleotídeos de comprimento, e a haste pode variar de cerca de 6 a cerca de 20 pares de bases de com- primento. A haste pode compreender uma ou mais protuberâncias de 1 a cerca de 10 nucleotídeos. O comprimento da região 3' de fita simples pode variar. A sequência de tracrRNA no RNA guia geneticamente mo- dificado geralmente é baseada na sequência de codificação do tracrRNA de tipo selvagem na espécie bacteriana de interesse. A se- quência de tipo selvagem pode ser modificada para facilitar a formação da estrutura secundária, aumentar a estabilidade da estrutura secundá- ria, facilitar a expressão em células eucarióticas e assim por diante. Por exemplo, uma ou mais alterações de nucleotídeos podem ser introduzi- das na sequência de codificação do RNA guia (consultar Exemplo 3, abaixo). A sequência de tracrRNA pode variar em comprimento de cerca de 50 nucleotídeos a cerca de 300 nucleotídeos. Em várias modalida- des, o tracrRNA pode variar em comprimento de cerca de 50 a cerca de 90 nucleotídeos, de cerca de 90 a cerca de 110 nucleotídeos, de cerca de 110 a cerca de 130 nucleotídeos, de cerca de 130 a cerca de 150 nucleotídeos, de cerca de 150 a cerca de 170 nucleotídeos, de cerca de

170 a cerca de 200 nucleotídeos, de cerca de 200 a cerca de 250 nu- cleotídeos, ou de cerca de 250 a cerca de 300 nucleotídeos.

[0042] Em geral, o RNA guia geneticamente modificado é uma mo- lécula única (isto é, um único RNA guia ou sgRNA), em que a sequência de crRNA está ligada à sequência de tracrRNA. Em algumas modalida- des, no entanto, o RNA guia geneticamente modificado pode ser duas moléculas separadas. Uma primeira molécula compreendendo o crRNA que contém a sequência 3' (compreendendo de cerca de 6 a cerca de 20 nucleotídeos) que é capaz de parear a base com a extremidade 5' de uma segunda molécula, em que a segunda molécula compreende o tracrRNA que contém a sequência 5' (compreendendo de cerca de 6 a cerca de 20 nucleotídeos) que é capaz de parear bases com a extremi- dade 3' da primeira molécula.

[0043] Em algumas modalidades, a sequência de tracrRNA do RNA guia geneticamente modificado pode ser modificada para compreender uma ou mais sequências de aptâmero (Kumrmann et al., Nature, 2015, 517(7536):583-588; Zalatan et al., Cell, 2015, 160(1-2):339-50). Se- quências de aptâmero adequadas incluem aquelas que ligam proteínas adaptadoras escolhidas a partir de MCP, PCP, Com, SLBP, FXR1, AP205, BZ13, f1, f2, fd, fr, ID2, JP34/GA, JP501, JP34, JP500, KU1, M11, M12, MX1, NL95, PP7, ϕCb5, ϕCb8r, ϕCb12r, ϕCb23r, Qβ, R17, SP-β, TW18, TW19, VK, fragmentos dos mesmos, ou derivados dos mesmos. Aqueles versados na técnica apreciam que o comprimento da sequência do aptâmero pode variar.

[0044] Em outras modalidades, o RNA guia pode ainda compreen- der pelo menos um marcador detectável. O marcador detectável pode ser um fluoróforo (por exemplo, FAM, TMR, Cy3, Cy5, Texas Red, Ore- gon Green, Alexa Fluors, Halo tags ou corante fluorescente adequado), um marcador de detecção (por exemplo, biotina, digoxigenina e seme- lhantes), pontos quânticos ou partículas de ouro.

[0045] O RNA guia pode compreender ribonucleotídeos padrão e/ou ribonucleotídeos modificados. Em algumas modalidades, o RNA guia pode compreender desoxirribonucleotídeos padrão ou modifica- dos. Em modalidades nas quais o RNA guia é sintetizado enzimatica- mente (isto é, in vivo ou in vitro), o RNA guia geralmente compreende ribonucleotídeos padrão. Em modalidades nas quais o RNA guia é qui- micamente sintetizado, o RNA guia pode compreender ribonucleotídeos padrão ou modificados e/ou desoxirribonucleotídeos. Ribonucleotídeos modificados e/ou desoxirribonucleotídeos incluem modificações de base (por exemplo, pseudouridina, 2-tiouridina, N6-metiladenosina e se- melhantes) e/ou modificações de açúcar (por exemplo, 2'-O-meti, 2'-flu- oro, 2'-amino, ácido nucleico bloqueado (LNA) e assim por diante). A espinha dorsal do RNA guia também pode ser modificada para compre- ender ligações de fosforotioato, ligações de boranofosfato ou ácidos nu- cleicos de peptídeo. (c) Sequência PAM

[0046] Em algumas modalidades, a sequência alvo pode ser adja- cente a um motivo adjacente de protoespaçador (PAM), uma sequência curta reconhecida por um complexo CRISPR/Cas9. Em algumas moda- lidades, o PAM pode ser adjacente a ou dentro de 1, 2, 3 ou 4 nucleotí- deos da extremidade 3' da sequência alvo. O comprimento e a sequên- cia do PAM podem depender da proteína Cas9 usada. Por exemplo, o PAM pode ser selecionado a partir de um consenso ou uma sequência particular de PAM para uma proteína Cas9 ou ortólogo Cas9 específico, incluindo aqueles divulgados na Figura 1 de Ran et al., Nature, 520: 186- 191 (2015), que é incorporado ao presente documento a título de refe- rência. Em algumas modalidades, o PAM pode compreender 2, 3, 4, 5, 6, 7, 8, 9 ou 10 nucleotídeos de comprimento. Sequências PAM exem- plares não limitativas incluem NGG, NGGNG, NG, NAAAAN,

NNAAAAW, NNNNACA, GNNNCNNA e NNNNGATT (em que N é defi- nido como qualquer nucleotídeo, e W é definido como A ou T). Em al- gumas modalidades, a sequência PAM pode ser NGG. Em algumas mo- dalidades, a sequência PAM pode ser NGGNG. Em algumas modalida- des, a sequência PAM pode ser NNAAAAW.

[0047] Será entendido que diferentes proteínas CRISPR reconhe- cem diferentes sequências PAM. Por exemplo, as sequências PAM para proteínas Cas9 incluem 5'-NGG, 5'-NGGNG, 5'-NNAGAAW, 5'-NNNN- GATT, 5-NNNNRYAC, 5'-NNNNCAAA, 5'-NGAAA, 5'-NNAAT, 5 ' -NNN- RTA, 5'-NNGG, 5'-NNNRTA, 5'-MMACCA, 5'-NNNNGRY, 5'-NRGNK, 5'-GGGRG, 5'-NNAMMMC e 5'-NNG, e sequências PAM para proteínas Cas12a incluem 5'-TTN e 5'-TTTV, em que N é definido como qualquer nucleotídeo, R é definido como G ou A, W é definido como A ou T, Y é definido como C ou T, e V é definido como A, C ou G. Em geral, os PAMs Cas9 estão localizados a 3 da sequência alvo e os PAMs Cas12a estão localizados a 5' da sequência alvo. Várias sequências PAM e as proteínas CRISPR que as reconhecem são conhecidas na técnica, por exemplo, Publicação do Pedido de Patente U.S. 2019/0249200; Leenay, Ryan T., et al. "Identifying and visualizing functional PAM diversity across CRISPR-Cas systems." Molecular cell 62.1 (2016): 137-147; and Kleinstiver, Benjamin P., et al. "Engineered CRISPR-Cas9 nucleases with altered PAM specificities." Nature 523.7561 (2015): 481, cada um dos quais é incorporado a título de referência ao presente documento em sua totalidade.

[0048] Além disso ou alternativamente, o PAM para cada um dos sistemas Cas9 projetados divulgados aqui é apresentado abaixo. Sequências PAM Sistema Cas9 geneticamente modificado PAM (5’-3’)* Bacillus smithii Cas9 (BsmCas9) NNNNCAAA

Lactobacillus rhamnosus Cas9 (LrhCas9) NGAAA Parasutterella excrementihominis Cas9 (PexCas9) NGG Mycoplasma canis Cas9 (McaCas9) NNGG Mycoplasma gallisepticum Cas9 (MgaCas9) NNAAT Akkermansia glycaniphila Cas9 (AglCas9) NNNRTA Akkermansia muciniphila Cas9 (AmuCas9) MMACCA Oenococcus kitaharae Cas9 (OkiCas9) NNG Bifidobacterium bombi Cas9 (BboCas9) NNNNGRY Acidothermus cellulolyticus Cas9 (AceCas9) NGG Alicyclobacillus hesperidum Cas9 (AheCas9) NGG Wolinella succinogenes Cas9 (WsuCas9) NGG Nitratifractor salsuginis Cas9 (NsaCas9) NRGNK Ralstonia syzygii Cas9 (RsyCas9) GGGRG Corynebacterium diphtheria Cas9 (CdiCas9) NNAMMMC * K é G ou T; M é A ou C; R é A ou G; Y é C ou T; e N é A, C, G, ou T.

[0049] Consultar, por exemplo, a Publicação do Pedido de Patente U.S. No. 2019/0249200 (incorporado ao presente documento a título de referência em sua totalidade. (II) ÁCIDOS NUCLEICOS

[0050] Um outro aspecto da presente revelação fornece ácidos nu- cleicos que codificam os sistemas Cas9 projetados descritos acima na seção (I). Os sistemas podem ser codificados por ácidos nucleicos úni- cos ou ácidos nucleicos múltiplos. Os ácidos nucleicos podem ser DNA ou RNA, linear ou circular, de fita simples ou de fita dupla. O RNA ou DNA pode ser códon otimizado para tradução eficiente em proteína na célula eucariótica de interesse. Os programas de otimização de códons estão disponíveis como freeware ou a partir de fontes comerciais.

[0051] Em algumas modalidades, o ácido nucleico codifica uma pro- teína tendo pelo menos cerca de 75%, pelo menos cerca de 80%, pelo menos cerca de 85%, pelo menos cerca de 90%, pelo menos cerca de 95%, ou pelo menos cerca de 99% de identidade de sequência com a sequência de aminoácidos de SEQ ID NO:48, 49, ou 50. Em certas mo- dalidades, o ácido nucleico que codifica a proteína Cas9 geneticamente modificada pode ter pelo menos cerca de 75%, pelo menos cerca de 80%, pelo menos cerca de 85%, pelo menos cerca de 90%, pelo menos cerca de 95%, ou pelo menos cerca de 99% de identidade de sequência com a sequência de DNA de SEQ ID NO:48, 49, ou 50. Em certas mo- dalidades, o DNA que codifica a proteína Cas9 geneticamente modifi- cada tem a sequência de DNA de SEQ ID NO:48, 49 ou 50. Em moda- lidades adicionais, o ácido nucleico codifica uma proteína tendo pelo menos cerca de 75%, pelo menos cerca de 80%, pelo menos cerca de 85%, pelo menos cerca de 90%, pelo menos cerca de 95%, ou pelo menos cerca de 99% de identidade de sequência para a sequência de aminoácidos de SEQ ID NO:48, 49 ou 50.

[0052] Em algumas modalidades, o ácido nucleico que codifica a proteína Cas9 geneticamente modificada pode ser RNA. O RNA pode ser sintetizado enzimaticamente in vitro. Para isso, o DNA que codifica a proteína Cas9 geneticamente modificada pode ser operacionalmente ligado a uma sequência promotora que é reconhecida por uma polime- rase de RNA de fago para síntese de RNA in vitro. Por exemplo, a se- quência promotora pode ser uma sequência promotora T7, T3 ou SP6 ou uma variação de uma sequência promotora T7, T3 ou SP6. O DNA que codifica a proteína modificada pode ser parte de um vetor, conforme detalhado abaixo. Em tais modalidades, o RNA transcrito in vitro pode ser purificado, com cap e/ou poliadenilado. Em outras modalidades, o RNA que codifica a proteína Cas9 geneticamente modificada pode ser parte de um RNA autorreplicante (Yoshioka et al., Cell Stem Cell, 2013, 13:246-254). O RNA autorreplicante pode ser derivado de um replicon de RNA do vírus da encefalite equina venezuelana (VEE) não infeccioso e autorreplicante, que é um RNA de fita simples de sentido positivo que é capaz de se autorreplicar para um número limitado de divisões celu- lares, e que pode ser modificado para codificar proteínas de interesse (Yoshioka et al., Cell Stem Cell, 2013, 13:246-254).

[0053] Em outras modalidades, o ácido nucleico que codifica a pro- teína Cas9 geneticamente modificada pode ser DNA. A sequência de codificação de DNA pode ser operacionalmente ligada pelo menos uma sequência de controle do promotor para expressão na célula de inte- resse. Em certas modalidades, a sequência de codificação de DNA pode ser operacionalmente ligada a uma sequência promotora para a expressão da proteína Cas9 geneticamente modificada em células bac- terianas (por exemplo, E. coli) ou células eucarióticas (por exemplo, le- vedura, inseto ou mamífero). Os promotores bacterianos adequados in- cluem, sem limite, promotores T7, promotores lac operon, promotores- trp, promotorestac (que são híbridos de promotores trp e lac), variações de qualquer um dos anteriores e combinações de qualquer um dos an- teriores. Exemplos não limitativos de promotores eucarióticos adequa- dos incluem promotores constitutivos, regulados ou específicos de cé- lulas ou tecidos. As sequências de controle do promotor constitutivo eu- cariótico adequadas incluem, mas não estão limitadas a, promotor pre- coce imediato de citomegalovírus (CMV), promotor do vírus símio (SV40), promotor tardio principal de adenovírus, promotor do vírus do sarcoma de Rous (RSV), promotor do vírus do tumor mamário de ca- mundongo (MMTV), promotor de fosfoglicerato quinase (PGK), promo- tor de fator de alongamento (ED1)-alfa, promotores de ubiquitina, pro- motores de actina, promotores de tubulina, promotores de imunoglobu-

lina, fragmentos dos mesmos ou combinações de qualquer um dos an- teriores. Exemplos de sequências de controle de promotor reguladas por eucarióticas adequadas incluem, sem limite, aquelas reguladas por choque térmico, metais, esteroides, antibióticos ou álcool. Exemplos não limitantes de promotores específicos de tecido incluem promotor B29, promotor CD14, promotor CD43, promotor CD45, promotor CD68, promotor desmina, promotor elastase-1, promotor endoglina, promotor fibronectina, promotor Flt-1, promotor GFAP, promotor GPIIb, Promotor ICAM-2, promotor INF-β, promotor Mb, promotor NphsI, promotor OG- 2, promotor SP-B, promotor SYN1 e promotor WASP. A sequência do promotor pode ser do tipo selvagem ou pode ser modificada para uma expressão mais eficiente ou eficaz. Em algumas modalidades, a se- quência de codificação de DNA também pode ser ligada a um sinal de poliadenilação (por exemplo, sinal SV40 poliA, hormônio de crescimento bovino (BGH) sinal poliA, etc.) e/ou pelo menos uma sequência de ter- minação transcricional. Em algumas situações, a proteína Cas9 geneti- camente modificada pode ser purificada a partir das células bacterianas ou eucarióticas.

[0054] Em ainda outras modalidades, o RNA guia geneticamente modificado pode ser codificado por DNA. Em alguns casos, o DNA que codifica o RNA guia projetado pode ser operacionalmente ligado a uma sequência promotora que é reconhecida por uma polimerase de RNA de fago para síntese de RNA in vitro. Por exemplo, a sequência promo- tora pode ser uma sequência promotora T7, T3 ou SP6 ou uma variação de uma sequência promotora T7, T3 ou SP6. Em outros casos, o DNA que codifica o RNA guia geneticamente modificado pode ser operacio- nalmente ligado a uma sequência promotora que é reconhecida pela RNA polimerase III (Pol III) para expressão em células eucarióticas de interesse. Exemplos de promotores Pol III adequados incluem, mas não estão limitados a, promotores de RNA U6, U3, H1 e 7SL de mamífero.

[0055] Em várias modalidades, o ácido nucleico que codifica a pro- teína Cas9 geneticamente modificada pode estar presente em um vetor. Em algumas modalidades, o vetor pode ainda compreender ácido nu- cleico que codifica o RNA guia geneticamente modificado. Os vetores adequados incluem vetores plasmídicos, vetores virais e RNA de autor- replicação (Yoshioka et al., Cell Stem Cell, 2013, 13:246-254). Em algu- mas modalidades, o ácido nucleico que codifica o complexo ou proteína de fusão pode estar presente em um vetor plasmídeo. Exemplos não limitativos de vetores plasmídicos adequados incluem pUC, pBR322, pET, pBluescript e variantes dos mesmos. Em outras modalidades, o ácido nucleico que codifica o complexo ou proteína de fusão pode ser parte de um vetor viral (por exemplo, vetores lentivirais, vetores virais adeno-associados, vetores adenovirais e assim por diante). O plasmí- deo ou vetor viral pode compreender sequências de controle de expres- são adicionais (por exemplo, sequências potenciadoras, sequências Ko- zak, sequências de poliadenilação, sequências de terminação da trans- crição, etc.), sequências de marcadores selecionáveis (por exemplo, ge- nes de resistência a antibióticos), origens de replicação e semelhantes. Informações adicionais sobre vetores e sua utilização podem ser encon- tradas em "Current Protocols in Molecular Biology” Ausubel et al., John Wiley & Sons, Nova Iorque, 2003 ou “Molecular Cloning: A Laboratory Manual” Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3ª edição, 2001. (III) CÉLULAS EUCARIÓTICAS

[0056] Um outro aspecto da presente invenção compreende células eucarióticas compreendendo pelo menos um sistema Cas9 genetica- mente modificado como detalhado acima na seção (I) e/ou pelo menos um ácido nucleico que codifica e proteína Cas9 geneticamente modifi- cada e/ou RNA guia geneticamente modificado como detalhado acima na seção (II).

[0057] A célula eucariótica pode ser uma célula humana, a célula de mamífero não humano, uma célula de vertebrado não mamífero, uma célula de invertebrado, uma célula vegetal, ou um organismo eucariótico de célula única. Exemplos de células eucarióticas adequadas são deta- lhadas abaixo na seção (IV)(c). A célula eucariótica pode ser in vitro, ex vivo, ou in vivo.

[0058] A título de exemplo, em algumas modalidades, a célula eu- cariótica, ou uma população de células eucarióticas, é uma célula T, uma célula T CD8+, uma célula T naive CD8+, uma célula T de memória central, uma célula T de memória efetora, uma célula T CD4+, uma cé- lula T de memória de célula-tronco, uma célula T auxiliar, uma célula T reguladora, uma célula T citotóxica, uma célula T exterminadora natural, uma célula-tronco hematopoiética, uma célula-tronco hematopoiética de longo prazo, uma célula-tronco hematopoiética de curto prazo, uma cé- lula progenitora multipotente, uma célula progenitora de linhagem res- trita, uma célula progenitora linfoide, uma célula progenitora pancreá- tica, uma célula progenitora endócrina, uma célula progenitora exócrina, uma célula progenitora mieloide, uma célula progenitora mieloide co- mum, uma célula progenitora eritroide, uma célula progenitora eritróide de megacariócito, uma célula precursora monocítica, uma célula precur- sora endócrina, uma célula exócrina, um fibroblasto, um hepatoblasto, um mioblasto, um macrófago, uma célula beta de ilhota, um cardiomió- cito, uma célula sanguínea, uma célula ductal, uma célula acinar, uma célula alfa, uma célula beta, uma célula delta, uma célula PP, um colan- giócito, uma célula retiniana, uma célula fotorreceptora, uma célula de bastonete, uma célula cone, uma célula epitélio pigmentada da retina, uma célula da malha trabecular, uma célula ciliada coclear, uma célula externa célula ciliada, uma célula ciliada interna, uma célula epitelial pul- monar, uma célula epitelial brônquica, uma célula epitelial alveolar, uma célula progenitora epitelial pulmonar, uma célula muscular estriada, uma célula muscular cardíaca, uma célula satélite muscular, um miócito, um neurônio, uma célula-tronco neuronal, uma célula-tronco mesenquimal, uma célula-tronco pluripotente induzida (iPS), uma célula-tronco embri- onária, um monócito, um megacariócito, um neutrófilo, um eosinófilo, um basófilo, um mastócito, um reticulócito, uma célula B, e. uma célula B progenitora, uma célula Pré B, uma célula Pro B, uma célula B de memória, uma célula B plasmática, uma célula epitelial gastrointestinal, uma célula epitelial biliar, uma célula epitelial ductal pancreática, uma célula-tronco intestinal, um hepatócito, um célula estrelada do fígado, uma célula de Kupffer, um osteoblasto, um osteoclasto, um adipócito (por exemplo, um adipócito marrom ou um adipócito branco), um pré- adipócito, uma célula precursora do pâncreas, uma célula da ilhota pan- creática, uma célula beta pancreática, uma célula alfa pancreática, uma célula delta pancreática, uma célula exócrina pancreática, uma célula de Schwann ou um oligodendrócito, ou uma população de tais células. (IV) MÉTODOS PARA MODIFICAR SEQUÊNCIAS CRO-

MOSSÔMICAS

[0059] Um outro aspecto da presente invenção abrange métodos para modificar uma sequência cromossômica em células eucarióticas. Em geral, os métodos compreendem introduzir na célula eucariótica de interesse pelo menos um sistema Cas9 geneticamente modificado como detalhado acima na seção (I) e/ou pelo menos um ácido nucleico que codifica o dito sistema Cas9 geneticamente modificado como deta- lhado acima na seção (II).

[0060] Em modalidades em que a proteína Cas9 geneticamente modificada compreende atividade de nuclease ou nickase, a modifica- ção da sequência cromossômica pode compreender uma substituição de pelo menos um nucleotídeo, uma deleção de pelo menos um nucle- otídeo, uma inserção de pelo menos um nucleotídeo. Em algumas ite- rações, o método compreende a introdução na célula eucariótica de um sistema Cas9 geneticamente modificado compreendendo atividade de nuclease ou dois sistemas Cas9 geneticamente modificados compreen- dendo atividade de nickase e nenhum polinucleotídeo doador, de modo que o sistema ou sistemas Cas9 geneticamente modificados introduzam uma quebra de fita dupla no local alvo na sequência cromossômica e o reparo da quebra da fita dupla por processos de reparo do DNA celular introduz pelo menos uma alteração de nucleotídeo (isto é, indel), inati- vando assim a sequência cromossômica (isto é, gene knock-out). Em outras iterações, o método compreende a introdução na célula eucarió- tica de um sistema Cas9 geneticamente modificado compreendendo ati- vidade de nuclease ou dois sistemas Cas9 geneticamente modificados compreendendo atividade de nickase, bem como o polinucleotídeo do- ador, de modo que o sistema ou sistemas Cas9 geneticamente modifi- cado introduzam uma quebra do fita dupla no local alvo na sequência cromossômica e o reparo da quebra do fita dupla por processos de re- paro do DNA celular levam à inserção ou troca de sequência no polinu- cleotídeo doador no local alvo na sequência cromossômica (isto é, cor- reção de gene ou gene knock-in).

[0061] Em modalidades em que a proteína Cas9 geneticamente modificada compreende atividade de modificação epigenética ou ativi- dade de regulação da transcrição, a modificação da sequência cromos- sômica pode compreender uma conversão de pelo menos um nucleotí- deo no ou próximo ao local alvo, uma modificação de pelo menos um nucleotídeo no ou próximo ao alvo local, uma modificação de pelo me- nos uma proteína histona em ou próximo ao local alvo e/ou uma mu- dança na transcrição em ou próximo ao local alvo na sequência cromos- sômica. (A) INTRODUÇÃO À CÉLULA

[0062] Como mencionado acima, o método compreende a introdu-

ção na célula eucariótica de pelo menos um sistema Cas9 genetica- mente modificado e/ou ácido nucleico que codifica o dito sistema (e po- linucleotídeo doador opcional). Pelo menos um sistema e/ou ácido nu- cleico/polinucleotídeo doador pode ser introduzido na célula de inte- resse por uma variedade de meios.

[0063] Em algumas modalidades, a célula pode ser transfectada com as moléculas apropriadas (isto é, Proteína, DNA e/ou RNA). Méto- dos de transfecção adequados incluem nucleofecção (ou eletropora- ção), transfecção mediada por fosfato de cálcio, transfecção de polí- mero catiônico (por exemplo, DEAE-dextrano ou polietilenimina), trans- dução viral, transfecção de virossoma, transfecção de vírion, transfec- ção de lipossoma, transfecção de lipossoma catiônico, transfecção de lipossoma de imunolipossoma, transfecção, transfecção de dendrímero, transfecção de choque térmico, magnetofecção, lipofecção, entrega por arma de gene, impalefecção, sonoporação, transfecção óptica, e absor- ção patenteada aprimorada por agente de ácidos nucleicos. Os méto- dos de transfecção são bem conhecidos na técnica (consultar, por exemplo, “Current Protocols in Molecular Biology” Ausubel et al., John Wiley & Sons, Nova Iorque, 2003 ou “Molecular Cloning: A Laboratory Manual” Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3ª edição, 2001). Em outras modalidades, as moléculas po- dem ser introduzidas na célula por microinjeção. Por exemplo, as molé- culas podem ser injetadas no citoplasma ou núcleos das células de in- teresse. A quantidade de cada molécula introduzida na célula pode va- riar, mas as pessoas versadas na técnica estão familiarizadas com os meios para determinar a quantidade apropriada.

[0064] As várias moléculas podem ser introduzidas na célula simul- taneamente ou sequencialmente. Por exemplo, o sistema Cas9 geneti- camente modificado (ou seu ácido nucleico de codificação) e o polinu-

cleotídeo doador podem ser introduzidos ao mesmo tempo. Alternativa- mente, um pode ser introduzido primeiro e, em seguida, o outro pode ser introduzido posteriormente na célula.

[0065] Em geral, a célula é mantida em condições adequadas para o crescimento e/ou manutenção celular. As condições de cultura de cé- lulas adequadas são bem conhecidas na técnica e são descritas, por exemplo, em Santiago et al., Proc. Natl. Acad. Sci. USA, 2008, 105:5809-5814; Moehle et al. Proc. Natl. Acad. Sci. USA, 2007, 104:3055-3060; Urnov et al., Nature, 2005, 435:646-651; e Lombardo et al., Nat. Biotechnol., 2007, 25:1298-1306. As pessoas versadas na téc- nica reconhecem que os métodos para cultivar células são conhecidos na técnica e podem e irão variar dependendo do tipo de célula. A otimi- zação de rotina pode ser usada, em todos os casos, para determinar as melhores técnicas para um determinado tipo de célula. (B) POLINUCLEOTÍDEO DOADOR OPCIONAL

[0066] Em modalidades nas quais a proteína Cas9 geneticamente modificada compreende atividade de nuclease ou nickase, o método pode compreender ainda a introdução de pelo menos um polinucleotí- deo doador na célula. O polinucleotídeo doador pode ser de fita simples ou fita dupla, linear ou circular, e/ou RNA ou DNA. Em algumas modali- dades, o polinucleotídeo doador pode ser um vetor, por exemplo, um vetor plasmídeo.

[0067] O polinucleotídeo doador compreende pelo menos uma se- quência doadora. Em alguns aspectos, a sequência doadora do polinu- cleotídeo doador pode ser uma versão modificada de uma sequência cromossômica endógena ou nativa. Por exemplo, a sequência doadora pode ser essencialmente idêntica a uma porção da sequência cromos- sômica na ou perto da sequência alvejada pelo sistema Cas9 genetica- mente modificado, mas que compreende pelo menos uma alteração de nucleotídeo. Assim, após integração ou troca com a sequência nativa, a sequência na localização cromossômica alvejada compreende pelo me- nos uma alteração de nucleotídeo. Por exemplo, a mudança pode ser uma inserção de um ou mais nucleotídeos, uma deleção de um ou mais nucleotídeos, uma substituição de um ou mais nucleotídeos ou combi- nações dos mesmos. Como consequência da integração de "correção de gene" da sequência modificada, a célula pode produzir um produto de gene modificado a partir da sequência cromossômica alvejada.

[0068] Em outros aspectos, a sequência doadora do polinucleotídeo doador pode ser uma sequência exógena. Conforme usado no presente documento, uma sequência "exógena" refere-se a uma sequência que não é nativa da célula, ou uma sequência cuja localização nativa está em um local diferente no genoma da célula. Por exemplo, a sequência exógena pode compreender a sequência de codificação da proteína, que pode ser operacionalmente ligada a uma sequência de controle do promotor exógeno de modo que, após integração no genoma, a célula seja capaz de expressar a proteína codificada pela sequência integrada. Alternativamente, a sequência exógena pode ser integrada na sequên- cia cromossômica de modo que sua expressão seja regulada por uma sequência de controle do promotor endógeno. Em outras iterações, a sequência exógena pode ser uma sequência de controle da transcrição, outra sequência de controle de expressão, uma sequência de codifica- ção de RNA e assim por diante. Conforme observado acima, a integra- ção de uma sequência exógena em uma sequência cromossômica é denominada "knock in".

[0069] Como pode ser apreciado por aquelas pessoas versadas na técnica, o comprimento da sequência doadora pode e irá variar. Por exemplo, a sequência doadora pode variar em comprimento de vários nucleotídeos a centenas de nucleotídeos a centenas de milhares de nu- cleotídeos.

[0070] Normalmente, a sequência doadora no polinucleotídeo doa- dor é flanqueada por uma sequência a montante e uma sequência a jusante, que têm identidade de sequência substancial para sequências localizadas a montante e a jusante, respectivamente, da sequência al- vejada pelo sistema Cas9 geneticamente modificado. Devido a essas semelhanças de sequência, as sequências a montante e a jusante do polinucleotídeo doador permitem a recombinação homóloga entre o po- linucleotídeo doador e a sequência cromossômica alvejada de modo que a sequência do doador possa ser integrada (ou trocada com) a se- quência cromossômica.

[0071] A sequência a montante, tal como aqui utilizada, refere-se a uma sequência de ácido nucleico que compartilha identidade de se- quência substancial com uma sequência cromossômica a montante da sequência alvejada pelo sistema Cas9 geneticamente modificado. Da mesma forma, a sequência a jusante se refere a uma sequência de ácido nucleico que compartilha identidade de sequência substancial com uma sequência cromossômica a jusante da sequência alvejada pelo sistema Cas9 geneticamente modificado. Conforme usado no pre- sente documento, a frase "identidade de sequência substancial" refere- se a sequências com pelo menos cerca de 75% de identidade de se- quência. Assim, as sequências a montante e a jusante no polinucleotí- deo doador podem ter cerca de 75 %, 76 %, 77 %, 78 %, 79 %, 80 %, 81 %, 82 %, 83 %, 84 %, 85 %, 86 %, 87 %, 88 %, 89 %, 90 %, 91%, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, ou 99 % de identidade de sequência com sequência a montante ou a jusante da sequência alvo. Em uma modalidade exemplificativa, as sequências a montante e a ju- sante no polinucleotídeo doador podem ter cerca de 95% ou 100% de identidade de sequência com sequências cromossômicas a montante ou a jusante da sequência alvejada pelo sistema Cas9 geneticamente modificado.

[0072] Em algumas modalidades, a sequência a montante compar- tilha identidade de sequência substancial com uma sequência cromos- sômica localizada imediatamente a montante da sequência alvejada pelo sistema Cas9 geneticamente modificado. Em outras modalidades, a sequência a montante compartilha identidade de sequência substan- cial com uma sequência cromossômica que está localizada dentro de cerca de cem (100) nucleotídeos a montante a partir da sequência alvo. Assim, por exemplo, a sequência a montante pode compartilhar identi- dade de sequência substancial com uma sequência cromossômica que está localizada cerca de 1 a cerca de 20, cerca de 21 a cerca de 40, cerca de 41 a cerca de 60, cerca de 61 a cerca de 80 ou cerca de 81 a cerca de 100 nucleotídeos a montante a partir da sequência alvo. Em algumas modalidades, a sequência a jusante compartilha identidade de sequência substancial com uma sequência cromossômica localizada imediatamente a jusante da sequência alvejada pelo sistema Cas9 ge- neticamente modificado. Em outras modalidades, a sequência a jusante compartilha identidade de sequência substancial com uma sequência cromossômica que está localizada dentro de cerca de cem (100) nucle- otídeos a jusante a partir da sequência alvo. Assim, por exemplo, a se- quência a jusante pode compartilhar identidade de sequência substan- cial com uma sequência cromossômica que está localizada cerca de 1 a cerca de 20, cerca de 21 a cerca de 40, cerca de 41 a cerca de 60, cerca de 61 a cerca de 80 ou cerca de 81 a cerca de 100 nucleotídeos a jusante a partir da sequência alvo.

[0073] Cada sequência a montante ou a jusante pode variar em comprimento de cerca de 20 nucleotídeos a cerca de 5000 nucleotídeos. Em algumas modalidades, as sequências a montante e a jusante podem compreender cerca de 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2800, 3000, 3200, 3400, 3600,

3800, 4000, 4200, 4400, 4600, 4800 ou 5000 nucleotídeos. Em modali- dades específicas, as sequências a montante e a jusante podem variar em comprimento de cerca de 50 a cerca de 1500 nucleotídeos. (C) TIPOS DE CÉLULAS

[0074] Uma variedade de células eucarióticas é adequada para uso nos métodos aqui divulgados. Por exemplo, a célula pode ser uma cé- lula humana, uma célula de mamífero não humano, uma célula de ver- tebrado não mamífero, uma célula de invertebrado, uma célula de in- seto, uma célula de planta, uma célula de levedura ou um organismo eucariótico de célula única. Em algumas modalidades, a célula pode ser um embrião de uma célula. Por exemplo, um embrião de mamífero não humano incluindo embriões de rato, hamster, roedor, coelho, felino, ca- nino, ovino, porcino, bovino, equino e primata. Em ainda outras modali- dades, a célula pode ser uma célula-tronco, como células-tronco embri- onárias, células-tronco semelhantes a ES, células-tronco fetais, células- tronco adultas e semelhantes. Em uma modalidade, a célula-tronco não é uma célula-tronco embrionária humana. Além disso, as células-tronco podem incluir aquelas feitas pelas técnicas divulgadas no documento No. WO2003/046141, que é incorporado ao presente documento em sua totalidade, ou Chung et al. (Cell Stem Cell, 2008, 2:113-117). A cé- lula pode ser in vitro (isto é, em cultura), ex vivo (isto é, dentro de tecido isolado a partir de um organismo) ou in vivo (isto é, dentro de um orga- nismo). Em modalidades exemplificativas, a célula é uma célula de ma- mífero ou linha de células de mamífero. Em modalidades particulares, a célula é uma célula humana ou linha de células humanas.

[0075] A título de exemplo, em algumas modalidades, a célula eu- cariótica, ou uma população de células eucarióticas, é uma célula T, uma célula T CD8+, uma célula T naive CD8+, uma célula T de memória central, uma célula T de memória efetora, uma célula T CD4+, uma cé- lula T de memória de células-tronco, uma célula T auxiliar, uma célula T reguladora, uma célula T citotóxica, uma célula T exterminadora natural, uma célula-tronco hematopoiética, uma célula-tronco hematopoiética de longo prazo, uma célula-tronco hematopoiética de curto prazo célula, uma célula progenitora multipotente, uma célula progenitora de linha- gem restrita, uma célula progenitora linfoide, uma célula progenitora pancreática, uma célula progenitora endócrina, uma célula progenitora exócrina, uma célula progenitora mieloide, uma célula progenitora mie- loide comum, uma célula progenitora eritróide, uma célula progenitora eritróide megacariócita, uma célula precursora monocítica, uma célula precursora endócrina, uma célula exócrina, um fibroblasto, hepato- blasto, um mioblasto, um macrófago, uma célula beta da ilhota, um car- diomiócito, uma célula do sangue, uma célula ductal, uma célula acinar, uma célula alfa, uma célula beta, uma célula delta, uma célula PP, m colangiócito, uma célula retinal, uma célula fotorreceptora, uma célula em bastonete, uma célula cone, uma célula epitelial pigmentada da re- tina, uma célula da malha trabecular, uma célula ciliada coclear, uma célula ciliada externa, uma célula ciliada interna, uma célula epitelial pul- monar, uma célula epitelial brônquica, uma célula epitelial alveolar, uma célula progenitora epitelial pulmonar, uma célula muscular estriada, uma célula muscular cardíaca, uma célula muscular satélite, um miócito, um neurônio, uma célula-tronco neuronal, uma célula-tronco mesenquimal, a uma célula-tronco pluripotente induzida (iPS), uma célula-tronco em- brionária, um monócito, um megacariócito, um neutrófilo, um eosinófilo, um basófilo, um mastócito, um reticulócito, uma célula B, por exemplo, uma célula B progenitora, uma célula Pre B, uma célula Pro B, uma cé- lula B de memória, uma célula B plasmática, uma célula epitelial gas- trointestinal, uma célula epitelial biliar, uma célula epitelial ductal pan- creática, uma célula-tronco intestinal, um hepatócito, um célula estre- lada do fígado, uma célula de Kupffer, um osteoblasto, um osteoclasto, um adipócito (por exemplo, um adipócito marrom ou um adipócito branco), um pré-adipócito, uma célula precursora do pâncreas, uma cé- lula da ilhota pancreática, uma célula beta pancreática, uma célula alfa pancreática, uma célula delta pancreática, uma célula exócrina pancreá- tica, uma célula de Schwann ou um oligodendrócito, ou uma população de tais células.

[0076] Exemplos não limitativos de células de mamíferos ou linhas de células adequadas incluem células de rim embrionário humano (HEK293, HEK293T); células de carcinoma cervical humano (HELA); células de pulmão humano (W138); células hepáticas humanas (Hep G2); células de osteossarcoma U2-OS humano, células A549 humanas, células A-431 humanas e células K562 humanas; Células de ovário de hamster chinês (CHO), células de rim de hamster bebê (BHK); células NS0 de mieloma de camundongo, células de fibroblasto embrionário de camundongo 3T3 (NIH3T3), células A20 de linfoma B de camundongo; células B16 de melanoma de rato; células C2C12 de mioblasto de ca- mundongo; células SP2/0 de mieloma de camundongo; células C3H- 10T1/2 mesenquimais embrionárias de camundongo; células CT26 de carcinoma de camundongo, células DuCuP da próstata de camun- dongo; células EMT6 de mama de camundongo; células de hepatoma de camundongo Hepa1c1c7; células J5582 de mieloma de camun- dongo; células epiteliais MTD-1A de camundongo; células MyEnd do miocárdio de camundongo; células RenCa renais de camundongo; cé- lulas RIN-5F pancreáticas de rato; células de melanoma X64 de camun- dongo; células de linfoma YAC-1 de camundongo; células 9L de glioblastoma de rato; células RBL de linfoma B de rato; células B35 de neuroblastoma de rato; células de hepatoma de rato (HTC); células BRL 3A de fígado de rato búfalo; células renais caninas (MDCK); células ma- márias caninas (CMT); células D17 de osteossarcoma de rato; células DH82 de monócito/macrófago de rato; células de fibroblasto transforma- das de rim de macaco SV-40 (COS7); células CVI-76 de rim de macaco;

Células de rim de macaco verde africano. Uma extensa lista de linhas de células de mamíferos pode ser encontrada no catálogo American Type Culture Collection (ATCC, Manassas, VA). (V) APLICAÇÕES

[0077] As composições e métodos divulgados no presente docu- mento podem ser usados em uma variedade de aplicações terapêuticas, de diagnóstico, industriais e de pesquisa. Em algumas modalidades, a presente revelação pode ser usada para modificar qualquer sequência cromossômica de interesse em uma célula, animal ou planta a fim de modelar e/ou estudar a função de genes, estudar condições genéticas ou epigenéticas de interesse ou estudar vias bioquímicas envolvidos em várias doenças ou distúrbios. Por exemplo, podem ser criados organis- mos transgênicos que modelam doenças ou distúrbios, em que a ex- pressão de uma ou mais sequências de ácido nucleico associadas a uma doença ou distúrbio é alterada. O modelo de doença pode ser usado para estudar os efeitos de mutações no organismo, estudar o de- senvolvimento e/ou progressão da doença, estudar o efeito de um com- posto farmaceuticamente ativo na doença e/ou avaliar a eficácia de uma estratégia potencial de terapia gênica.

[0078] Em outras modalidades, as composições e métodos podem ser usados para realizar telas genômicas funcionais eficientes e econô- micas, que podem ser usadas para estudar a função dos genes envol- vidos em um processo biológico específico e como qualquer alteração na expressão do gene pode afetar o processo biológico, ou para realizar saturação ou mutagênese de varredura profunda de loci genômicos em conjunto com um fenótipo celular. Saturação ou mutagênese de varre- dura profunda pode ser usada para determinar características mínimas críticas e vulnerabilidades discretas de elementos funcionais necessá- rios para a expressão gênica, resistência a drogas e reversão da do- ença, por exemplo.

[0079] Em modalidades adicionais, as composições e métodos di- vulgados neste documento podem ser usados para testes de diagnós- tico para estabelecer a presença de uma doença ou distúrbio e/ou para uso na determinação de opções de tratamento. Exemplos de testes de diagnóstico adequados incluem a detecção de mutações específicas em células cancerosas (por exemplo, mutação específica em EGFR, HER2 e semelhantes), detecção de mutações específicas associadas a doen- ças particulares (por exemplo, repetições de trinucleotídeos, mutações em β-globina associada à falciforme doença celular, SNPs específicos, etc.), detecção de hepatite, detecção de vírus (por exemplo, Zika) e, as- sim por diante.

[0080] Em modalidades adicionais, as composições e métodos aqui divulgados podem ser usados para corrigir mutações genéticas associ- adas a uma doença ou distúrbio particular, como, por exemplo, corrigir mutações do gene da globina associadas à doença falciforme ou talas- semia, corrigir mutações no gene da adenosina desaminase associado com deficiência imunológica combinada grave (SCID), reduzir a expres- são de HTT, o gene causador da doença de Huntington, ou corrigir mu- tações no gene da rodopsina para o tratamento da retinite pigmentosa. Essas modificações podem ser feitas em células ex vivo.

[0081] Em ainda outras modalidades, as composições e métodos divulgados neste documento podem ser usados para gerar plantas de cultivo com características melhoradas ou maior resistência a estresses ambientais. A presente invenção também pode ser usada para gerar animais de fazenda com características melhoradas ou animais de pro- dução. Por exemplo, os porcos possuem muitas características que os tornam atraentes como modelos biomédicos, especialmente em medi- cina regenerativa ou xenotransplante.

[0082] Em ainda outras modalidades, as composições e métodos divulgados aqui podem ser usados para determinar a identidade cro- mossômica e a localização dentro de uma célula viva ou célula fixada quimicamente (tal como fixação com formalina usada em amostras clí- nicas fixadas com formalina e embebidas em parafina). Por exemplo, um complexo CRIPSR ligado por meio de uma sequência peptídica aqui divulgada a uma proteína fluorescente pode ser alvejado em cópias úni- cas ou múltiplas a um locus genético e tais complexos detectados por microscopia para determinar o número de cópias do locus cromossô- mico e/ou localização. Os loci genéticos de exemplo para rastreamento podem incluir regiões centroméricas, regiões teloméricas ou outras re- giões repetitivas do genoma às quais várias cópias de um único com- plexo CRISPR idêntico podem se ligar.

DEFINIÇÕES

[0083] A menos que definido de outra forma, todos os termos técni- cos e científicos usados aqui têm o significado comumente entendido por um especialista na técnica à qual esta invenção pertence. As se- guintes referências fornecem às pessoas versadas uma definição geral de muitos dos termos usados nesta invenção: Singleton et al., Dictionary of Microbiology and Molecular Biology (2ª Ed. 1994); The Cambridge Dictionary of Science e Technology (Walker ed., 1988); The Glossary of Genetics, 5ª Ed., R. Rieger et al. (eds.), Springer Verlag (1991); e Hale & Marham, The Harper Collins Dictionary of Biology (1991). Conforme usado no presente documento, os termos a seguir têm os significados atribuídos a eles, a menos que especificado de outra forma.

[0084] Ao introduzir elementos da presente revelação ou as moda- lidades preferidas da mesma, os artigos "um", "uma", "o", "a", "dito" e "dita" pretendem significar que há um ou mais dos elementos. Os termos “compreendendo", "incluindo" e "tendo” pretendem ser inclusivos e sig- nificam que pode haver elementos adicionais além dos elementos lista- dos.

[0085] O termo "cerca de" quando usado em relação a um valor nu- mérico, x, por exemplo, significa x ± 5 %.

[0086] Conforme usado no presente documento, os termos "com- plementar" ou "complementaridade" referem-se à associação de ácidos nucleicos de fita dupla por pareamento de bases através de ligações de hidrogênio específicas. O pareamento de base pode ser pareamento de base Watson-Crick padrão (por exemplo, pares 5'-A G T C-3' com a se- quência complementar 3'-T C A G-5'). O pareamento de bases também pode ser Hoogsteen ou ligação de hidrogênio Hoogsteen invertida. A complementaridade é normalmente medida em relação a uma região duplex e, portanto, exclui saliências, por exemplo. A complementaridade entre duas fitas da região duplex pode ser parcial e expressa como uma porcentagem (por exemplo, 70 %), se apenas algumas (por exemplo, 70 %) das bases forem complementares. As bases que não são com- plementares são "incompatíveis". A complementaridade também pode ser completa (isto é, 100 %), se todas as bases na região duplex forem complementares.

[0087] Conforme usado no presente documento, o termo "sistema CRISPR/Cas" ou "sistema Cas9" refere-se a um complexo que compre- ende uma proteína Cas9 (isto é, nuclease, nickase, ou proteína morta cataliticamente) e um RNA guia.

[0088] O termo "sequência endógena", conforme usado no presente documento, refere-se a uma sequência cromossômica que é nativa da célula.

[0089] Conforme usado no presente documento, o termo "exógeno" refere-se a uma sequência que não é nativa da célula, ou uma sequên- cia cromossômica cuja localização nativa no genoma da célula está em uma localização cromossômica diferente.

[0090] Um “gene”, conforme usado no presente documento, refere- se a uma região de DNA (incluindo exons e íntrons) que codifica um produto gênico, bem como todas as regiões de DNA que regulam a pro- dução do produto gênico, sejam essas sequências regulatórias ou não adjacentes à codificação e/ou sequências transcritas. Consequente- mente, um gene inclui, mas não está necessariamente limitado a, se- quências promotoras, terminadores, sequências regulatórias de tradu- ção, como locais de ligação ao ribossomo e locais de entrada do ribos- somo interno, intensificadores, silenciadores, isoladores, elementos de fronteira, origens de replicação, locais de fixação de matriz, e regiões de controle de locus.

[0091] O termo "heterólogo" refere-se a uma entidade que não é endógena ou nativa da célula de interesse. Por exemplo, uma proteína heteróloga refere-se a uma proteína que é derivada a partir de ou foi originalmente derivada a partir de uma fonte exógena, como uma se- quência de ácido nucleico introduzida exogenamente. Em alguns casos, a proteína heteróloga não é normalmente produzida pela célula de inte- resse.

[0092] O termo "nickase" refere-se a uma enzima que cliva uma fita de uma sequência de ácido nucleico de fita dupla (isto é, corta uma se- quência de fita dupla). Por exemplo, uma nuclease com atividade de clivagem de fita dupla pode ser modificada por mutação e/ou deleção para funcionar como uma nickase e clivar apenas uma fita de uma se- quência de fita dupla.

[0093] O termo "nuclease", tal como aqui utilizado, refere-se a uma enzima que cliva ambas as fitas de uma sequência de ácido nucleico de fita dupla.

[0094] Os termos "ácido nucleico" e "polinucleotídeo" referem-se a um desoxirribonucleotídeo ou polímero de ribonucleotídeo, em confor- mação linear ou circular, e na forma de fita simples ou duplo. Para os fins da presente revelação, esses termos não devem ser interpretados como limitantes no que diz respeito ao comprimento de um polímero.

Os termos podem abranger análogos conhecidos de nucleotídeos natu- rais, bem como nucleotídeos que são modificados nas porções quími- cas de base, açúcar e/ou fosfato (por exemplo, estruturas de fosforotio- ato). Em geral, um análogo de um nucleotídeo particular tem a mesma especificidade de pareamento de base; isto é, um análogo de A irá pa- rear com T.

[0095] O termo "nucleotídeo" refere-se a desoxirribonucleotídeos ou ribonucleotídeos. Os nucleotídeos podem ser nucleotídeos padrão (isto é, adenosina, guanosina, citidina, timidina e uridina), isômeros de nucle- otídeos ou análogos de nucleotídeos. Um análogo de nucleotídeo re- fere-se a um nucleotídeo tendo uma base de purina ou pirimidina modi- ficada ou uma porção química de ribose modificada. Um análogo de nu- cleotídeo pode ser um nucleotídeo de ocorrência natural (por exemplo, inosina, pseudouridina, etc.) ou um nucleotídeo de ocorrência não natu- ral. Exemplos não limitativos de modificações nas porções de açúcar ou base de um nucleotídeo incluem a adição (ou remoção) de grupos ace- tila, grupos amino, grupos carboxila, grupos carboximetila, grupos hidro- xila, grupos metila, grupos fosforila e grupos tiol, também como a subs- tituição dos átomos de carbono e nitrogênio das bases por outros áto- mos (por exemplo, 7-deaza purinas). Os análogos de nucleotídeos tam- bém incluem nucleotídeos didesoxi, nucleotídeos 2'-O-metil, ácidos nu- cleicos bloqueados (LNA), ácidos nucleicos de peptídeo (PNA) e morfo- linos.

[0096] Os termos "polipeptídeo" e "proteína" são usados indistinta- mente para se referir a um polímero de resíduos de aminoácidos.

[0097] Os termos "sequência alvo", "sequência cromossômica alvo" e "local alvo" são usados indistintamente para se referir à sequência específica no DNA cromossômico ao qual o sistema Cas9 genetica- mente modificado é alvejado, e o local no qual o sistema Cas9 geneti-

camente modificado modifica o DNA ou proteína associada (ou proteí- nas associadas) com o DNA.

[0098] As técnicas para determinar o ácido nucleico e a identidade da sequência de aminoácidos são conhecidas na técnica. Normalmente, tais técnicas incluem a determinação da sequência de nucleotídeos do mRNA para um gene e/ou a determinação da sequência de aminoácidos codificada por ele e a comparação dessas sequências com um segundo nucleotídeo ou sequência de aminoácidos. As sequências genômicas também podem ser determinadas e comparadas desta forma. Em geral, a identidade refere-se a uma correspondência exata de nucleotídeo a nucleotídeo ou aminoácido a aminoácido de duas sequências de poli- nucleotídeos ou polipeptídeos, respectivamente. Duas ou mais sequên- cias (polinucleotídeo ou aminoácido) podem ser comparadas determi- nando sua identidade percentual. A porcentagem de identidade de duas sequências, sejam sequências de ácido nucleico ou de aminoácidos, é o número de correspondências exatas entre duas sequências alinhadas dividido pelo comprimento das sequências mais curtas e multiplicado por 100. Um alinhamento aproximado para sequências de ácido nu- cleico é fornecido pelo algoritmo de homologia local de Smith e Water- man, Advances in Applied Mathematics 2:482-489 (1981). Este algo- ritmo pode ser aplicado a sequências de aminoácidos usando a matriz de pontuação desenvolvida por Dayhoff, Atlas of Protein Sequences and Structure, M. O. Dayhoff ed., 5 supl. 3: 353-358, National Biomedical Research Foundation, Washington, D.C., EUA, e normalizado por Gribs- kov, Nucl. Acids Res. 14(6):6745-6763 (1986). Uma implementação exemplificativa deste algoritmo para determinar a porcentagem de iden- tidade de uma sequência é fornecida pelo Genetics Computer Group (Madison, Wis.) Na aplicação utilitária "BestFit". Outros programas ade- quados para calcular a porcentagem de identidade ou similaridade entre sequências são geralmente conhecidos na técnica, por exemplo, outro programa de alinhamento é o BLAST, usado com parâmetros padrão. Por exemplo, BLASTN e BLASTP podem ser usados usando os seguin- tes parâmetros padrão: código genético = padrão; filtro = nenhum; fita=ambos; corte = 60; esperar = 10; Matriz = BLOSUM62; Descrições = 50 sequências; classificar por = HIGH SCORE; Bancos de dados = não redundante, GenBank + EMBL + DDBJ + PDB + traduções CDS do GenBank + proteína Swiss + Spupdate + PIR. Os detalhes desses pro- gramas podem ser encontrados no site do GenBank.

[0099] Como várias alterações podem ser feitas nas células e mé- todos descritos acima, sem se afastar a partir do escopo da invenção, pretende-se que toda a matéria contida na descrição acima e nos exem- plos dados abaixo seja interpretada como ilustrativa e não em um sen- tido limitante. Exemplos

[00100] Os exemplos a seguir ilustram certos aspectos da revelação. EXEMPLO 1: EDIÇÃO DE GENE DE CÉLULA HUMANA USANDO PROTEÍNAS DE FUSÃO GFP-SpCas9 e RFP-Sp CAS9

[00101] Células K562 humanas (0,35 x 106) foram transfectadas com 60 pmol de SpCas9, GFP-SpCas9, ou proteína recombinante RFP- SpCas9 e 180 pmol de um RNA guia único transcrito in vitro (sgRNA) alvejado ao locus EMX1 humano com a sequência guia 5’-GCUCCCAU- CACAUCAACCGG-3’. A transfecção foi realizada usando Nucleofection Solution V e um instrumento Amaxa. Células foram mantidas a 37ºC e 5 % de CO2 por três dias antes da colheita para análise de edição de ge- nes. O DNA genômico foi preparado usando solução de extração de DNA QuickExtract. A região EMX1 alvejada foi amplificada por PCR usando iniciadores que consistem em sequências específicas do alvo e adaptadores de sequenciamento de próxima geração (NGS). O iniciador direto é 5’- TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-

NNNNNNAGTCTTCCCATCAGGCTCTCA-3’ (SEQ ID NO:46) e o inici- ador reverso é GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG- NNNNNNAGAGTCCAGCTTGGGCC-3’ (SEQ ID NO:47), onde as se- quências específicas do alvo estão sublinhadas e N representa A, T, G ou C. Os amplicons de PCR foram analisados por NGS usando o Illu- mina MiSeq para determinar a eficiência de edição de cada proteína Cas9. Os resultados exibidos na Figura 1 mostram que as proteínas de fusão GFP-SpCas9 e RFP-SpCas9 retêm, cada uma, a atividade de edi- ção paralela ao nível da proteína SpCas9.

[00102] A Tabela 1 apresenta as sequências de DNA e proteína oti- mizadas por códons humanos de proteínas Cas9/NLS projetadas, em que as sequências NLS são apresentadas em texto em negrito e o li- gante entre a proteína marcadora e Cas9 é apresentado em texto sub- linhado. Tabela 1 Sistemas Cas9 geneticamente modificados Sequência de aminoácidos de proteína de fusão GFP-SpCas9 MVSKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLK- FICTTGKLPVPW-

PTLVTTLTYGVQCFSRYPDHMKQHDFFKSAMPEGYVQERTIFFKDD GNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHN- VYIMADKQKNGIKVNF- KIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSTQSKLSKDPN EKRDHMVLLEFVTAAGITLGMDELYKVDAEAAAKEAAAKEAAAKE- AAAKALEAEAAAKE- AAAKEAAAKEAAAKAPAAKRVKLDGGGGSTGMDKKYSIGLDIGTNS VGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEA- TRLKRTARRRYTRRKN- RICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDE VAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIE- GDLNPDNSDVDKLFI- QLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKK NGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGDQYADLFLAAKN- LSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLP EKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNREDLLRKQRT-

FDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVG PLARGNSRFAWMTRKconsultarTITPWNFEEVVDKGASAQSFIERM- TNFDKNLPNEKVL-

PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKT NRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKD- KDFLDNEENEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSR KLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDI- QKAQVSGQGDSLHEHIAN-

LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQN- GRDMYVDQELDINRLS- DYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPconsultarVVK KMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVE- TRQITKHVAQILDS-

RMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHA HDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSE- QEIGKATAKYFFYSNIMNFF- KTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNI VKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG- FDSPTVAYSVLVVAKVEKGKSK- KLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFE LENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGS- PEDNEQKQLFVEQHKHYL-

DEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLT NLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRI- DLSQLGGDEFPKKKRKVGGGGSPKKKRKV (SEQ ID NO: 48) Sublinhado: Ligante entre GFP e SpCas9 Negrito: Sinais de localização nuclear Sequência de aminoácidos de proteína de fusão RFP-SpCas9 MVSKGEAVIKEFMRFKVHMEGSMNGHEFEIEGEGEGRPYEGT- QTAKLKVTKGGPL-

PFSWDILSPQFMYGSRAFTKHPADIPDYYKQSFPEGFKWERVMNFE DGGAVTVTQDTSLEDGTLIYKVKLRGTNFPPDGPVMQKKTM- GWEASTERLYPEDGVLKGDIK- MALRLKDGGRYLADFKTTYKAKKPVQMPGAYNVDRKLDITSHNEDY TVVEQYERSEGRHSTGGMDELYKVDSGGSSGGSSGSETPGTSE- SA- TPESSGGSSGGSPAAKRVKLDGGGGSTGMDKKYSIGLDIGTNSVG WAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATR- LKRTARRRYTRRKN- RICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDE VAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIE- GDLNPDNSDVDKLFI- QLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKK NGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGDQYADLFLAAKN- LSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLP EKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNREDLLRKQRT- FDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVG

PLARGNSRFAWMTRKconsultarTITPWNFEEVVDKGASAQSFIERM- TNFDKNLPNEKVL-

DEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLT NLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRI- DLSQLGGDEFPKKKRKVGGGGSPKKKRKV (SEQ ID NO: 49) Sublinhado: Ligante entre RFP e SpCas9 Negrito: Sinais de localização nuclear Sequência de aminoácidos de proteína de fusão GFP-eSpCas9

MVSKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLK- FICTTGKLPVPW- PTLVTTLTYGVQCFSRYPDHMKQHDFFKSAMPEGYVQERTIFFKDD GNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHN- VYIMADKQKNGIKVNF- KIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHYLSTQSKLSKDPN EKRDHMVLLEFVTAAGITLGMDELYKVDSGGSSGGSSGSETPG- TSESA- TPESSGGSSGGSPAAKRVKLDGGGGSTGMDKKYSIGLDIGTNSVG WAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATR- LKRTARRRYTRRKN- RICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDE VAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIE- GDLNPDNSDVDKLFI- QLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKK NGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGDQYADLFLAAKN- LSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLP EKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNREDLLRKQRT-

PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKT NRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKD- KDFLDNEENEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSR KLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDI- QKAQVSGQGDSLHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG

QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQN- GRDMYVDQELDINRLS- DYDVDHIVPQSFLADDSIDNKVLTRSDKNRGKSDNVPconsultarVVK KMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVE- TRQITKHVAQILDS-

RMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHA HDAYLNAVVGTALIKKYPALESEFVYGDYKVYDVRKMIAKSE- QEIGKATAKYFFYSNIMNFF- KTEITLANGEIRKAPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNI VKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG- FDSPTVAYSVLVVAKVEKGKSK- KLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFE LENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGS- PEDNEQKQLFVEQHKHYL-

DEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLT NLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRI- DLSQLGGDEFPKKKRKVGGGGSPKKKRKV (SEQ ID NO:50) Sublinhado: Ligante entre GFP e eSpCas9 Negrito: Sinais de localização nuclear

[00103] Sequências de DNA otimizadas por códons humanos usadas para produzir as três proteínas são as seguintes: Sequência de DNA de GFP-SpCas9 otimizada por códon humano ATGGTTAGCAAAGGTGAAGAACTGTTTACAGGTGTTGTT- CCGATTCTGGTTGAACTGGATGG-

TGATGTTAATGGCCACAAATTTTCAGTTAGCGGTGAAGGCGAAG GTGATGCAACCTATGGTAAACTGACCCTGAAATTTATCTGTAC- CACCGGCAAACTGCCGGTT- CCGTGGCCGACACTGGTTACCACACTGACCTATGGTGTTCAGTG TTTTAGCCGTTATCCGGATCACATGAAACAGCACGATTTTTT- CAAAAGCGCAATGCCGGA- AGGTTATGTTCAAGAACGTACCATCTTCTTCAAAGATGACGGCAA CTATAAAACCCGTGCCGAAGTTAAATTTGAAGGTGATACCCTGG- TGAATCGCATTGAAC- TGAAAGGCATCGATTTTAAAGAGGATGGTAATATCCTGGGCCACA AACTGGAATATAATTATAATAGCCACAACGTGTACATCATGG- CCGACAAACAGAAAAATGG- CATCAAAGTGAACTTCAAGATCCGCCATAATATTGAAGATGGTTC AGTTCAGCTGGCCGATCATTATCAGCAGAATACCCCGATTGG- TGATGGTCCGGTTCTGCTG- CCGGATAATCATTATCTGAGCACCCAGAGCAAACTGAGCAAAGA TCCGAATGAAAAACGTGATCACATGGTGCTGCTGGAATTTGT- TACCGCAGCAGGTATTACCT- TAGGTATGGATGAACTGTATAAAGTCGACGCAGAAGCAGCAGCA AAAGAAGCCGCTGCCAAAGAAGCGGCAGCGAAAGAGGCAG- CCGCAAAAGCACTGGAAG- CCGAGGCTGCGGCTAAAGAGGCTGCTGCAAAAGAAGCAGCCGC TAAAGAAGCTGCGGCTAAGGCACCGGCAGCAAAACGTGT- TAAACTGGACGGTGGTGGTGG- TAGCACCGGTATGGACAAGAAATACAGCATCGGTTTGGATATTG GCACGAATAGCGTGGGTTGGGCCGTTATTACCGACGAGTA- CAAAGTGCCGTCCAAGAAATT- CAAAGTGCTGGGCAATACCGATCGCCATAGCATCAAGAAAAATC TGATTGGCGCACTGCTGTTCGACAGCGGTGAGACTGCCGAAGC- TACGCGTCTGAAGCG- TACGGCGCGTCGTCGCTACACCCGCCGTAAGAACCGTATTTGCT ATCTGCAAGAAATCTTCAGCAACGAAATGGCCAAAGTTGATGA- TAGCTTTTTTCACCGCCTG- GAAGAGAGCTTTCTGGTGGAAGAGGATAAGAAACACGAGCGCCA TCCGATTTTTGGTAACATTGTCGATGAAGTGGCATAC- CATGAGAAGTACCCGACCATCTAC- CACCTTCGTAAGAAACTGGTGGACAGCACCGATAAAGCTGATCT GCGTCTGATTTACCTGGCGCTGGCCCACATGATTAAGTTTCG- CGGTCATTTT- CTGATCGAGGGCGATCTGAATCCGGACAATTCTGATGTTGACAA GCTGTTTATTCAACTTGTACAGACCTACAACCAGTTGTT- CGAAGAGAACCCGATCAATG- CGAGCGGTGTTGATGCCAAAGCAATTCTGAGCGCACGCCTGAGC AAATCTCGCCGTTTGGAGAACCTGATTGCACAGCTGCCGGG- TGAGAAGAAAAACGGTCTGTT- CGGCAATCTGATTGCACTGTCCCTGGGCTTGACCCCGAATTTTAA GAGCAACTTCGACCTGGCCGAAGATGCGAAGCTCCAATTGAG- CAAAGACACCTACGA- CGATGACCTGGACAATCTGCTGGCCCAGATTGGCGACCAGTACG CAGATCTGTTCTTGGCTGCGAAAAACCTGAGCGATGCAATTCTG- CTGTCGGACATCCTGCG- CGTGAATACGGAAATCACGAAAGCGCCTCTGAGCGCGTCTATGA TCAAGCGCTATGACGAGCACCACCAAGATCTGACCCTG- CTGAAAGCTCTGGTGAGACAACAA- TTGCCAGAGAAGTATAAAGAAATTTTCTTTGACCAGAGCAAAAAC GGCTATGCGGGTTACATTGACGGTGGCGCCAGCCAAGAAGAG- TTCTACAAATTCATTAAGCC- TATCCTGGAGAAAATGGATGGCACCGAAGAACTGCTGGTAAAGC TGAATCGTGAAGATCTGCTGCGCAAACAGCGCACTTTTGA- TAACGGTAGCATTCCGCACCA- GATCCATCTGGGTGAGTTGCACGCGATTTTGCGTCGCCAGGAAG ATTTTTATCCGTTCTTGAAAGACAACCGTGAGAAAATCGAGAAAA- TTCTGACGTTCCGTA- TCCCGTATTATGTCGGCCCGCTGGCGCGTGGTAATAGCCGCTTC GCGTGGATGACCCGCAAATCAGAGGAAACGATTACCCCGTGGA- ATTTTGAGGAAGTTGTTGA- TAAGGGTGCAAGCGCGCAGTCGTTCATTGAGCGTATGACCAACT TTGACAAGAATTTGCCGAATGAAAAAGTCTTGCCGAAGCAC- TCTCTGCTGTACGAGTATTT- TACCGTTTACAACGAATTGACCAAGGTTAAATACGTCACCGAAGG CATGCGCAAACCGGCCTTCCTGAGCGGCGAGCAGAAAAAAGCA- ATCGTTGACCTCTTGTT- TAAGACCAACCGCAAGGTTACGGTCAAACAACTGAAAGAGGACT ATTTCAAGAAAATTGAATGTTTTGACTCCGTAGAGATCTCCGGTG- TTGAGGACCGTTT- CAACGCGAGCCTGGGCACCTACCATGATCTGCTGAAAATTATTAA AGACAAAGATTTTCTGGACAACGAAGAGAACGAAGATATTCTG- GAAGATATCGTTCTGAC- CCTGACGCTGTTCGAAGATCGTGAGATGATTGAGGAACGTCTGA AAACCTACGCACACTTGTTCGATGACAAAGTTATGAAACAG- CTGAAGCGTCGTCGTTACACA- GGTTGGGGCCGTCTGAGCCGTAAGCTTATCAATGGTATCCGTGA CAAACAGAGCGGTAAGACGATTCTGGACTTTCTGAAGTCAGA- TGGCTTCGCCAATCGCAAC- TTTATGCAACTGATTCATGACGACTCTCTGACGTTCAAGGAAGAT ATCCAAAAGGCACAGGTGAGCGGTCAGGGTGATAGCCTG- CATGAGCATATCGCGAACCTGG- CGGGTAGCCCGGCTATCAAAAAGGGTATCTTACAGACTGTGAAA GTTGTGGATGAATTGGTTAAGGTTATGGGTCGTCACAAACCGGA- AAATATTGTGATCGAGA- TGGCACGTGAAAATCAGACGACGCAAAAGGGTCAAAAAAATTCT CGTGAGCGCATGAAACGTATTGAAGAGGGTATCAAAGAATTGGG- CAGCCAAATT- CTGAAAGAACACCCGGTCGAGAACACCCAGCTGCAAAACGAAAA ACTGTATTTATACTATCTGCAGAACGGTCGTGACATGTACGTG- GATCAAGAACTGGACATCA- ATCGTTTGAGCGATTACGATGTTGATCATATTGTGCCTCAGAGCT TTCTGAAAGACGATTCGATCGACAACAAAGTGCTGACCCGTAG- CGACAAGAATCGTGG- TAAGAGCGATAACGTGCCGAGCGAAGAAGTCGTTAAGAAAATGA AAAACTACTGGCGTCAGCTGCTGAACGCCAAGCTGATTACCCAG- CGTAAGTTCGATAAC- CTGACGAAAGCCGAGCGTGGAGGCCTGAGCGAGCTGGACAAGG CCGGCTTTATCAAGCGTCAACTGGTGGAAACCCGTCAGATCAC- TAAACATGTGGCACAGA- TCCTGGACTCCCGCATGAATACGAAATATGACGAGAATGACAAG TTGATCCGTGAAGTCAAAGTTATTACGCTGAAAAGCAAACTGG- TGTCCGATTTCCGTAAAGA- CTTCCAGTTCTATAAAGTCCGTGAAATCAACAACTATCATCACGC CCACGATGCGTACTTGAACGCTGTTGTGGGCACCGCACTGAT- CAAGAAATACCCTAAG- CTCGAAAGCGAGTTTGTCTATGGTGACTATAAAGTTTACGACGTG CGTAAGATGATCGCCAAGAGCGAGCAAGAAATTGGTAAGGC- TACCGCAAAGTACTTTTTCTA- CAGCAACATCATGAACTTCTTCAAAACCGAGATTACCCTGGCGAA CGGTGAGATCCGTAAACGGCCGCTGATTGAGACTAATGG- CGAAACGGGCGAGATTGTGTGG- GACAAGGGTCGCGATTTCGCTACGGTTCGTAAGGTCCTGAGCAT GCCGCAAGTTAACATTGTCAAGAAAACTGAAGTGCAGACGGG- TGGCTTTAGCAAAGAA- TCCATCCTGCCGAAGCGTAATAGCGATAAACTTATCGCGCGTAAA AAAGACTGGGACCCAAAGAAATATGGCGGCTTTGATAGCCCGA- CCGTCGCGTATAGCGTGT- TAGTGGTCGCGAAAGTTGAAAAGGGCAAGAGCAAGAAACTGAAG TCCGTCAAAGAACTTCTGGGTATCACCATCATGGAACGTAG- CTCCTTTGAGAAGAAC- CCGATTGACTTCTTAGAGGCGAAGGGTTATAAAGAAGTCAAAAAA GACCTGATTATCAAGCTGCCGAAGTACAGCCTGTTTGAGTTGGA- GAATGGTCGTAAGCG- CATGCTGGCGAGCGCGGGTGAGCTGCAAAAGGGCAACGAACTG GCGCTGCCGTCGAAATACGTCAATTTTCTGTACCTGGCCAG- CCACTACGAAAAGCTGAAGGG- TTCTCCGGAAGATAACGAACAAAAGCAACTGTTCGTTGAGCAACA TAAACACTACTTGGACGAAATCATCGAGCAAATTAGCGAATTTAG- CAAACGTGTCATCCTGG- CGGACGCGAATCTGGACAAGGTCCTGTCTGCATACAATAAGCAT CGCGACAAACCAATTCGTGAGCAAGCGGAGAATATCATCCAC- CTGTTTACGCTGACCAACC- TAGGTGCGCCGGCGGCATTCAAGTATTTCGATACGACCATCGAC CGCAAGCGCTATACCAGCACCAAAGAGGTCCTGGACGCGAC- CCTGATCCACCAGAGCATTAC-

CGGCTTATACGAAACCCGTATTGATTTGAGCCAACTGGGTGGCG ATGAATTCCCGAAAAAAAAGCGCAAAGTTGGTGGCGGTGGTAG- CCCGAAAAAGAAACGTAAAGTG (SEQ ID NO:62) Sequência de DNA RFP-SpCas9 otimizada por códons humanos ATGGTTAGCAAAGGTGAAGCCGTGATTAAAGAATTTATGCGCTT- TAAGGTTCACATGGAAGG-

TAGCATGAATGGCCATGAATTTGAAATTGAAGGTGAAGGCGAAG GTCGTCCGTATGAAGGCACCCAGACCGCAAAACTGAAAGTTAC- CAAAGGTGGTCCGCTGCCG- TTTAGCTGGGATATTCTGAGTCCGCAGTTTATGTATGGTAGCCGT GCATTTACCAAACATCCGGCAGATATTCCGGATTATTACAAACA- GAGCTTTCCGGAAGGTTT- TAAATGGGAACGTGTGATGAATTTTGAAGATGGTGGTGCAGTTAC CGTTACACAGGATACCAGCCTGGAAGATGGCACCCTGATCTA- TAAAGTTAAACTGCGTGG- CACCAATTTTCCGCCTGATGGTCCGGTTATGCAGAAAAAAACAAT GGGTTGGGAAGCAAGCACCGAACGTCTGTATCCTGAAGATGG- CGTTCTGAAAGGTGATAT- CAAAATGGCACTGCGTCTGAAAGATGGCGGTCGTTATCTGGCAG ATTTCAAAACCACCTATAAAGCCAAAAAACCTGTTCAGATG- CCTGGTGCCTATAATG- TTGATCGTAAACTGGATATTACCAGCCACAACGAAGATTATACCG TTGTGGAACAGTATGAACGTAGCGAAGGCCGTCATAGCACAGG- TGGTATGGATGAACTGTA- TAAAGTCGACAGCGGTGGTAGCAGCGGTGGTTCAAGCGGTAGC GAAACACCGGGTACAAGCGAAAGCGCAACACCGGAAAGCAG- TGGTGGTAGTTCAGGTGGTAG- TCCGGCAGCAAAACGTGTGAAACTGGATGGCGGTGGCGGTAGC ACCGGTATGGACAAGAAATACAGCATCGGTTTGGATATTGG- CACGAATAGCGTGGGTTGGG- CCGTTATTACCGACGAGTACAAAGTGCCGTCCAAGAAATTCAAAG TGCTGGGCAATACCGATCGCCATAGCATCAAGAAAAA- TCTGATTGGCGCACTGCTGTTCGA- CAGCGGTGAGACTGCCGAAGCTACGCGTCTGAAGCGTACGGCG CGTCGTCGCTACACCCGCCGTAAGAACCGTATTTGCTATCTG- CAAGAAATCTTCAG- CAACGAAATGGCCAAAGTTGATGATAGCTTTTTTCACCGCCTGGA AGAGAGCTTTCTGGTGGAAGAGGATAAGAAACACGAGCG- CCATCCGATTTTTGGTAACATTG- TCGATGAAGTGGCATACCATGAGAAGTACCCGACCATCTACCAC CTTCGTAAGAAACTGGTGGACAGCACCGATAAAGCTGATCTGCG- TCTGATTTACCTGGCG- CTGGCCCACATGATTAAGTTTCGCGGTCATTTTCTGATCGAGGG CGATCTGAATCCGGACAATTCTGATGTTGACAAGCTGTTTATT- CAACTTGTACAGACCTA- CAACCAGTTGTTCGAAGAGAACCCGATCAATGCGAGCGGTGTTG ATGCCAAAGCAATTCTGAGCGCACGCCTGAGCAAATCTCGCCG- TTTGGAGAACCTGATTGCA- CAGCTGCCGGGTGAGAAGAAAAACGGTCTGTTCGGCAATCTGAT TGCACTGTCCCTGGGCTTGACCCCGAATTTTAAGAGCAACTT- CGACCTGGCCGAAGATG- CGAAGCTCCAATTGAGCAAAGACACCTACGACGATGACCTGGAC AATCTGCTGGCCCAGATTGGCGACCAGTACGCAGATCTGTT- CTTGGCTGCGAAAAACCTGAG- CGATGCAATTCTGCTGTCGGACATCCTGCGCGTGAATACGGAAA TCACGAAAGCGCCTCTGAGCGCGTCTATGATCAAGCGCTATGA- CGAGCACCACCAAGA- TCTGACCCTGCTGAAAGCTCTGGTGAGACAACAATTGCCAGAGA AGTATAAAGAAATTTTCTTTGACCAGAGCAAAAACGGCTATG- CGGGTTACATTGACGGTGG- CGCCAGCCAAGAAGAGTTCTACAAATTCATTAAGCCTATCCTGGA GAAAATGGATGGCACCGAAGAACTGCTGGTAAAGCTGAATCG- TGAAGATCTGCTGCGCAAA- CAGCGCACTTTTGATAACGGTAGCATTCCGCACCAGATCCATCT GGGTGAGTTGCACGCGATTTTGCGTCGCCAGGAAGATTTTTA- TCCGTTCTTGAAAGACAAC- CGTGAGAAAATCGAGAAAATTCTGACGTTCCGTATCCCGTATTAT GTCGGCCCGCTGGCGCGTGGTAATAGCCGCTTCGCGTGGATGA- CCCGCAAATCAGAGGA- AACGATTACCCCGTGGAATTTTGAGGAAGTTGTTGATAAGGGTG CAAGCGCGCAGTCGTTCATTGAGCGTATGACCAACTTTGA- CAAGAATTTGCCGAA- TGAAAAAGTCTTGCCGAAGCACTCTCTGCTGTACGAGTATTTTAC CGTTTACAACGAATTGACCAAGGTTAAATACGTCACCGAAGG- CATGCGCAAACCGGCCTT- CCTGAGCGGCGAGCAGAAAAAAGCAATCGTTGACCTCTTGTTTA AGACCAACCGCAAGGTTACGGTCAAACAACTGAAAGAGGACTA- TTTCAAGAAAATTGAATG- TTTTGACTCCGTAGAGATCTCCGGTGTTGAGGACCGTTTCAACG CGAGCCTGGGCACCTACCATGATCTGCTGAAAATTATTAAAGA- CAAAGATTTTCTGGA- CAACGAAGAGAACGAAGATATTCTGGAAGATATCGTTCTGACCCT GACGCTGTTCGAAGATCGTGAGATGATTGAGGAACG- TCTGAAAACCTACGCACACTTGTT- CGATGACAAAGTTATGAAACAGCTGAAGCGTCGTCGTTACACAG GTTGGGGCCGTCTGAGCCGTAAGCTTATCAATGGTATCCGTGA- CAAACAGAGCGGTAAGA- CGATTCTGGACTTTCTGAAGTCAGATGGCTTCGCCAATCGCAACT TTATGCAACTGATTCATGACGACTCTCTGACGTTCAAGGAAGATA- TCCAAAAGGCACAGG- TGAGCGGTCAGGGTGATAGCCTGCATGAGCATATCGCGAACCTG GCGGGTAGCCCGGCTATCAAAAAGGGTATCTTACAGACTG- TGAAAGTTGTGGATGAATTGGT- TAAGGTTATGGGTCGTCACAAACCGGAAAATATTGTGATCGAGAT GGCACGTGAAAATCAGACGACGCAAAAGGGTCAAAAAAATT- CTCGTGAGCGCATGAAACGTA- TTGAAGAGGGTATCAAAGAATTGGGCAGCCAAATTCTGAAAGAA CACCCGGTCGAGAACACCCAGCTGCAAAACGAAAAACTGTATT- TATACTATCTGCAGAACGG- TCGTGACATGTACGTGGATCAAGAACTGGACATCAATCGTTTGAG CGATTACGATGTTGATCATATTGTGCCTCAGAGCTTTCTGAAAGA- CGATTCGATCGACAA- CAAAGTGCTGACCCGTAGCGACAAGAATCGTGGTAAGAGCGATA ACGTGCCGAGCGAAGAAGTCGTTAAGAAAATGAAAAACTACTGG- CGTCAGCTGCTGAACG- CCAAGCTGATTACCCAGCGTAAGTTCGATAACCTGACGAAAGCC GAGCGTGGAGGCCTGAGCGAGCTGGACAAGGCCGGCTTTAT- CAAGCGTCAACTGGTGGAAAC- CCGTCAGATCACTAAACATGTGGCACAGATCCTGGACTCCCGCA TGAATACGAAATATGACGAGAATGACAAGTTGATCCGTGAAGT- CAAAGTTATTACG- CTGAAAAGCAAACTGGTGTCCGATTTCCGTAAAGACTTCCAGTTC TATAAAGTCCGTGAAATCAACAACTATCATCACGCCCACGATG- CGTACTTGAACGCTGTTG- TGGGCACCGCACTGATCAAGAAATACCCTAAGCTCGAAAGCGAG TTTGTCTATGGTGACTATAAAGTTTACGACGTGCGTAAGA- TGATCGCCAAGAGCGAG- CAAGAAATTGGTAAGGCTACCGCAAAGTACTTTTTCTACAGCAAC ATCATGAACTTCTTCAAAACCGAGATTACCCTGGCGAACGGTGA- GATCCGTAAACGGCCG- CTGATTGAGACTAATGGCGAAACGGGCGAGATTGTGTGGGACAA GGGTCGCGATTTCGCTACGGTTCGTAAGGTCCTGAGCATGCCG- CAAGTTAACATTGT- CAAGAAAACTGAAGTGCAGACGGGTGGCTTTAGCAAAGAATCCA TCCTGCCGAAGCGTAATAGCGATAAACTTATCGCGCGTAAAAAA- GACTGGGACCCAAAGAAA- TATGGCGGCTTTGATAGCCCGACCGTCGCGTATAGCGTGTTAGT GGTCGCGAAAGTTGAAAAGGGCAAGAGCAAGAAACTGAAG- TCCGTCAAAGAACTTCTGGGTA- TCACCATCATGGAACGTAGCTCCTTTGAGAAGAACCCGATTGACT TCTTAGAGGCGAAGGGTTATAAAGAAGTCAAAAAAGACCTGAT- TATCAAGCTGCCGAAGTA- CAGCCTGTTTGAGTTGGAGAATGGTCGTAAGCGCATGCTGGCGA GCGCGGGTGAGCTGCAAAAGGGCAACGAACTGGCGCTGCCG- TCGAAATACGTCAATTTTCTG- TACCTGGCCAGCCACTACGAAAAGCTGAAGGGTTCTCCGGAAGA TAACGAACAAAAGCAACTGTTCGTTGAGCAACATAAACACTAC- TTGGACGAAATCATCGAG- CAAATTAGCGAATTTAGCAAACGTGTCATCCTGGCGGACGCGAA TCTGGACAAGGTCCTGTCTGCATACAATAAGCATCGCGACAAAC- CAATTCGTGAGCAAGCG- GAGAATATCATCCACCTGTTTACGCTGACCAACCTAGGTGCGCC GGCGGCATTCAAGTATTTCGATACGACCATCGACCGCAAGCGC- TATACCAGCACCAAAGAGG-

TCCTGGACGCGACCCTGATCCACCAGAGCATTACCGGCTTATAC GAAACCCGTATTGATTTGAGCCAACTGGGTGGCGATGAATT- CCCGAAAAAAAAGCGCAAAG- TTGGTGGCGGTGGTAGCCCGAAAAAGAAACGTAAAGTG (SEQ ID NO:63) Sequência de DNA GFP-eSpCas9 otimizada por códons humanos ATGGTTAGCAAAGGTGAAGAACTGTTTACAGGTGTTGTT- CCGATTCTGGTTGAACTGGATGG-

TGATGTTAATGGCCACAAATTTTCAGTTAGCGGTGAAGGCGAAG GTGATGCAACCTATGGTAAACTGACCCTGAAATTTATCTGTAC- CACCGGCAAACTGCCGGTT- CCGTGGCCGACACTGGTTACCACACTGACCTATGGTGTTCAGTG TTTTAGCCGTTATCCGGATCACATGAAACAGCACGATTTTTT- CAAAAGCGCAATGCCGGA- AGGTTATGTTCAAGAACGTACCATCTTCTTCAAAGATGACGGCAA CTATAAAACCCGTGCCGAAGTTAAATTTGAAGGTGATACCCTGG- TGAATCGCATTGAAC- TGAAAGGCATCGATTTTAAAGAGGATGGTAATATCCTGGGCCACA AACTGGAATATAATTATAATAGCCACAACGTGTACATCATGG- CCGACAAACAGAAAAATGG- CATCAAAGTGAACTTCAAGATCCGCCATAATATTGAAGATGGTTC AGTTCAGCTGGCCGATCATTATCAGCAGAATACCCCGATTGG- TGATGGTCCGGTTCTGCTG- CCGGATAATCATTATCTGAGCACCCAGAGCAAACTGAGCAAAGA TCCGAATGAAAAACGTGATCACATGGTGCTGCTGGAATTTGT- TACCGCAGCAGGTATTACCT- TAGGTATGGATGAACTGTATAAAGTCGACAGCGGTGGTAGCAGC GGTGGTTCAAGCGGTAGCGAAACACCGGGTACAAGCGAAAGCG- CAACACCGGAAAGCAGTGG- TGGTAGCTCAGGTGGTAGTCCGGCAGCAAAACGTGTTAAACTGG ACGGTGGTGGTGGTAGCACCGGTATGGACAAGAAATACAG- CATCGGTTTGGATATTGG- CACGAATAGCGTGGGTTGGGCCGTTATTACCGACGAGTACAAAG TGCCGTCCAAGAAATTCAAAGTGCTGGGCAATACCGATCGCCA- TAGCATCAAGAAAAA- TCTGATTGGCGCACTGCTGTTCGACAGCGGTGAGACTGCCGAAG CTACGCGTCTGAAGCGTACGGCGCGTCGTCGCTACACCCGCCG- TAAGAACCGTATTTGCTA- TCTGCAAGAAATCTTCAGCAACGAAATGGCCAAAGTTGATGATAG CTTTTTTCACCGCCTGGAAGAGAGCTTTCTGGTGGAAGAGGA- TAAGAAACACGAGCG- CCATCCGATTTTTGGTAACATTGTCGATGAAGTGGCATACCATGA GAAGTACCCGACCATCTACCACCTTCGTAAGAAACTGGTGGACA- GCACCGATAAAG- CTGATCTGCGTCTGATTTACCTGGCGCTGGCCCACATGATTAAGT TTCGCGGTCATTTTCTGATCGAGGGCGATCTGAATCCGGACAA- TTCTGATGTTGACAAGCTG- TTTATTCAACTTGTACAGACCTACAACCAGTTGTTCGAAGAGAAC CCGATCAATGCGAGCGGTGTTGATGCCAAAGCAATTCTGAGCG- CACGCCTGAGCAAATCTCG- CCGTTTGGAGAACCTGATTGCACAGCTGCCGGGTGAGAAGAAAA ACGGTCTGTTCGGCAATCTGATTGCACTGTCCCTGGGCTTGAC- CCCGAATTTTAAGAGCAAC- TTCGACCTGGCCGAAGATGCGAAGCTCCAATTGAGCAAAGACAC CTACGACGATGACCTGGACAATCTGCTGGCCCAGATTGGCGAC- CAGTACGCAGATCTGTT- CTTGGCTGCGAAAAACCTGAGCGATGCAATTCTGCTGTCGGACA TCCTGCGCGTGAATACGGAAATCACGAAAGCGCCTCTGAGCG- CGTCTATGATCAAGCGCTA- TGACGAGCACCACCAAGATCTGACCCTGCTGAAAGCTCTGGTGA GACAACAATTGCCAGAGAAGTATAAAGAAATTTTCTTTGACCA- GAGCAAAAACGGCTATG- CGGGTTACATTGACGGTGGCGCCAGCCAAGAAGAGTTCTACAAA TTCATTAAGCCTATCCTGGAGAAAATGGATGGCACCGAAGAAC- TGCTGGTAAAGCTGAATCG- TGAAGATCTGCTGCGCAAACAGCGCACTTTTGATAACGGTAGCA TTCCGCACCAGATCCATCTGGGTGAGTTGCACGCGATTTTGCG- TCGCCAGGAAGATTTTTA- TCCGTTCTTGAAAGACAACCGTGAGAAAATCGAGAAAATTCTGAC GTTCCGTATCCCGTATTATGTCGGCCCGCTGGCGCGTGGTAATA- GCCGCTTCGCGTGGATGA- CCCGCAAATCAGAGGAAACGATTACCCCGTGGAATTTTGAGGAA GTTGTTGATAAGGGTGCAAGCGCGCAGTCGTTCATTGAGCGTA- TGACCAACTTTGACAAGAA- TTTGCCGAATGAAAAAGTCTTGCCGAAGCACTCTCTGCTGTACGA GTATTTTACCGTTTACAACGAATTGACCAAGGTTAAATACGTCAC- CGAAGGCATGCGCAAAC- CGGCCTTCCTGAGCGGCGAGCAGAAAAAAGCAATCGTTGACCTC TTGTTTAAGACCAACCGCAAGGTTACGGTCAAACAAC- TGAAAGAGGACTATTTCAAGAAAA- TTGAATGTTTTGACTCCGTAGAGATCTCCGGTGTTGAGGACCGTT TCAACGCGAGCCTGGGCACCTACCATGATCTGCTGAAAATTAT- TAAAGACAAAGATTTTCTG- GACAACGAAGAGAACGAAGATATTCTGGAAGATATCGTTCTGAC CCTGACGCTGTTCGAAGATCGTGAGATGATTGAGGAACG- TCTGAAAACCTACGCACACTTG- TTCGATGACAAAGTTATGAAACAGCTGAAGCGTCGTCGTTACACA GGTTGGGGCCGTCTGAGCCGTAAGCTTATCAATGGTATCCG- TGACAAACAGAGCGGTAAGA- CGATTCTGGACTTTCTGAAGTCAGATGGCTTCGCCAATCGCAACT TTATGCAACTGATTCATGACGACTCTCTGACGTTCAAGGAAGATA- TCCAAAAGGCACAGG- TGAGCGGTCAGGGTGATAGCCTGCATGAGCATATCGCGAACCTG GCGGGTAGCCCGGCTATCAAAAAGGGTATCTTACAGACTG- TGAAAGTTGTGGATGAATTGGT- TAAGGTTATGGGTCGTCACAAACCGGAAAATATTGTGATCGAGAT GGCACGTGAAAATCAGACGACGCAAAAGGGTCAAAAAAATT- CTCGTGAGCGCATGAAACGTA- TTGAAGAGGGTATCAAAGAATTGGGCAGCCAAATTCTGAAAGAA CACCCGGTCGAGAACACCCAGCTGCAAAACGAAAAACTGTATT- TATACTATCTGCAGAACGG- TCGTGACATGTACGTGGATCAAGAACTGGACATCAATCGTTTGAG CGATTACGATGTTGATCATATTGTGCCTCAGAGCTTTCTGGCG- GACGATTCGATCGACAA- CAAAGTGCTGACCCGTAGCGACAAGAATCGTGGTAAGAGCGATA ACGTGCCGAGCGAAGAAGTCGTTAAGAAAATGAAAAACTACTGG- CGTCAGCTGCTGAACG- CCAAGCTGATTACCCAGCGTAAGTTCGATAACCTGACGAAAGCC GAGCGTGGAGGCCTGAGCGAGCTGGACAAGGCCGGCTTTAT- CAAGCGTCAACTGGTGGAAAC- CCGTCAGATCACTAAACATGTGGCACAGATCCTGGACTCCCGCA TGAATACGAAATATGACGAGAATGACAAGTTGATCCGTGAAGT- CAAAGTTATTACG- CTGAAAAGCAAACTGGTGTCCGATTTCCGTAAAGACTTCCAGTTC TATAAAGTCCGTGAAATCAACAACTATCATCACGCCCACGATG- CGTACTTGAACGCTGTTG- TGGGCACCGCACTGATCAAGAAATACCCTGCACTCGAAAGCGAG TTTGTCTATGGTGACTATAAAGTTTACGACGTGCGTAAGA- TGATCGCCAAGAGCGAG- CAAGAAATTGGTAAGGCTACCGCAAAGTACTTTTTCTACAGCAAC ATCATGAACTTCTTCAAAACCGAGATTACCCTGGCGAACGGTGA- GATCCGTAAAGCGCCG- CTGATTGAGACTAATGGCGAAACGGGCGAGATTGTGTGGGACAA GGGTCGCGATTTCGCTACGGTTCGTAAGGTCCTGAGCATGCCG- CAAGTTAACATTGT- CAAGAAAACTGAAGTGCAGACGGGTGGCTTTAGCAAAGAATCCA TCCTGCCGAAGCGTAATAGCGATAAACTTATCGCGCGTAAAAAA- GACTGGGACCCAAAGAAA- TATGGCGGCTTTGATAGCCCGACCGTCGCGTATAGCGTGTTAGT GGTCGCGAAAGTTGAAAAGGGCAAGAGCAAGAAACTGAAG- TCCGTCAAAGAACTTCTGGGTA- TCACCATCATGGAACGTAGCTCCTTTGAGAAGAACCCGATTGACT TCTTAGAGGCGAAGGGTTATAAAGAAGTCAAAAAAGACCTGAT- TATCAAGCTGCCGAAGTA- CAGCCTGTTTGAGTTGGAGAATGGTCGTAAGCGCATGCTGGCGA GCGCGGGTGAGCTGCAAAAGGGCAACGAACTGGCGCTGCCG- TCGAAATACGTCAATTTTCTG- TACCTGGCCAGCCACTACGAAAAGCTGAAGGGTTCTCCGGAAGA TAACGAACAAAAGCAACTGTTCGTTGAGCAACATAAACACTAC- TTGGACGAAATCATCGAG- CAAATTAGCGAATTTAGCAAACGTGTCATCCTGGCGGACGCGAA TCTGGACAAGGTCCTGTCTGCATACAATAAGCATCGCGACAAAC- CAATTCGTGAGCAAGCG- GAGAATATCATCCACCTGTTTACGCTGACCAACCTAGGTGCGCC GGCGGCATTCAAGTATTTCGATACGACCATCGACCGCAAGCGC- TATACCAGCACCAAAGAGG-

TCCTGGACGCGACCCTGATCCACCAGAGCATTACCGGCTTATAC GAAACCCGTATTGATTTGAGCCAACTGGGTGGCGATGAATT- CCCGAAAAAAAAGCGCAAAG- TTGGTGGCGGTGGTAGCCCGAAAAAGAAACGTAAAGTG (SEQ ID NO:64) EXEMPLO 2: EDIÇÃO DE COMPARAÇÃO DE EFICIÊN-

CIA COM PRODUTOS COMERCIAIS

[00104] Dois produtos comerciais de proteína de fusão GFP-SpCas9, GenCrispr NLS-Cas9-EGFP Nuclease e ArciTect Cas9-eGFP Nuclease, foram adquiridos a partir de GenScript (Piscataway, NJ) e Stemcell Technologies (Vancouver, Canadá), respectivamente. Células U2OS humanas (0,2 x 106) e células HEK293 (0,3 x 106) foram transfectadas com 50 pmol de GenCrispr NLS-Cas9-EGFP Nuclease, ou ArciTect Cas9-eGFP Nuclease, ou a proteína GFP-SpCas9 da presente inven- ção, em combinação com 150 pmol cada um dos quatro sgRNAs sinte- tizados quimicamente visando os loci EMX1, HEKSite4, VEGFA3, HPRT Humano. As sequências guia são: 5’-GAGUCCGAGCA- GAAGAAGAA-3’ (EMX1) (SEQ ID NO:51), 5’-GGCACUGCGGCUGGA- GGUGG-3’ (HEKSite4) (SEQ ID NO:52), 5’GGUGAGUGAGUGUGUG- CGUG-3’ (VEGFA3), e 5’-GGUCACUUUUAACACACCCA-3’ (HPRT) (SEQ ID NO:53). A transfecção foi realizada usando Nucleofection So- lution V e um instrumento Amaxa. Células foram mantidas a 37ºC e 5 %

de CO2 por três dias antes da colheita para análise de edição de genes. O DNA genômico foi preparado usando solução de extração de DNA QuickExtract. Cada região genômica alvejada foi amplificada por PCR usando um par de iniciadores que consistem em sequências específicas do alvo e adaptadores de sequenciamento de próxima geração (NGS). Os iniciadores são listados na seguinte tabela: Sequências de iniciador

NGS Alvo Sequência de iniciador (5’-3’) EMX1 Direta: TCGTCGGCAGCGTCAGATGTGTATAAGAGA- CAGNNNNNNCCCCAGTGGCTGCTCT (SEQ ID NO:54) Reversa: GTCTCGTGGGCTCGGAGATGTGTA-

TAAGAGACAGNNNNNNCCAGGCCTCCCCAAAGC (SEQ ID NO:55) HEKSite4 Direta: TCGTCGGCAGCGTCAGATGTGTATAAGAGA- CAGNNNNNNGGAACCCAGGTAGCCAGAGA (SEQ ID NO:56) Reversa: GTCTCGTGGGCTCGGAGATGTGTA-

TAAGAGACAGNNNNNNGGGGTGGGGTCAGACGT (SEQ ID NO:57) VEGFA3 Direta: TCGTCGGCAGCGTCAGATGTGTATAAGAGA- CAGNNNNNNGCCCATTCCCTCTTTAGCCA (SEQ ID NO:58) Reversa: GTCTCGTGGGCTCGGAGATGTGTA- TAAGAGACAGNNNNNNGGAGCAGGAAAGTGAGGT- TAC (SEQ ID NO:59)

HPRT Direta: TCGTCGGCAGCGTCAGATGTGTATAAGAGA-

CAGNNNNNNAATGGACACATGGGTAGTCAGG (SEQ ID NO:60) Reversa: GTCTCGTGGGCTCGGAGATGTGTA- TAAGAGACAGNNNNNNGGCTTATATCCAACACTT- CGTGGG (SEQ ID NO:61)

[00105] Os amplicons de PCR foram analisados por NGS usando o Illumina MiSeq para determinar a eficiência de edição de cada proteína Cas9. Os resultados na Figura 2A e Figura 2B mostram que as eficiên- cias de edição pela proteína GFP-SpCas9 da presente invenção foram várias vezes maiores do que as proteínas comerciais em todos os alvos.

Claims

REIVINDICAÇÕES

1. Proteína de fusão caracterizada pelo fato de que compre- ende uma proteína Cas9 ligada a uma proteína marcadora, em que pelo menos uma proteína marcadora está ligada à proteína Cas9 direta ou indiretamente por meio de um primeiro ligante com pelo menos 90% de identidade de sequência com SEQ ID NO: 35 ou 36.

2. Proteína de fusão de acordo com a reivindicação 1, carac- terizada pelo fato de que a proteína marcadora está ligada à proteína Cas9 em seu N-terminal, C-terminal, um local interno ou uma combina- ção dos mesmos.

3. Proteína de fusão, de acordo com a reivindicação 1 ou 2, caracterizada pelo fato de que ainda compreende pelo menos um sinal de localização nuclear.

4. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 3, caracterizada pelo fato de que ainda compreende um segundo ligante opcional, em que o sinal de localização nuclear, a pro- teína marcadora, o primeiro ligante, o segundo ligante opcional (se pre- sente), e a proteína Cas9 estão dispostos na seguinte ordem (N-terminal para C-terminal): proteína marcadora – primeiro ligante – sinal de localização nuclear – proteína Cas9; proteína marcadora – sinal de localização nuclear – primeiro ligante – proteína Cas9; sinal de localização nuclear – primeiro ligante – proteína mar- cadora – proteína Cas9; sinal de localização nuclear – proteína marcadora – primeiro ligante – proteína Cas9; proteína marcadora – primeiro ligante – sinal de localização nuclear – segundo ligante – proteína Cas9; ou sinal de localização nuclear – primeiro ligante – proteína mar- cadora – segundo ligante – proteína Cas9.

5. Proteína de fusão, de acordo com a reivindicação 4, ca- racterizada pelo fato de que o sinal de localização nuclear, a proteína marcadora, o ligante, e a proteína Cas9 estão dispostos na seguinte ordem (N-terminal para C-terminal): proteína marcadora – primeiro ligante – sinal de localização nuclear – proteína Cas9.

6. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 5, caracterizada pelo fato de que compreende ainda pelo menos um domínio heterólogo.

7. Proteína de fusão, de acordo com a reivindicação 6, ca- racterizada pelo fato de que pelo menos um domínio heterólogo é um domínio de penetração celular, um motivo de modulação da cromatina, um domínio de modificação epigenética, um domínio de regulação da transcrição, um domínio de ligação de aptâmero de RNA ou combinação dos mesmos.

8. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 7, caracterizada pelo fato de que a proteína de fusão é uma nuclease e cliva ambas as fitas de uma sequência de fita dupla, é uma nickase e cliva uma fita de uma sequência de fita dupla ou não possui atividade de nuclease ou nickase.

9. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 8, caracterizada pelo fato de que a proteína Cas9 cas9 é a partir de Streptococcus pyogenes, Streptococcus thermophilus, Neisseria meningitidis, Staphylococcus aureus ou Campylobacter jejuni.

10. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 9, caracterizada pelo fato de que a proteína marcadora tem uma sequência de aminoácidos com pelo menos 90% de identidade de sequência com SEQ ID NO:19 ou 20.

11. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 10, caracterizada pelo fato de que a proteína marcadora tem uma sequência de aminoácidos estabelecida em SEQ ID NO:19 ou

20.

12. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 11, caracterizada pelo fato de que o ligante tem uma sequência de aminoácidos estabelecida em SEQ ID NO:35 ou 36.

13. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 12, caracterizada pelo fato de que a proteína de fusão tem uma sequência de aminoácidos com pelo menos 90% de identidade de sequência com SEQ ID NO:48, 49, ou 50.

14. Proteína de fusão, de acordo com qualquer uma das rei- vindicações 1 a 12, caracterizada pelo fato de que a proteína de fusão tem uma sequência de aminoácidos como estabelecida em SEQ ID NO:48, 49, ou 50.

15. Sistema caracterizado pelo fato de que compreende a proteína de fusão como definida em qualquer uma das reivindicações 1 a14 e um RNA guia geneticamente modificado.

16. Sistema, de acordo com a reivindicação 15, caracteri- zado pelo fato de que o RNA guia geneticamente modificado é uma mo- lécula única

17. Sistema, de acordo com a reivindicação 15 ou 16, carac- terizado pelo fato de que a sequência de RNA guia geneticamente mo- dificada é otimizada para facilitar pareamento de base dentro do RNA guia geneticamente modificado, minimizar o pareamento de base dentro do RNA guia geneticamente modificado, aumentar estabilidade do RNA guia geneticamente modificado, facilitar transcrição do RNA guia gene- ticamente modificado em uma célula eucariótica ou uma combinação dos mesmos.

18. Pluralidade de ácidos nucleicos caracterizada pelo fato de que codificam proteína de fusão como definida em qualquer uma das reivindicações 1 a 14.

19. Pluralidade de ácidos nucleicos que codificam o sistema como definido em qualquer uma das reivindicações 15 a 17, caracteri- zada pelo fato de que a pluralidade de ácidos nucleicos que compre- ende pelo menos um ácido nucleico codifica a proteína de fusão e pelo menos um ácido nucleico codifica o RNA guia geneticamente modifi- cado.

20. Pluralidade de ácidos nucleicos, de acordo com a reivin- dicação 19, caracterizada pelo fato de que pelo menos um ácido nu- cleico que codifica a proteína de fusão é RNA ou o pelo menos um ácido nucleico que codifica a proteína de fusão é DNA.

21. Pluralidade de ácidos nucleicos, de acordo com qualquer uma das reivindicações 18 a 20, caracterizada pelo fato de que pelo menos um ácido nucleico que codifica a proteína de fusão é códon oti- mizado para expressão em uma célula eucariótica.

22. Pluralidade de ácidos nucleicos, de acordo com a reivin- dicação 21, caracterizada pelo fato de que uma célula eucariótica é uma célula humana, uma célula de mamífero não humano, uma célula de vertebrado não mamífero, uma célula de invertebrado, uma célula ve- getal ou um organismo eucariótico de célula única.

23. Pluralidade de ácidos nucleicos, de acordo com qualquer uma das reivindicações 18 a 22, caracterizada pelo fato de que pelo menos um ácido nucleico que codifica o RNA guia geneticamente modi- ficado é DNA.

24. Pluralidade de ácidos nucleicos, de acordo com qualquer uma das reivindicações 18 a 23, caracterizada pelo fato de que pelo menos um ácido nucleico que codifica a proteína de fusão está operaci- onalmente ligado a uma sequência promotora de fago para síntese de

RNA in vitro ou expressão de proteína na célula bacteriana, e pelo me- nos um ácido nucleico que codifica o RNA guia geneticamente modifi- cado está operacionalmente ligado a uma sequência promotora de fago para síntese de RNA in vitro.

25. Pluralidade de ácidos nucleicos, de acordo com qualquer uma das reivindicações 18 a 23, caracterizada pelo fato de que pelo menos um ácido nucleico que codifica a proteína de fusão está operaci- onalmente ligado a uma sequência promotora eucariótica para expres- são em uma célula eucariótica, e pelo menos um ácido nucleico que codifica o RNA guia geneticamente modificado está operacionalmente ligado a uma sequência promotora eucariótica para expressão em uma célula eucariótica.

26. Pelo menos um vetor caracterizado pelo fato de que com- preende a pluralidade de ácidos nucleicos como definida em qualquer uma das reivindicações 18 a 25.

27. Pelo menos um vetor, de acordo com a reivindicação 26, caracterizado pelo fato de que é um vetor plasmídeo, um vetor viral, ou um replicon de RNA viral autorreplicante.

28. Célula eucariótica caracterizada pelo fato de que com- preende pelo menos um sistema compreendendo uma proteína de fu- são como definida nas reivindicações 1 a 14, um sistema como definido nas reivindicações 15 a 17, uma pluralidade de ácidos nucleicos como definida nas reivindicações 18 a 25, ou pelo menos um vetor como de- finido na reivindicação 26 ou 27.

29. Célula eucariótica, de acordo com a reivindicação 28, ca- racterizada pelo fato de que é uma célula humana, uma célula de ma- mífero não humano, uma célula vegetal, uma célula de vertebrado não mamífero, uma célula de invertebrado ou um organismo eucariótico de célula única.

30. Célula eucariótica, de acordo com a reivindicação 28 ou

29, caracterizada pelo fato de que é in vivo, ex vivo ou in vitro.

31. Método para determinar identidade cromossômica e lo- calização dentro de uma célula eucariótica viva ou célula eucariótica quimicamente fixada, caracterizado pelo fato de que compreende intro- duzir a proteína de fusão, sistema, pluralidade de ácidos nucleicos, ou vetor como definidos em qualquer uma das reivindicações 1 a 27, na célula eucariótica viva ou quimicamente fixada e detectar um sinal a par- tir da proteína marcadora.

32. Método, de acordo com a reivindicação 31, caracterizado pelo fato de que a célula eucariótica é uma célula humana, uma célula de mamífero não humano, uma célula vegetal, a célula de vertebrado não mamífero, uma célula de invertebrado ou um organismo eucariótico de célula única.

33. Método, de acordo com a reivindicação 31 ou 32, carac- terizado pelo fato de que a célula eucariótica é in vivo, ex vivo ou in vitro.

34. Uso de uma proteína de fusão e/ou uma pluralidade de ácidos nucleicos e/ou um vetor, caracterizado pelo fato de que é na pre- paração de uma composição, produto ou sistema para: facilitar pareamento de base dentro do RNA guia genetica- mente modificado, minimizar o pareamento de base dentro do RNA guia geneticamente modificado, aumentar estabilidade do RNA guia geneti- camente modificado, facilitar transcrição do RNA guia geneticamente modificado em uma célula eucariótica ou uma combinação dos mesmos; e/ou determinar a identidade cromossômica e a localização den- tro de uma célula eucariótica viva ou célula eucariótica quimicamente fixada.

35. Invenção, caracterizada pelo fato de que está sob qual- quer forma das suas concretizações ou em qualquer categoria de rei- vindicação que se possa reivindicar, por exemplo, produto, ou processo,

ou uso abrangido pelo objeto inicialmente descrito, revelado, ou ilus- trado no pedido de patente; Composição compreendendo Proteína de fusão, e/ou Sis- tema e/ou ácidos nucleicos e/ou vetor e/ou Célula eucariótica como de- finidas acima; Composição compreendendo Proteína de fusão, e/ou Sis- tema e/ou ácidos nucleicos e/ou vetor e/ou Célula eucariótica como de- finidas acima para uso em qualquer finalidade terapêutica, diagnóstica ou industrial revelado no presente pedido de patente.