BR112021013605B1 - Sistemas de edição de base, célula ou um progenitor da mesma,população de células, composição farmacêutica, e métodos para editar um polinucleotídeo de beta globina (hbb) associado à anemia falciforme e para produzir um glóbulo vermelho ou progenitor do mesmo - Google Patents

Sistemas de edição de base, célula ou um progenitor da mesma,população de células, composição farmacêutica, e métodos para editar um polinucleotídeo de beta globina (hbb) associado à anemia falciforme e para produzir um glóbulo vermelho ou progenitor do mesmo Download PDF

Info

Publication number
BR112021013605B1
BR112021013605B1 BR112021013605-3A BR112021013605A BR112021013605B1 BR 112021013605 B1 BR112021013605 B1 BR 112021013605B1 BR 112021013605 A BR112021013605 A BR 112021013605A BR 112021013605 B1 BR112021013605 B1 BR 112021013605B1
Authority
BR
Brazil
Prior art keywords
cas9
amino acid
domain
polynucleotide
protein
Prior art date
Application number
BR112021013605-3A
Other languages
English (en)
Other versions
BR112021013605A2 (pt
Inventor
Ian Slaymaker
Nicole Gaudelli
Yi Yu
Bernd Zetsche
David A. Born
Seung-Joo Lee
Michael Packer
Original Assignee
Beam Therapeutics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beam Therapeutics Inc filed Critical Beam Therapeutics Inc
Priority claimed from PCT/US2020/018193 external-priority patent/WO2020168133A1/en
Publication of BR112021013605A2 publication Critical patent/BR112021013605A2/pt
Publication of BR112021013605B1 publication Critical patent/BR112021013605B1/pt

Links

Abstract

COMPOSIÇÕES E MÉTODOS PARA TRATAR HEMOGLOBINOPATIAS. A presente invenção refere-se a composições e métodos para editar mutações deletérias associadas a hemoglobinopatias, tal como anemia falciforme (SCD). Em modalidades particulares, a invenção fornece métodos para corrigir mutações em um polinucleotídeo de beta globina usando editores de base de adenosina modificados denominados "ABE8" com níveis sem precedentes (por exemplo, >60- 70%) de eficiência.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[0001] Este pedido é um pedido Internacional PCT que reivindica prioridade e benefício aos Pedidos Provisórios dos Estados Unidos No. 62/805.271 depositado em 13 de fevereiro de 2019; 62/805.277, depositado em 13 de fevereiro de 2019; 62/852.224, depositado em 23 de maio de 2019; 62/852.228, depositado em 23 de maio de 2019; 62/931.722, depositado em 6 de novembro de 2019; 62/931.747, depositado em 6 de novembro de 2019; 62/941.569, depositado em 27 de novembro de 2019; e 62/966.526, depositado em 27 de janeiro de 2020, cujos conteúdos são incorporados por referência neste documento em sua totalidade.
INCORPORAÇÃO POR REFERÊNCIA
[0002] Todas as publicações, patentes e pedidos de patentes mencionados nesta especificação são incorporados aqui por referência na mesma extensão como se cada publicação, patente ou pedido de patente individual fosse específica e individualmente indicado para ser incorporado por referência. Na ausência de qualquer indicação em contrário, as publicações, patentes e pedidos de patentes mencionados nesta especificação são incorporados neste documento por referência em sua totalidade.
ANTECEDENTES DA INVENÇÃO
[0003] A anemia falciforme (SCD) é um grupo de doenças que afeta a necessarie, a molécula dos glóbulos vermelhos que leva oxigênio às células de todo o corpo. Pessoas com esse transtorno têm moléculas de necessarie atípicas, que podem distorcer os glóbulos vermelhos em forma de foice ou necessar. As manifestações clínicas da anemia falciforme (SCD) resultam de episódios intermitentes de oclusão microvascular levando à lesão de isquemia/reperfusão do tecido e hemólise crônica. Os eventos vaso-oclusivos estão associados a danos de isquemia/reperfusão aos tecidos, resultando em dor e lesão aguda ou crônica que afeta qualquer sistema orgânico. Os ossos/necessa, baço, fígado, cérebro, pulmões, rins e articulações são frequentemente afetados.
[0004] A SCD é uma doença genética caracterizada pela necessary de pelo menos um alelo da necessarie S (HbS; p.Glu6Val em HBB) e uma segunda variante patogênica de HBB resultando em polimerização anormal da hemoglobina. HbS/S (homozigoto p.Glu6Val em HBB) é responsável por 60% - 70% de SCD nos Estados Unidos. A expectativa de vida para homens e mulheres com SCD é de apenas 42 e 48 anos, respectivamente. Os métodos atuais de tratamento concentram-se no controle dos sintomas da doença. Métodos para editar as mutações genéticas que causam a SCD e outras hemoglobinopatias são urgentemente necessários.
SUMÁRIO
[0005] Conforme descrito abaixo, a presente invenção apresentacomposições e métodos para editar mutações deletérias associadas à anemia falciforme (SCD). Em modalidades particulares, a invenção fornece a correção de mutações de SCD usando um editor de base de adenosina desaminase modificado denominado "ABE8" tendo níveis sem precedentes (por exemplo, >60-70%) de eficiência.
[0006] Em um aspecto, a invenção apresenta um método de edição de um polinucleotídeo de beta globina compreendendo um polimorfismo de nucleotídeo único (SNP) associado à anemia falciforme, o método compreendendo contatar um polinucleotídeo de beta globina com um ou mais RNAs guia e uma proteína de fusão compreendendo um domínio de ligação de DNA programável de polinucleotídeo e pelo menos um domínio de editor de base que é uma variante de adenosina desaminase que compreende uma alteração na posição de aminoácido 82 e/ou 166 de MSEVEFSHEYWMRHALTLAKRARDEREVPVG AVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDA TLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYP GMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD, em que o RNA guia direciona o editor de base para efetuar a uma alteração do SNP associado à anemia falciforme.
[0007] Em outro aspecto, a invenção apresenta um método de edição de um polinucleotídeo de beta globina (HBB) compreendendo um polimorfismo de nucleotídeo único (SNP) associado à anemia falciforme, o método compreendendo contatar um polinucleotídeo de beta globina com um ou mais RNAs guia e uma proteína de fusão compreendendo um domínio de ligação de DNA programável de polinucleotídeo compreendendo a seguinte sequência: EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDK GRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARK KDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLAS AKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQH KHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIH LFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRI DLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSV GWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATR LKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEED KKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLAL AHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGV DAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFK SNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYK EIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNRE DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKIL TFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQS FIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKP AFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVE DRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIE ERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTI LDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIAN LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELD KAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKS KLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESE FVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV *, em que a sequência em negrito indica a sequência derivada de cas9, a sequência em itálico denota uma sequência de ligante, e a sequência sublinhada indica uma sequência de localização nuclear bipartida, e compreendendo pelo menos um domínio de editor de base de uma variante de adenosina desaminase que compreende uma alteração na posição de aminoácido 82 e/ou 166 de MSEVEFSHEYWMRHALTLAK RARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQG GLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGA AGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQK KAQSSTD.
[0008] Em outro aspecto, a invenção apresenta um sistema de edição de base compreendendo a proteína de fusão de qualquer aspecto anterior ou descrito de outra forma aqui e um RNA guia compreendendo uma sequência de ácido nucleico selecionada a partir do seguinte CUU CUCCACAGGAGUCAGAU; ACUUCUCCACAGGAGUCAGAU; e GAC UUCUCCACAGGAGUCAGAU. Em uma modalidade, o gRNA contém ainda uma sequência de ácido nucleico GUUUUUGUACUCUC AAGAUUUAAGUAACUGUACAACGAAACUUACACAGUUACUUAAA UCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACA CCCUGUCAUUUUAUGGCAGGGUG. Em outra modalidade, o gRNA contém uma sequência de ácido nucleico selecionado a partir de CUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAAG UAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGAA GCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUU UUAUGGCAGGGUG; ACUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAA GUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGA AGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAU UUUAUGGCAGGGUG; e GACUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUU AAGUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCA GAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUC AUUUUAUGGCAGGGUG.
[0009] Em outro aspecto, a invenção apresenta uma célula produzida pela introdução na célula, ou um progenitor da mesma: um editor de base, um polinucleotídeo que codifica o editor de base, para a célula, em que o editor de base compreende um domínio de ligação de DNA programável de polinucleotídeo e um domínio de adenosina desaminase descrito em qualquer aspecto aqui descrito; e um ou mais polinucleotídeos guia têm como alvo o editor de base para efetuar uma alteração A • T para G • C do SNP associado à anemia falciforme. Em uma modalidade, a célula produzida é uma célula-tronco hematopoiética, um progenitor mieloide comum, proeritroblasto, eritroblasto, reticulócito ou eritrócito. Em outra modalidade, a célula ou seu progenitor é uma célula-tronco hematopoiética, um progenitor mieloide comum, proeritroblastos ou eritroblastos. Em outra modalidade, a célula-tronco hematopoiética é uma célula CD34+. Em outra modalidade, a célula é de um indivíduo tendo anemia falciforme. Em outra modalidade, a célula é uma célula de mamífero ou célula humana.
[0010] Em outro aspecto, a invenção apresenta um método de tratar a anemia falciforme em um indivíduo, compreendendo administrar ao indivíduo uma célula de qualquer aspecto anterior ou qualquer outro aspecto da invenção delineado neste documento. Em uma modalidade, a célula é autóloga para o indivíduo. Em outra modalidade, a célula é alogênica para o indivíduo.
[0011] Em outro aspecto, a invenção fornece uma célula isolada ou população de células propagadas ou expandidas a partir da célula de qualquer aspecto anterior ou qualquer outro aspecto da invenção delineado neste documento.
[0012] Em outro aspecto, a invenção fornece um método de produção de um glóbulo vermelho, ou seu progenitor, envolvendo a introdução em um progenitor de glóbulo vermelho compreendendo um SNP associado à anemia falciforme, um editor de base ou um polinucleotídeo que codifica o editor de base, em que o editor de base compreende um domínio de ligação de nucleotídeo programável por polinucleotídeo e um domínio variante de adenosina desaminase descrito em qualquer aspecto anterior; e um ou mais polinucleotídeos guia, em que um ou mais polinucleotídeos guia atinge o editor de base para efetuar uma alteração de A • T para G • C do SNP associado à anemia falciforme; e diferenciar o progenitor de glóbulos vermelhos em um eritrócito. Em uma modalidade, o método envolve a diferenciação do progenitor de glóbulos vermelhos em um ou mais dentre uma célula-tronco hematopoiética, um progenitor mieloide comum, proeritroblasto, eritroblasto, reticulócito ou eritrócito. Em uma modalidade, o método envolve o progenitor de glóbulos vermelhos sendo uma célula CD34+. Em outra modalidade, o progenitor de glóbulos vermelhos é obtido de um indivíduo tendo anemia falciforme. Em outra modalidade, o progenitor de glóbulos vermelhos é uma célula de mamífero ou célula humana. Em outra modalidade, a alteração de A • T para G • C no SNP associado à anemia falciforme transforma uma valina em uma alanina no polipeptídeo de HBB. Em outra modalidade, o SNP associado à anemia falciforme resulta na expressão de um polipeptídeo de HBB tendo uma valina na posição de aminoácido 6. Em outra modalidade, o SNP associado com a anemia falciforme substitui o ácido glutâmico por valina. Em outra modalidade, a célula é selecionada para a alteração A • T para G • C do SNP associado à anemia falciforme. Em outra modalidade, o domínio de ligação de DNA programável de polinucleotídeo compreende um Cas9 de Staphylococcus aureus modificado (SaCas9), Cas9 de Streptococcus thermophilus 1 (St1Cas9), um Cas9 de Streptococcus pyogenes modificado (SpCas9), ou variantes dos mesmos.
[0013] Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, a variante de adenosina desaminase compreende alterações na posição de aminoácido 82 e 166. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção descrito aqui, a variante da adenosina desaminase compreende uma alteração V82S. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, a variante da adenosina desaminase compreende uma alteração T166R. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, a variante de adenosina desaminase compreende alterações de V82S e T166R. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, a variante da adenosina desaminase adicionalmente compreende uma ou mais das seguintes alterações: Y147T, Y147R, Q154S, Y123H e Q154R. Em várias modalidades de qualquer um dos aspectos anteriores ou qualquer outro aspecto da invenção aqui descrito, a variante da adenosina desaminase compreende uma combinação de alterações selecionadas a partir das seguintes: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R +Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; ou I76Y + V82S + Y123H + Y147R + Q154R. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende Y147R + Q154R + Y123H. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende Y147R + Q154R + I76Y. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende Y147R + Q154R + T166R. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende Y147T + Q154R. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende Y147T + Q154S. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende Y147R + Q154S. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende V82S + Q154S. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende V82S + Y147R. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende V82S + Q154R. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende V82S + Y123H. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende I76Y + V82S. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende V82S + Y123H + Y147T. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende V82S + Y123H + Y147R. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende V82S + Y123H + Q154R. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende Y123H + Y147R + Q154R + I76Y. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende V82S + Y123H + Y147R + Q154R. Em uma modalidade dos aspectos acima delineados, a variante da adenosina desaminase compreende I76Y + V82S + Y123H + Y147R + Q154R. Em outras modalidades dos aspectos acima, a variante de adenosina desaminase compreende uma deleção do terminal C começando em um resíduo selecionado a partir do grupo que consiste em 149, 150, 151, 152, 153, 154, 155, 156 e 157.
[0014] Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, a célula é in vivo ou ex vivo. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, a alteração A • T para G • C no SNP associado à anemia falciforme muda uma valina para uma alanina no polipeptídeo de HBB. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o SNP associado à anemia falciforme resulta na expressão de um polipeptídeo de HBB tendo uma valina na posição de aminoácido 6. Em várias modalidades de qualquer um dos anteriores aspectos ou qualquer outro aspecto da invenção aqui descrito, o SNP associado à anemia falciforme substitui um ácido glutâmico por uma valina. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, a alteração de A • T para G • C no SNP associado à anemia falciforme resulta na expressão de um polipeptídeo de HBB tendo uma alanina na posição de aminoácido 6. Em várias modalidades de qualquer um dos aspectos anteriores ou qualquer outro aspecto da invenção aqui descrita, a alteração A • T para G • C no SNP associado à anemia falciforme substitui um ácido glutâmico por uma alanina.
[0015] Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o domínio de ligação de DNA programável de polinucleotídeo é um Cas9 de Staphylococcus aureus modificado (SaCas9), Cas9 de Streptococcus thermophilus 1 (St1Cas9), um Cas9 de Streptococcus pyogenes modificado (SpCas9), ou variantes dos mesmos. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o domínio de ligação de DNA programável de polinucleotídeo compreende uma variante de SpCas9 tendo uma especificidade alterada de motivo adjacente ao protoespaçador (PAM) ou especificidade para um PAM não G. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o PAM alterado tem especificidade para a sequência de ácido nucleico 5'-NGC-3’. Em várias modalidades de qualquer um dos aspectos anteriores ou qualquer outro aspecto da invenção aqui descrito, o SpCas9 modificado compreende substituições de aminoácidos D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E e T1337R, ou substituições de aminoácidos correspondentes dos mesmos. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o domínio de ligação de DNA programável de polinucleotídeo é uma nuclease inativa ou variante de nickase. Em várias modalidades de qualquer um dos aspectos anteriores ou qualquer outro aspecto da invenção aqui descrito, a variante de nickase compreende uma substituição de aminoácido D10A ou uma substituição de aminoácido correspondente do mesmo. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o editor de base adicionalmente compreende um domínio de dedo de zinco. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o domínio de dedo de zinco compreende sequências hélices de reconhecimento RNEHLEV, QSTTLKR e RTEHLAR ou sequências hélices de reconhecimento RGEHLRQ, QSGTLKR e RNDKLVP. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o domínio de dedo de zinco é um ou mais de zf1ra ou zf1rb. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o domínio da adenosina desaminase é capaz de desaminar a adenina em ácido desoxirribonucleico (DNA). Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, os um ou mais RNAs guia compreendem um RNA CRISPR (crRNA) e um RNA pequeno trans codificado (tracrRNA), em que o crRNA compreende uma sequência de ácido nucleico complementar a uma sequência de ácido nucleico de HBB compreendendo o SNP associado à anemia falciforme. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, o editor de base está em complexo com um único RNA guia (sgRNA) compreendendo uma sequência de ácido nucleico complementar a uma sequência de ácido nucleico de HBB compreendendo o SNP associado à anemia falciforme. Em várias modalidades de qualquer um dos aspectos acima ou qualquer outro aspecto da invenção aqui descrito, a alteração A • T para G • C no SNP associado à anemia falciforme muda uma valina para uma alanina no polipeptídeo de HBB. Em outra modalidade, o SNP associado à anemia falciforme resulta na expressão de um polipeptídeo de HBB tendo uma valina na posição de aminoácido 6. Em outra modalidade, o SNP associado à anemia falciforme substitui um ácido glutâmico por uma valina. Em outra modalidade, a alteração de A • T para G • C no SNP associado à anemia falciforme resulta na expressão de um polipeptídeo de HBB tendo uma alanina na posição de aminoácido 6. Em outra modalidade, a alteração de A • T para G • C no SNP associado à anemia falciforme substitui um ácido glutâmico por uma alanina. Em outra modalidade, a célula é selecionada para a alteração A • T para G • C do SNP associado à anemia falciforme. Em outra modalidade, o domínio de ligação de DNA programável de polinucleotídeo é um Cas9 de Staphylococcus aureus modificado (SaCas9), Cas9 de Streptococcus thermophilus 1 (St1Cas9), um Cas9 de Streptococcus pyogenes modificado (SpCas9), ou variantes dos mesmos.
[0016] Em um aspecto, é fornecido um método para tratar a anemia falciforme (SCD) em um indivíduo, em que o método compreende administrar ao indivíduo uma proteína de fusão compreendendo uma variante de adenosina desaminase inserida em um polipeptídeo Cas9 ou um Cas12, ou um polinucleotídeo que codifica a proteína de fusão da mesma; e um ou mais polinucleotídeos guia para direcionar a proteína de fusão para efetuar uma alteração de A • T para G • C de um polimorfismo de nucleotídeo único (SNP) associado com AF, tratando assim SCD no indivíduo.
[0017] Em outro aspecto, um método de tratar a anemia falciforme (SCD) em um indivíduo é fornecido, em que o método compreende administrar ao indivíduo um editor de base de adenosina 8 (ABE8), ou um polinucleotídeo que codifica o referido editor de base, em que o ABE8 compreende uma variante de adenosina desaminase inserida em um polipeptídeo Cas9 ou Cas12; e um ou mais polinucleotídeos guia que têm como alvo o ABE8 para efetuar uma alteração de A • T para G • C de um SNP associado à AF, tratando assim a SCD no indivíduo.
[0018] Em uma modalidade dos métodos acima delineados, o ABE8 é selecionado a partir de ABE8,1-m, ABE8,2-m, ABE8,3-m, ABE8,4-m, ABE8,5-m, ABE8,6-m, ABE8,7-m, ABE8,8-m, ABE8,9-m, ABE8,10-m, ABE8,11-m, ABE8,12-m, ABE8,13-m, ABE8,14-m, ABE8 0,15-m, ABE8,16-m, ABE8,17-m, ABE8,18-m, ABE8,19-m, ABE8,20- m, ABE8,21-m, ABE8,22-m, ABE8,23-m, ABE8,24-m, ABE8,1-d, ABE8,2-d, ABE8,3-d, ABE8,4-d, ABE8,5-d, ABE8,6-d, ABE8,7-d, ABE8.8-d, ABE8.9-d, ABE8.10-d, ABE8.11-d, ABE8.12-d, ABE8.13-d, ABE8.14-d, ABE8.15-d, ABE8.16-d, ABE8.17-d, ABE8.18-d, ABE8.19- d, ABE8.20-d, ABE8.21-d, ABE8.22-d, ABE8.23-d ou ABE8. 24-d. Em uma modalidade dos métodos acima delineados, a variante de adenosina desaminase compreende a sequência de aminoácidos de: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRQVFNAQKKAQSSTD e em que a sequência de aminoácidos compreende pelo menos uma alteração. Em uma modalidade, a variante de adenosina desaminase compreende alterações na posição de aminoácido 82 e/ou 166. Em uma modalidade, a pelo menos uma alteração compreende: V82S, T166R, Y147T, Y147R, Q154S, Y123H e/ou Q154R.
[0019] Em uma modalidade dos métodos acima delineados, a variante da adenosina desaminase compreende uma das seguintes combinações de alterações: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R. Em uma modalidade dos métodos acima delineados, a variante da adenosina desaminase é TadA*8.1, TadA*8.2, TadA*8.3, TadA*8.4, TadA*8.5, TadA*8.6, TadA*8.7, TadA*8.8, TadA*8.9, TadA*8.10, TadA*8.11, TadA*8.12, TadA*8.13, TadA*8.14, TadA*8.15, TadA*8.16, TadA*8.17, TadA*8.18, TadA*8.19, TadA*8.20, TadA*8.21, TadA*8.22, TadA*8.23, ou TadA*8.24. Em uma modalidade, a variante de adenosina desaminase compreende uma deleção do terminal C começando em um resíduo selecionado a partir do grupo que consiste em 149, 150, 151, 152, 153, 154, 155, 156 e 157. Em uma modalidade, a variante de adenosina desaminase é um monômero de adenosina desaminase compreendendo um domínio de variante de adenosina desaminase TadA*8. Em uma modalidade, a variante de adenosina desaminase é um heterodímero de adenosina desaminase compreendendo um domínio de adenosina desaminase de tipo selvagem e um domínio de variante de adenosina desaminase TadA*8. Em uma modalidade, a variante de adenosina desaminase é um heterodímero de adenosina desaminase compreendendo um domínio TadA e um domínio de variante de adenosina desaminase TadA*8.
[0020] Em uma modalidade dos métodos acima delineados, o SNP associado com SCD está localizado no gene da beta globina (HBB). Em uma modalidade dos métodos acima delineados, o SNP resulta na expressão de um polipeptídeo de HBB tendo uma valina na posição de aminoácido 6. Em uma modalidade dos métodos acima delineados, o SNP substitui um ácido glutâmico por uma valina. Em uma modalidade dos métodos acima delineados, a alteração A • T para G • C no SNP muda uma valina para uma alanina no polipeptídeo de HBB. Em uma modalidade dos métodos acima delineados, a alteração de A • T para G • C no SNP resulta na expressão de um polipeptídeo de HBB tendo uma alanina na posição de aminoácido 6. Em uma modalidade dos métodos acima delineados, a alteração de A • T para G • C no SNP substitui um ácido glutâmico por uma alanina.
[0021] Em uma modalidade dos métodos acima delineados, a variante da adenosina desaminase é inserida dentro de uma alça flexível, uma região de hélice alfa, uma porção não estruturada ou uma porção acessível ao solvente do polipeptídeo Cas9 ou Cas12. Em uma modalidade dos métodos acima delineados, a variante da adenosina desaminase é flanqueada por um fragmento N-terminal e um fragmento C-terminal do polipeptídeo Cas9 ou Cas12. Em uma modalidade dos métodos acima delineados, a proteína de fusão ou ABE8 compreende a estrutura NH2- [fragmento N-terminal do polipeptídeo Cas9 ou Cas12]-[variante de adenosina desaminase]- [fragmento C-terminal do polipeptídeo Cas9 ou Cas12]-COOH, em que cada ocorrência de "]-[" é um ligante opcional. Em uma modalidade, os C-terminais do fragmento do N-terminal ou os N-terminais do fragmento C-terminal compreendem uma parte de uma alça flexível do polipeptídeo Cas9 ou Cas12. Em uma modalidade, a alça flexível compreende um aminoácido na proximidade da nucleobase alvo quando a variante da adenosina desaminase desamina a nucleobase alvo.
[0022] Em uma modalidade dos métodos acima delineados, os métodos adicionalmente compreendem administrar ao indivíduo uma sequência de ácido nucleico guia para efetuar a desaminação da nucleobase alvo de SNP associado à SCD. Em uma modalidade, a desaminação da nucleobase alvo de SNP substitui a nucleobase alvo por uma nucleobase não selvagem, e em que a desaminação da nucleobase alvo melhora os sintomas da anemia falciforme. Em uma modalidade, a desaminação do SNP associado à anemia falciforme substitui um ácido glutâmico por uma alanina.
[0023] Em uma modalidade dos métodos acima delineados, a nucleobase alvo está de 1-20 nucleobases longe de uma sequência PAM na sequência de polinucleotídeo alvo. Em uma modalidade, a nucleobase alvo é de 2-12 nucleobases a montante da sequência PAM. Em uma modalidade dos métodos acima delineados, o fragmento N-terminal ou o fragmento C-terminal do polipeptídeo Cas9 ou Cas12 se liga à sequência de polinucleotídeo alvo. Em certas modalidades, o fragmento N-terminal ou o fragmento C-terminal compreende um domínio RuvC; o fragmento N-terminal ou o fragmento C-terminal compreende um domínio HNH; nenhum do fragmento N-terminal e do fragmento C-terminal compreendem um domínio HNH; ou nenhum do fragmento N-terminal e do fragmento C- terminal compreende um domínio RuvC. Em uma modalidade, o polipeptídeo Cas9 ou Cas12 compreende uma exclusão parcial ou completa em um ou mais domínios estruturais e em que a desaminase é inserida na posição de exclusão parcial ou completa do polipeptídeo Cas9 ou Cas12. Em certas modalidades, a exclusão está dentro de um domínio RuvC; a deleção está dentro de um domínio HNH; ou a deleção liga um domínio RuvC e um domínio C-terminal.
[0024] Em uma modalidade dos métodos acima delineados, a proteína de fusão ou ABE8 compreende um polipeptídeo Cas9. Em uma modalidade, o polipeptídeo Cas9 é um Cas9 de Streptococcus pyogenes (SpCas9), Staphylococcus aureus Cas9 (SaCas9), Cas9 de Streptococcus thermophilus 1 (St1Cas9) ou variantes dos mesmos. Em uma modalidade, o polipeptídeo Cas9 compreende a seguinte sequência de aminoácidos (sequência de referência Cas9): MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC; (sequência de referência Cas9), ou uma região correspondente da mesma. Em certas modalidades, o polipeptídeo Cas9 compreende uma deleção de aminoácidos 1017-1069 conforme enumerado na sequência de referência de polipeptídeo Cas9 ou seus aminoácidos correspondentes; o polipeptídeo Cas9 compreende uma deleção dos aminoácidos 792-872 conforme enumerados na sequência de referência de polipeptídeo Cas9 ou seus aminoácidos correspondentes; ou o polipeptídeo Cas9 compreende uma deleção dos aminoácidos 792-906 conforme enumerados na sequência de referência de polipeptídeo Cas9 ou seus aminoácidos correspondentes. Em uma modalidade dos métodos acima delineados, a variante da adenosina desaminase é inserida dentro de uma alça flexível do polipeptídeo Cas9. Em uma modalidade, o alça flexível compreende uma região selecionada a partir do grupo que consiste em resíduos de aminoácidos nas posições 530-537, 569-579, 686-691, 768-793, 943-947, 1002-1040, 1052-1077, 1232 -1248 e 1298-1300 conforme enumerado na sequência de referência Cas9, ou posições de aminoácidos correspondentes dos mesmos.
[0025] Em uma modalidade dos métodos acima delineados, a variante de desaminase é inserida entre as posições de aminoácidos 768-769, 791-792, 792-793, 1015-1016, 1022-1023, 1026-1027, 10291030, 1040-1041, 1052-1053, 1054-1055, 1067-1068, 1068-1069, 1247-1248 ou 1248-1249 conforme enumerado na sequência de referência Cas9, ou posições de aminoácidos correspondentes dos mesmos. Em uma modalidade dos métodos acima delineados, a variante de desaminase é inserida entre as posições de aminoácidos 768-769, 792-793, 1022-1023, 1026-1027, 1040-1041, 1068-1069 ou 1247-1248 conforme enumerado na sequência de referência Cas9 ou posições de aminoácidos correspondentes dos mesmos. Em uma modalidade dos métodos acima delineados, a variante de desaminase é inserida entre as posições de aminoácidos 1016-1017, 1023-1024, 1029-1030, 1040-1041, 1069-1070 ou 1247-1248 conforme enumerado na sequência de referência Cas9 ou posições de aminoácidos correspondentes dos mesmos. Em uma modalidade dos métodos acima delineados, a variante da adenosina desaminase é inserida no polipeptídeo Cas9 nos locais identificados na Tabela 14A. Em uma modalidade, o fragmento N-terminal compreende os resíduos de aminoácidos 1-529, 538-568, 580-685, 692-942, 948-1001, 10261051, 1078-1231 e/ou 1248-1297 da sequência de referência Cas9 ou resíduos correspondentes dos mesmos. Em uma modalidade, o fragmento C-terminal compreende resíduos de aminoácidos 13011368, 1248-1297, 1078-1231, 1026-1051, 948-1001, 692-942, 580-685 e/ou 538-568 da Cas9 sequência de referência ou resíduos correspondentes dos mesmos.
[0026] Em uma modalidade dos métodos acima delineados, o polipeptídeo Cas9 é uma Cas9 modificado e tem especificidade para um PAM alterado ou um PAM não G. Em uma modalidade dos métodos acima delineados, o polipeptídeo Cas9 é uma nickase ou em que o polipeptídeo Cas9 é nuclease inativa. Em uma modalidade dos métodos acima delineados, o polipeptídeo Cas9 é um polipeptídeo SpCas9 modificado. Em uma modalidade, o polipeptídeo SpCas9 modificado, que inclui substituições de aminoácidos D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E, e T1337R (SpCas9- MQKFRAER) e que tem especificidade para o PAM 5'-NGC-3’ alterado.
[0027] Em outra modalidade dos métodos acima delineados, a proteína de fusão ou ABE8 compreende um polipeptídeo Cas12. Em uma modalidade, a variante de adenosina desaminase é inserida no polipeptídeo Cas12. Em uma modalidade, o polipeptídeo Cas12 é Cas12a, Cas12b, Cas12c, Cas12d, Cas12e, Cas12g, Cas12h ou Cas12i. Em uma modalidade, a variante de adenosina desaminase é inserida entre as posições de aminoácidos: a) 153-154, 255-256, 306307, 980-981, 1019-1020, 534-535, 604-605 ou 344-345 de BhCas12b ou um resíduo de aminoácido correspondente de Cas12a, Cas12c, Cas12d, Cas12e, Cas12g, Cas12h ou Cas12i; b) 147 e 148, 248 e 249, 299 e 300, 991 e 992, ou 1031 e 1032 de BvCas12b ou um resíduo de aminoácido correspondente de Cas12a, Cas12c, Cas12d, Cas12e, Cas12g, Cas12h ou Cas12i; ou c) 157 e 158, 258 e 259, 310 e 311, 1008 e 1009, ou 1044 e 1045 de AaCas12b, ou um resíduo de aminoácido correspondente de Cas12a, Cas12c, Cas12d, Cas12e, Cas12g, Cas12h ou Cas12i. Em uma modalidade, a variante de adenosina desaminase é inserida dentro do polipeptídeo Cas12 nos loci identificados na Tabela 14B. Em uma modalidade, o polipeptídeo Cas12 é Cas12b. Em uma modalidade, o polipeptídeo Cas12 compreende um domínio BhCas12b, um domínio BvCas12b ou um domínio AACas12b.
[0028] Em uma modalidade dos métodos acima delineados, o RNA guia compreende um RNA CRISPR (crRNA) e um crRNA transativador (tracrRNA). Em uma modalidade dos métodos acima delineados, o indivíduo é um mamífero ou um humano.
[0029] Em outro aspecto, uma composição farmacêutica que compreende um sistema de edição de base que compreende a proteína de fusão de qualquer um dos métodos, aspectos e modalidades delineados acima e um transportador, veículo ou excipiente farmaceuticamente aceitável é fornecida. Em uma modalidade, a composição farmacêutica adicionalmente compreende um RNA guia compreendendo uma sequência de ácido nucleico selecionada a partir do grupo que consiste em CUUCUCCACAGGAGUCAGAU; ACUUCUCCACAGGAGUCAGAU; e GACUUCUCCACAGGAGUCAGAU. Em uma modalidade, o gRNA adicionalmente compreende uma sequência de ácido nucleico GUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAACUUA CACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCA UGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG. Em uma modalidade, o gRNA compreende uma sequência de ácido nucleico selecionado a partir CUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAAG UAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGAA GCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUU UUAUGGCAGGGUG; ACUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUAA GUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGA AGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAU UUUAUGGCAGGGUG; e GACUUCUCCACAGGAGUCAGAUGUUUUUGUACUCUCAAGAUUUA AGUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAG AAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCA UUUUAUGGCAGGGUG. Em um aspecto, uma composição farmacêutica que compreende um editor de base ou um polinucleotídeo que codifica o editor de base é fornecida, em que o editor de base compreende um domínio de ligação de DNA programável de polinucle- otídeo e um domínio de adenosina desaminase descrito em qualquer um dos métodos, aspectos e modalidades delineados acima; e um ou mais polinucleotídeos guia que têm como alvo o editor de base para efetuar uma alteração de A • T para G • C do SNP associado a anemia falciforme, e um transportador, veículo ou excipiente farmaceutica- mente aceitável.
[0030] Em outro aspecto, uma composição farmacêutica compreendendo a célula dos aspectos e modalidades delineados acima e um transportador, veículo ou excipiente farmaceuticamente aceitável é fornecida.
[0031] Em outro aspecto, um kit que compreende um sistema de edição de base que compreende a proteína de fusão de qualquer um dos métodos, aspectos e modalidades delineados acima é fornecido. Em uma modalidade, o kit adicionalmente compreende um RNA guia compreendendo uma sequência de ácido nucleico selecionada a partir do grupo que consiste em CUUCUCCACAGGAGUCAGAU; ACUUCUCCACAGGAGUCAGAU; e GACUUCUCCACAGGAGUCAGAU.
[0032] Em outro aspecto, um kit que compreende um editor de base ou um polinucleotídeo que codifica o editor de base é fornecido, em que o editor de base compreende um domínio de ligação de DNA programável de polinucleotídeo e um domínio de adenosina desaminase descrito em qualquer um dos métodos, aspectos e modalidades delineados acima; e um ou mais polinucleotídeos guia que têm como alvo o editor de base para efetuar uma alteração A • T para G • C do SNP associado à anemia falciforme.
[0033] Em outro aspecto, é fornecido um kit compreendendo a célula de qualquer um dos aspectos e modalidades delineados acima. Em uma modalidade dos kits, o kit adicionalmente compreende um folheto informativo com instruções de uso.
[0034] Em um aspecto, é aqui proporcionado um sistema de edição de base que compreende um domínio de ligação de DNA programável de polinucleotídeo e pelo menos um domínio de editor de base que compreende uma variante de adenosina desaminase compreendendo uma alteração na posição de aminoácido 82 ou 166 de MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAI GLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIH SRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECA ALLCYFFRMPRQVFNAQKKAQSSTD e um RNA guia, em que o referido RNA guia tem como alvo o referido editor de base para efetuar uma alteração do SNP associado à deficiência de alfa-1 antitripsina. Em algumas modalidades, a variante da adenosina desaminase compreende uma alteração V82S e/ou uma alteração T166R. Em algumas modalidades, a variante da adenosina desaminase adicionalmente compreende uma ou mais das seguintes alterações: Y147T, Y147R, Q154S, Y123H e Q154R. Em algumas modalidades, o domínio do editor de base compreende um heterodímero de adenosina desaminase compreendendo um domínio de adenosina desaminase de tipo selvagem e uma variante de adenosina desaminase. Em algumas modalidades, a variante de adenosina desaminase é um TadA8 truncado que está faltando 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 17, 18, 19 ou 20 resíduos de aminoácidos N-terminais em relação ao TadA8 de comprimento completo. Em algumas modalidades, a variante de adenosina desaminase é um TadA8 truncado que está faltando 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 17, 18, 19 ou 20 resíduos de aminoácidos C-terminais em relação ao TadA8 de comprimento completo. Em algumas modalidades, o domínio de ligação de DNA programável de polinucleotídeo é um Cas9 de Staphylococcus aureus modificado (SaCas9), Cas9 de Streptococcus thermophilus 1 (St1Cas9), um Cas9 de Streptococcus pyogenes modificado (SpCas9) ou variantes dos mesmos. Em algumas modalidades, o domínio de ligação de DNA programável de polinucleotídeo é uma variante de SpCas9 tendo uma especificidade alterada do motivo protoespaçador adjacente (PAM) ou especificidade para um PAM não G. Em algumas modalidades, o domínio de ligação de DNA programável de polinucleotídeo é uma Cas9 inativa de nuclease. Em algumas modalidades, o domínio de ligação de DNA programável de polinucleotídeo é uma nickase Cas9.
[0035] Em um aspecto, é fornecido aqui um sistema de editor de base compreendendo um ou mais RNAs guia e uma proteína de fusão compreendendo um domínio de ligação de DNA programável de polinucleotídeo compreendendo a seguinte sequência: EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDK GRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKK DWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMER SSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKFL QKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLD EIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNL GAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGG DGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSVGWAVITDE YKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRY TRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFG NIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLI EGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSK SRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQL SKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKA PLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYI DGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIP HQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNS RFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKV LPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKT NRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDK DFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKR RRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDD SLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELV KVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQI LKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIV PQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLN AKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDS RMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAH DAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADK RTADGSEFESPKKKRKV*, em que a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico denota uma sequência de ligante e a sequência sublinhada denota uma sequência de localização nuclear bipartida e pelo menos um domínio de editor de base compreendendo uma variante de adenosina desaminase compreendendo uma alteração no aminoácido posição 82 e/ou 166 de MSEVEFSHEYWMRHALTLAKRA RDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLV MQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGS LMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQ SSTD, e em que os um ou mais RNAs guia têm como alvo o referido editor de base para efetuar a uma alteração do SNP associado com deficiência de antitripsina alfa-1.
[0036] Em um aspecto, uma célula que compreende qualquer um dos sistemas de editor de base delineados acima é fornecida. Em algumas modalidades, a célula é uma célula humana ou uma célula de mamífero. Em algumas modalidades, a célula é ex vivo, in vivo ou in vitro.
[0037] A descrição e os exemplos aqui ilustram modalidades da presente divulgação em detalhes. Deve ser entendido que esta divulgação não está limitada às modalidades particulares aqui descritas e, como tal, podem variar. Aqueles versados na técnica reconhecerão que existem inúmeras variações e modificações desta divulgação, que estão englobadas em seu escopo.
[0038] A invenção fornece composições e métodos para editar mutações associadas à anemia falciforme (SCD). As composições e artigos definidos pela invenção foram isolados ou fabricados de outra forma em conexão com os exemplos fornecidos abaixo. Outras características e vantagens da invenção serão evidentes a partir da descrição detalhada e das reivindicações. A prática de algumas modalidades aqui divulgadas emprega, salvo indicação em contrário, técnicas convencionais de imunologia, bioquímica, química, biologia molecular, microbiologia, biologia celular, genômica e DNA recombinante, que estão dentro da perícia na técnica. Vide, por exemplo, Sambrook e Green, Molecular Cloning: A Laboratory Manual, 4a Edição (2012); a série Current Protocols in Molecular Biology (F. M. Ausubel, et al. eds.); a série Methods In Enzymology (Academic Press, Inc.), PCR 2: A Practical Approach (M.J. MacPherson, B.D. Hames e G.R. Taylor eds. (1995)), Harlow e Lane, eds. (1988) Antibodies, A Laboratory Manual, e Culture of Animal Cells: A Manual of Basic Technique and Specialized Applications, 6a Edição (R.I. Freshney, ed. (2010)).
[0039] Os títulos das seções usados neste documento são apenas para fins organizacionais e não devem ser interpretados como limitando o assunto descrito.
[0040] Embora vários recursos da presente divulgação possam ser descritos no contexto de uma única modalidade, os recursos também podem ser fornecidos separadamente ou em qualquer combinação adequada. Por outro lado, embora a presente divulgação possa ser descrita neste documento no contexto de modalidades separadas para maior clareza, a presente divulgação também pode ser implementada em uma única modalidade. Os títulos das seções usados neste documento são apenas para fins organizacionais e não devem ser interpretados como limitando o assunto descrito.
[0041] As características da presente divulgação são estabelecidas com particularidade nas reivindicações anexas. Uma melhor compreensão das características e vantagens do presente será obtida por referência à seguinte descrição detalhada que estabelece modalidades ilustrativas, nas quais os princípios da divulgação são utilizados, e em vista dos desenhos anexos, conforme descrito abaixo. Definições
[0042] As seguintes definições complementam aquelas na técnica e são direcionadas ao pedido atual e não devem ser imputadas a qualquer caso relacionado ou não relacionado, por exemplo, a qualquer patente ou pedido de propriedade comum. Embora quaisquer métodos e materiais semelhantes ou equivalentes aos descritos neste documento possam ser usados na prática para o teste da presente divulgação, os materiais e métodos preferidos são descritos neste documento. Consequentemente, a terminologia usada neste documento tem a finalidade de descrever modalidades particulares apenas e não se destina a ser limitante.
[0043] A menos que definido de outra forma, todos os termos técnicos e científicos usados neste documento têm o significado comumente entendido por uma pessoa versada na técnica à qual esta invenção pertence. As seguintes referências fornecem aos versados uma definição geral de muitos dos termos usados nesta invenção: Singleton et al., Dictionary of Microbiology and Molecular Biology (2a ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5a Ed., R. Rieger et al. (eds.), Springer Verlag (1991); e Hale & Marham, The Harper Collins Dictionary of Biology (1991).
[0044] Neste pedido, o uso do singular inclui o plural, a menos que especificamente indicado de outra forma. Deve-se notar que, conforme usado no relatório descritivo, as formas singulares "um", "uma", "a" e "o" incluem referências plurais, a menos que o contexto dite claramente o contrário. Neste pedido, o uso de "ou" significa "e/ou" salvo indicação em contrário, e é considerado inclusivo. Além disso, o uso do termo "incluindo", bem como outras formas, como "inclui", "incluem" e "incluído", não é limitante.
[0045] Conforme usado neste relatório descritivo e na(s) reivindicação(ões), as palavras "compreendendo" (e qualquer forma de compreender, como "compreende" e "compreendem"), "tendo" (e qualquer forma de ter, como "têm" e "tem"), "incluindo" (e qualquer forma de incluir, como "inclui" e "incluem") ou "contendo" (e qualquer forma de conter, como "contém" e "contêm") são inclusivas ou abertas e não exclui elementos ou etapas de método adicionais não solicitados. É contemplado que qualquer modalidade discutida nesta especificação pode ser implementada em relação a qualquer método ou composição da presente divulgação e vice-versa. Além disso, as composições da presente divulgação podem ser usadas para obter métodos da presente divulgação.
[0046] O termo "cerca de" ou "aproximadamente" significa dentro de uma faixa de erro aceitável para o valor particular, conforme determinado por alguém versado na técnica, que dependerá em parte de como o valor é medido ou determinado, ou seja, as limitações do sistema de medida. Por exemplo, "cerca de" pode significar dentro de 1 ou mais de 1 desvio padrão, de acordo com a prática da técnica. Alternativamente, "cerca de" pode significar uma faixa de até 20%, até 10%, até 5% ou até 1% de um determinado valor. Em alternativa, particularmente no que diz respeito a sistemas ou processos biológicos, o termo pode significar dentro de uma ordem de magnitude, tal como dentro de 5 vezes ou dentro de 2 vezes, de um valor. Onde valores particulares são descritos no pedido e nas reivindicações, a menos que indicado de outra forma, o termo "cerca de" significando dentro de uma faixa de erro aceitável para o valor particular deve ser assumido.
[0047] Os intervalos fornecidos neste documento são entendidos como uma abreviatura para todos os valores dentro do intervalo. Por exemplo, uma faixa de 1 a 50 é entendida como incluindo qualquer número, combinação de números ou subfaixa do grupo que consiste em 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 ou 50.
[0048] Referência no relatório descritivo a "algumas modalidades", "uma modalidade", "uma (1) modalidade" ou "outras modalidades" significa que um determinado recurso, estrutura ou característica descrita em conexão com as modalidades estão incluídos em pelo menos algumas modalidades, mas não necessariamente todas as modalidades das presentes divulgações.
[0049] Por "adenosina desaminase" entende-se um polipeptídeo ou fragmento do mesmo capaz de catalisar a desaminação hidrolítica de adenina ou adenosina. Em algumas modalidades, a desaminase ou domínio desaminase é uma adenosina desaminase que catalisa a desaminação hidrolítica de adenosina para inosina ou desóxi adenosina para desoxiinosina. Em algumas modalidades, a adenosina desaminase catalisa a desaminação hidrolítica de adenina ou adenosina em ácido desoxirribonucleico (DNA). As adenosinas desaminases (por exemplo, adenosinas desaminases projetadas, adenosinas desaminases evoluídas) fornecidas neste documento podem ser de qualquer organismo, como uma bactéria. Em algumas modalidades, a adenosina desaminase compreende uma alteração na seguinte sequência: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRQVFNAQKKAQSSTD (também denominado TadA*7.10).
[0050] Em algumas modalidades, TadA*7.10 compreende pelo menos uma alteração. Em algumas modalidades, TadA*7.10 compreende uma alteração no aminoácido 82 e/ou 166. Em modalidades particulares, uma variante da sequência referenciada acima compreende uma ou mais das seguintes alterações: Y147T, Y147R, Q154S, Y123H, V82S, T166R e/ou Q154R. Em outras modalidades, uma variante da sequência TadA7.10 compreende uma combinação de alterações selecionadas a partir das seguintes: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R.
[0051] Em outras modalidades, a invenção fornece variantes de adenosina desaminase que incluem deleções, por exemplo, TadA*8, compreendendo uma deleção do C-terminal começando no resíduo 149, 150, 151, 152, 153, 154, 155, 156 ou 157. Em outras modalidades, a variante de adenosina desaminase é um monômero TadA (por exemplo, TadA*8) compreendendo uma ou mais das seguintes alterações: Y147T, Y147R, Q154S, Y123H, V82S, T166R e/ou Q154R. Em outras modalidades, a variante da adenosina desaminase é um monômero que compreende uma combinação de alterações selecionadas a partir das seguintes: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R.
[0052] Em ainda outras modalidades, a variante de adenosina desaminase é um homodímero que compreende dois domínios de adenosina desaminase (por exemplo, TadA*8), cada um tendo uma ou mais das seguintes alterações Y147T, Y147R, Q154S, Y123H, V82S, T166R e/ou Q154R. Em outras modalidades, a variante de adenosina desaminase é um homodímero que compreende dois domínios de adenosina desaminase (por exemplo, TadA*8), cada um tendo uma combinação de alterações selecionadas a partir do grupo de: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R.
[0053] Em outras modalidades, a variante de adenosina desaminase é um heterodímero que compreende um domínio de adenosina desaminase de TadA de tipo selvagem e um domínio de variante de adenosina desaminase (por exemplo, TadA*8) compreendendo uma ou mais das seguintes alterações Y147T, Y147R, Q154S, Y123H, V82S, T166R e/ou Q154R. Em outras modalidades, a variante de adenosina desaminase é um heterodímero que compreende um domínio de adenosina desaminase de TadA de tipo selvagem e um domínio de variante de adenosina desaminase (por exemplo, TadA*8) que compreende uma combinação de alterações selecionadas a partir do seguinte: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R.
[0054] Em outras modalidades, a variante de adenosina desaminase é um heterodímero compreendendo um domínio TadA*7.10 e um domínio variante de adenosina desaminase (por exemplo, TadA*8) compreendendo uma ou mais das seguintes alterações Y147T, Y147R, Q154S, Y123H, V82S, T166R, e/ou Q154R. Em outras modalidades, a variante da adenosina desaminase é um heterodímero que compreende um domínio TadA*7.10 e um domínio variante da adenosina desaminase (por exemplo, TadA*8) que compreende uma combinação das seguintes alterações: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; ou I76Y + V82S + Y123H + Y147R + Q154R.
[0055] Em uma modalidade, a adenosina desaminase é um TadA*8 que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCTFFRMPRQVFNAQKKAQSSTD.
[0056] Em algumas modalidades, o TadA*8 é truncado. Em algumas modalidades, o TadA*8 truncado está faltando 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 17, 18, 19 ou 20 resíduos de aminoácidos N-terminais em relação ao TadA*8 de comprimento completo. Em algumas modalidades, o TadA*8 truncado está faltando 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 17, 18, 19 ou 20 resíduos de aminoácidos do C-terminal em relação ao TadA*8 de comprimento completo. Em algumas modalidades, a variante da adenosina desaminase é um TadA*8 de comprimento completo.
[0057] Em modalidades particulares, um heterodímero de adenosina desaminase compreende um domínio TadA*8 e um domínio de adenosina desaminase selecionado de um dos seguintes: Staphylococcus aureus (S. aureus) TadA: MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRE TLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMS RIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTL LTTFFKNLRANKKSTN Bacillus subtilis (B. subtilis) TadA: MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQR SIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVE KVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGML SAFFRELRKKKKAARKNLSE Salmonella typhimurium (S. typhimurium) TadA: MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLV HNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYV TLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNH RVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV Shewanella putrefaciens (S. putrefaciens) TadA: MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQ HDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRI ARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQL SRFFKRRRDEKKALKLAQRAQQGIE Haemophilus influenzae F3031 (H. influenzae) TadA: MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGE GWNLSIVQSDPTAHAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCA GAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEE CSQKLSTFFQKRREEKKIEKALLKSLSDK Caulobacter crescentus (C. crescentus) TadA: MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIAT AGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMC AGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGV LADESADLLRGFFRARRKAKI Geobacter sulfurreducens (G. sulfurreducens) TadA: MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRG HNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMC MGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVC QEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP TadA*7.10 MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRQVFNAQKKAQSSTD
[0058] Por "polipeptídeo editor de base de adenosina desaminase 8 (ABE8)" entende-se um editor de base (BE), conforme definido e/ou descrito aqui, compreendendo uma variante de adenosina desaminase que compreende uma alteração na posição de aminoácido 82 e/ou 166 da seguinte sequência de referência: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRQVFNAQKKAQSSTD. Em algumas modalidades, ABE8 compreende outras alterações em relação à sequência de referência.
[0059] Por "polinucleotídeo do editor de base de adenosina desaminase 8 (ABE8)" entende-se um polinucleotídeo (sequência de polinucleotídeo) que codifica um polipeptídeo ABE8.
[0060] "Administrar" é aqui referido como fornecendo uma ou mais composições aqui descritas a um paciente ou indivíduo. A título de exemplo e sem limitação, a administração da composição, por exemplo, injeção, pode ser realizada por injeção intravenosa (i.v.), injeção subcutânea (s.c.), injeção intradérmica (i.d.), injeção intraperitoneal (i.p.) ou injeção intramuscular (i.m.). Uma ou mais dessas rotas podem ser empregadas. A administração parenteral pode ser, por exemplo, por injeção em bolus ou por perfusão gradual ao longo do tempo. Alternativamente, ou concomitantemente, a administração pode ser por via oral.
[0061] Por "agente" entende-se qualquer composto químico de molécula pequena, anticorpo, molécula de ácido nucleico ou polipeptídeo ou fragmentos dos mesmos.
[0062] Por "alteração" entende-se uma mudança (por exemplo, aumento ou diminuição) na estrutura, níveis de expressão ou atividade de um gene ou polipeptídeo, conforme detectado por métodos conhecidos da técnica padrão, como aqueles descritos neste documento. Tal como aqui utilizado, uma alteração inclui uma mudança em um polinucleotídeo ou sequência de polipeptídeo ou uma mudança nos níveis de expressão, tal como uma mudança de 25%, uma mudança de 40%, uma mudança de 50% ou mais.
[0063] Por "melhorar" entende-se diminuir, suprimir, atenuar, diminuir, interromper ou estabilizar o desenvolvimento ou progressão de uma doença.
[0064] Por "análogo" entende-se uma molécula que não é idêntica, mas tem características funcionais ou estruturais análogas. Por exemplo, um polinucleotídeo ou polipeptídeo análogo retém a atividade biológica de um polinucleotídeo ou polipeptídeo de ocorrência natural correspondente, embora tenha certas modificações que aumentem a função do análogo em relação a um polinucleotídeo ou polipeptídeo de ocorrência natural. Tais modificações podem aumentar a afinidade do análogo para o DNA, eficiência, especificidade, resistência à protease ou nuclease, permeabilidade da membrana e/ou meia-vida, sem alterar, por exemplo, a ligação do ligando. Um análogo pode incluir um nucleotídeo ou aminoácido não natural.
[0065] Por "editor de base (BE)" ou "editor de nucleobase (NBE)" entende-se um agente que se liga a um polinucleotídeo e tem atividade modificadora de nucleobase. Em várias modalidades, o editor de base compreende um polipeptídeo modificador de nucleobase (por exemplo, uma desaminase) e um domínio de ligação de nucleotídeo programável de ácido nucleico em conjunto com um polinucleotídeo guia (por exemplo, RNA guia). Em várias modalidades, o agente é um complexo biomolecular compreendendo um domínio de proteína com atividade de edição de base, ou seja, um domínio capaz de modificar uma base (por exemplo, A, T, C, G ou U) dentro de uma molécula de ácido nucleico (por exemplo, DNA). Em algumas modalidades, o domínio de ligação de DNA programável de polinucleotídeo é fundido ou ligado a um domínio de desaminase. Em uma modalidade, o agente é uma proteína de fusão que compreende um domínio com atividade de edição de base. Em outra modalidade, o domínio de proteína com atividade de edição de base está ligado ao RNA guia (por exemplo, através de um motivo de ligação de RNA no RNA guia e um domínio de ligação de RNA fundido à desaminase). Em algumas modalidades, o domínio com atividade de edição de base é capaz de desaminar uma base dentro de uma molécula de ácido nucleico. Em algumas modalidades, o editor de base é capaz de desaminar uma ou mais bases dentro de uma molécula de DNA. Em algumas modalidades, o editor de base é capaz de desaminar uma adenosina (A) dentro do DNA. Em algumas modalidades, o editor de base é um editor de base de adenosina (ABE).
[0066] Em algumas modalidades, editores de base são gerados (por exemplo, ABE8) por clonagem de uma variante de adenosina desaminase (por exemplo, TadA*8) em um arcabouço que inclui um permutante circular Cas9 (por exemplo, spCAS9 ou saCAS9) e uma sequência de localização nuclear bipartida. Cas9s permutantes circulares são conhecidos na técnica e descritos, por exemplo, em Oakes et al., Cell 176, 254-267, 2019. Permutantes circulares exemplares seguem onde a sequência em negrito indica sequência derivada de Cas9, a sequência em itálico denota uma sequência de ligante, e a sequência sublinhada denota uma sequência de localização nuclear bipartida.
[0067] CP5 (com MSP "NGC = Variante Pam com mutações Cas9 Regulares como NGG" PID = Domínio de Interação de Proteína e "D10A" nickase): EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDK GRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARK KDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLAS AKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQH KHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIH LFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRI DLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSV GWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATR LKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEED KKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLAL AHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGV DAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFK SNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYK EIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNRE DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKIL TFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQS FIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKP AFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVE DRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIE ERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTI LDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIAN LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELD KAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKS KLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESE FVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV*
[0068] Em algumas modalidades, o ABE8 é selecionado a partir de um editor de base da Tabela 6-9, 13 ou 14 infra. Em algumas modalidades, ABE8 contém uma variante de adenosina desaminase evoluída de TadA. Em algumas modalidades, a variante de adenosina desaminase de ABE8 é uma variante de TadA*8 conforme descrito na Tabela 7, 9, 13 ou 14 infra. Em algumas modalidades, a variante da adenosina desaminase é a variante TadA*7.10 (por exemplo, TadA*8) que compreende uma ou mais de uma alteração selecionada a partir do grupo de Y147T, Y147R, Q154S, Y123H, V82S, T166R e/ou Q154R. Em várias modalidades, ABE8 compreende a variante de TadA*7.10 (por exemplo, TadA*8) com uma combinação de alterações selecionadas a partir do grupo de Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R. Em algumas modalidades, ABE8 é um construto monomérico. Em algumas modalidades, ABE8 é um construto heterodimérico. Em algumas modalidades, o ABE8 compreende a sequência: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCTFFRMPRQVFNAQKKAQSSTD.
[0069] Em algumas modalidades, o domínio de ligação de DNA programável de polinucleotídeo é uma enzima associada a CRISPR (por exemplo, Cas ou Cpf1). Em algumas modalidades, o editor de base é uma Cas9 cataliticamente morto (dCas9) fundido a um domínio de desaminase. Em algumas modalidades, o editor de base é uma nickase Cas9 (nCas9) fundida a um domínio de desaminase. Os detalhes dos editores de base são descritos nos Pedidos Internacionais PCT Nos. PCT/2017/045381 (WO 2018/027078) e PCT/US2016/058344 (WO 2017/070632), cada um dos quais é incorporado neste documento por referência em sua totalidade. Vide também Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A^T to G^C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017), e Rees, H.A., et al., "Base editing: precision chemistry on the genome and transcriptome of living cells." Nat Rev Genet. Dezembro de 2018; 19(12):770-788. doi: 10.1038/s41576-018-0059-1, cujo conteúdo inteiro é aqui incorporado por referência.
[0070] A título de exemplo, o editor de base de adenina (ABE), conforme usado nas composições, sistemas e métodos de edição de base aqui descritos, tem a sequência de ácido nucleico (8877 pares de bases), (Addgene, Watertown, MA.; Gaudelli NM, et al., Nature. 23 de novembro de 2017; 551(7681):464-471. doi: 10.1038/nature24644; Koblan LW, et al., Nat Biotechnol. Outubro de 2018; 36(9):843-846. doi: 10.1038/nbt.4172.) conforme fornecido abaixo. As sequências de polinucleotídeo com pelo menos 95% ou mais de identidade com a sequência de ácido nucleico ABE também estão incluídas. ATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGC CCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTA CTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGAT GCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTC ACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTT GTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAAC TCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGA GGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTA GAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCC ACCATGAAACGGACAGCCGACGGAAGCGAGTTCGAGTCACCAAA GAAGAAGCGGAAAGTCTCTGAAGTCGAGTTTAGCCACGAGTATTG GATGAGGCACGCACTGACCCTGGCAAAGCGAGCATGGGATGAAA GAGAAGTCCCCGTGGGCGCCGTGCTGGTGCACAACAATAGAGTG ATCGGAGAGGGATGGAACAGGCCAATCGGCCGCCACGACCCTAC CGCACACGCAGAGATCATGGCACTGAGGCAGGGAGGCCTGGTCA TGCAGAATTACCGCCTGATCGATGCCACCCTGTATGTGACACTGG AGCCATGCGTGATGTGCGCAGGAGCAATGATCCACAGCAGGATC GGAAGAGTGGTGTTCGGAGCACGGGACGCCAAGACCGGCGCAG CAGGCTCCCTGATGGATGTGCTGCACCACCCCGGCATGAACCAC CGGGTGGAGATCACAGAGGGAATCCTGGCAGACGAGTGCGCCG CCCTGCTGAGCGATTTCTTTAGAATGCGGAGACAGGAGATCAAGG CCCAGAAGAAGGCACAGAGCTCCACCGACTCTGGAGGATCTAGC GGAGGATCCTCTGGAAGCGAGACACCAGGCACAAGCGAGTCCGC CACACCAGAGAGCTCCGGCGGCTCCTCCGGAGGATCCTCTGAGG TGGAGTTTTCCCACGAGTACTGGATGAGACATGCCCTGACCCTGG CCAAGAGGGCACGCGATGAGAGGGAGGTGCCTGTGGGAGCCGT GCTGGTGCTGAACAATAGAGTGATCGGCGAGGGCTGGAACAGAG CCATCGGCCTGCACGACCCAACAGCCCATGCCGAAATTATGGCC CTGAGACAGGGCGGCCTGGTCATGCAGAACTACAGACTGATTGA CGCCACCCTGTACGTGACATTCGAGCCTTGCGTGATGTGCGCCG GCGCCATGATCCACTCTAGGATCGGCCGCGTGGTGTTTGGCGTG AGGAACGCAAAAACCGGCGCCGCAGGCTCCCTGATGGACGTGCT GCACTACCCCGGCATGAATCACCGCGTCGAAATTACCGAGGGAAT CCTGGCAGATGAATGTGCCGCCCTGCTGTGCTATTTCTTTCGGAT GCCTAGACAGGTGTTCAATGCTCAGAAGAAGGCCCAGAGCTCCA CCGACTCCGGAGGATCTAGCGGAGGCTCCTCTGGCTCTGAGACA CCTGGCACAAGCGAGAGCGCAACACCTGAAAGCAGCGGGGGCA GCAGCGGGGGGTCAGACAAGAAGTACAGCATCGGCCTGGCCATC GGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAA GGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGC ACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGC GGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAA GAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGA TCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACA GACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAG CGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCA CGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGA CAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGG CCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGAC CTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCT GGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGC CAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCA AGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAG AAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGG CCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATG CCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGAC AACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCT GGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCC TGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCT ATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCT GAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGA TTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACG GCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCC TGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAAC AGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAG CATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGC GGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAA AGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCC CTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAG AGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGA CAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACT TCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGC CTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTG AAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGG CGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACC GGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAA TCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGG TTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATC AAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTG GAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATG ATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAA GTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCA GGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCC GGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAAC AGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAA GAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCT GCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGA AGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAA GTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGC CAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCG AGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGC CAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAAC GAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTAC GTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGT GGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGA CAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCG ACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACT GGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTC GACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGA TAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGA TCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTA AGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCA CCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGT TTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACG CCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACC CTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTAC GACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAA GGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTC AAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCC TCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATA AGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCC CAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTT CAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGAT CGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCG ACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTG GAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCT GGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCAT CGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCT GATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGG CCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAA ACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGG CCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAG CAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAG ATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCC GACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGG GATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTT ACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGAC ACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCT GGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGA CACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGCGGCTCA AAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAG GAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCC GCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTG TTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTC CCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCT GAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACA GCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGAT GCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGG CTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTC ATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACAC AACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAA TGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCT TTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGC CAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGC TTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGC GAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAG AATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAG CAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTC CATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCA AGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGC GTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCT GCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGT GGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTA GGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTC AGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCA ACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGT AACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTT CTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATT TGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGT TGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTG GTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATC TCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACACTCAGTGG AACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAA GGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCA ATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCT TAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATC CATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGA GGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACC CACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCG GAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCC ATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCG CCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATC GTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGT TCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAA AAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAG TTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATT CTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGA GTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAG TTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAG CAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCG AAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAA CCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCA GCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAA AGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCC TTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGC GGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTC CGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCG GGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATC TGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGT GTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACA ACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGG GTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACG CGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGG GTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTT ACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCC ATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGG ACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCC CACTTGGCAGTACATCAAGTGTATC
[0071] Por "atividade de edição de base" entende-se agir para alterar quimicamente uma base dentro de um polinucleotídeo. Em uma modalidade, uma primeira base é convertida em uma segunda base. Em uma modalidade, a atividade de edição de base é a atividade da adenosina ou adenina desaminase, por exemplo, a conversão de A • T em G • C. Em algumas modalidades, a atividade de edição de base é avaliada pela eficiência da edição. A eficiência de edição de base pode ser medida por qualquer meio adequado, por exemplo, por sequenciamento de sanger ou sequenciamento de próxima geração. Em algumas modalidades, a eficiência da edição de base é medida pela porcentagem de leituras de sequenciamento total com conversão de nucleobase efetuada pelo editor de base, por exemplo, a porcentagem de leituras de sequenciamento total com par de base A.T alvo convertido em um par de base G.C Em algumas modalidades, a eficiência da edição de base é medida pela porcentagem do total de células com a conversão de nucleobase efetuada pelo editor de base, quando a edição de base é realizada em uma população de células.
[0072] O termo "sistema de editor de base" refere-se a um sistema para editar uma nucleobase de uma sequência de nucleotídeos alvo. Em várias modalidades, o sistema de editor de base compreende (1) um domínio de ligação de nucleotídeo programável de polinucleotídeo (por exemplo, Cas9); (2) um domínio desaminase (por exemplo, uma adenosina desaminase) para desaminar a referida nucleobase; e (3) um ou mais polinucleotídeos guia (por exemplo, RNA guia). Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio de ligação de DNA programável de polinucleotídeo. Em algumas modalidades, o editor de base é um editor de base de adenina ou adenosina (ABE). Em algumas modalidades, o sistema de editor de base é ABE8.
[0073] Em algumas modalidades, um sistema de editor de base pode compreender mais de um componente de edição de base. Por exemplo, um sistema de editor de base pode incluir mais de uma desaminase. Em algumas modalidades, um sistema de editor de base pode incluir uma ou mais adenosina desaminases. Em algumas modalidades, um único polinucleotídeo guia pode ser utilizado para direcionar diferentes desaminases para uma sequência de ácido nucleico alvo. Em algumas modalidades, um único par de polinucleotídeos guia pode ser utilizado para direcionar diferentes desaminases para uma sequência de ácido nucleico alvo.
[0074] O domínio de desaminase e o componente de ligação de nucleotídeo programável de polinucleotídeo de um sistema de editor de base podem estar associados um ao outro covalentemente ou não covalentemente, ou qualquer combinação de associações e interações dos mesmos. Por exemplo, em algumas modalidades, um domínio de desaminase pode ser direcionado para uma sequência de nucleotídeos alvo por um domínio de ligação de nucleotídeos programável de polinucleotídeo. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser fundido ou ligado a um domínio de desaminase. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ter como alvo um domínio de desaminase para uma sequência de nucleotídeo alvo por interação não covalente ou associação com o domínio de desaminase. Por exemplo, em algumas modalidades, o domínio desaminase pode compreender uma porção ou domínio heterólogo adicional que é capaz de interagir, se associar ou formar um complexo com uma porção ou domínio heterólogo adicional que faz parte de um domínio de ligação de nucleotídeo programável de polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir, se associar ou formar um complexo com um polipeptídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir, se associar ou formar um complexo com um polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um polinucleotídeo guia. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. A porção heteróloga adicional pode ser um domínio de proteína. Em algumas modalidades, a porção heteróloga adicional pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de proteína de revestimento SfMu Com, um motivo alfa estéril, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telomerase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[0075] Um sistema de editor de base pode adicionalmente compreender um componente de polinucleotídeo guia. Deve ser apreciado que os componentes do sistema de editor de base podem ser associados entre si por meio de ligações covalentes, interações não covalentes ou qualquer combinação de associações e interações das mesmas. Em algumas modalidades, um domínio desaminase pode ser direcionado a uma sequência de nucleotídeos alvo por um polinucleotídeo guia. Por exemplo, em algumas modalidades, o domínio desaminase pode compreender uma porção ou domínio heterólogo adicional (por exemplo, domínio de ligação de polinucleotídeo, como uma proteína de ligação de RNA ou de DNA) que é capaz de interagir, se associar ou formar um complexo com uma porção ou segmento (por exemplo, um motivo de polinucleotídeo) de um polinucleotídeo guia. Em algumas modalidades, a porção ou domínio heterólogo adicional (por exemplo, domínio de ligação de polinucleotídeo, como uma proteína de ligação de RNA ou de DNA) pode ser fundido ou ligado ao domínio de desaminase. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir com, se associar ou formar um complexo com um polipeptídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir, se associar ou formar um complexo com um polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um polinucleotídeo guia. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. A porção heteróloga adicional pode ser um domínio de proteína. Em algumas modalidades, a porção heteróloga adicional pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de proteína de revestimento SfMu Com, um motivo alfa estéril, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telomerase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[0076] Em algumas modalidades, um sistema de editor de base pode adicionalmente compreender um componente inibidor de reparo de excisão de base (BER). Deve ser apreciado que os componentes do sistema de editor de base podem ser associados entre si por meio de ligações covalentes, interações não covalentes ou qualquer combinação de associações e interações das mesmas. O inibidor do componente BER pode compreender um inibidor de BER. Em algumas modalidades, o inibidor de BER pode ser um inibidor da uracil-DNA glicosilase (UGI). Em algumas modalidades, o inibidor de BER pode ser um inibidor de inosina BER. Em algumas modalidades, o inibidor de BER pode ser direcionado para a sequência de nucleotídeos alvo pelo domínio de ligação de nucleotídeos programável do polinucleotídeo. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser fundido ou ligado a um inibidor de BER. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser fundido ou ligado a um domínio de desaminase e um inibidor de BER. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ter como alvo um inibidor de BER para uma sequência de nucleotídeo alvo por interação não covalente ou associação com o inibidor de BER. Por exemplo, em algumas modalidades, o inibidor do componente BER pode compreender uma porção ou domínio heterólogo adicional que é capaz de interagir, se associar ou formar um complexo com uma porção ou domínio heterólogo adicional que faz parte de um polinucleotídeo programável domínio de ligação de nucleotídeo.
[0077] Em algumas modalidades, o inibidor de BER pode ser direcionado para a sequência de nucleotídeos alvo pelo polinucleotídeo guia. Por exemplo, em algumas modalidades, o inibidor de BER pode compreender uma porção ou domínio heterólogo adicional (por exemplo, domínio de ligação de polinucleotídeo, como uma proteína de ligação de RNA ou de DNA) que é capaz de interagir, se associar ou formar um complexo com uma porção ou segmento (por exemplo, um motivo de polinucleotídeo) de um polinucleotídeo guia. Em algumas modalidades, a porção ou domínio heterólogo adicional do polinucleotídeo guia (por exemplo, domínio de ligação de polinucleotídeo, como uma proteína de ligação de RNA ou de DNA) podem ser fundidos ou ligados ao inibidor de BER. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir, se associar ou formar um complexo com um polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um polinucleotídeo guia. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. A porção heteróloga adicional pode ser um domínio de proteína. Em algumas modalidades, a porção heteróloga adicional pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de proteína de revestimento SfMu Com, um motivo alfa estéril, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telomerase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[0078] Por "proteína β-globina (HBB)" entende-se um polipeptídeo ou fragmento do mesmo tendo pelo menos cerca de 95% de identidade de sequência de aminoácidos com No. de Registro NCBI NP_000509. Em modalidades particulares, uma proteína β-globina compreende uma ou mais alterações em relação à seguinte sequência de referência. Em uma modalidade particular, uma proteína β-globina associada à anemia falciforme compreende uma mutação E6V (também denominada E7V). Uma sequência de aminoácidos de β- globina exemplar é fornecida abaixo. 1 MVHLTPEEKS AVTALWGKVN VDEVGGEALG RLLVVYPWTQ RFFESFGDLS TPDAVMGNPK 61 VKAHGKKVLG AFSDGLAHLD NLKGTFATLS ELHCDKLHVD PENFRLLGNV LVCVLAHHFG 121 KEFTPPVQAA YQKVVAGVAN ALAHKYH
[0079] Por "polinucleotídeo de HBB" entende-se uma molécula de ácido nucleico que codifica a proteína β-globina ou fragmento da mesma. A sequência de um polinucleotídeo de HBB exemplar, que está disponível no No. de Registro NCBI NM_000518, é fornecida abaixo: 1 acatttgctt ctgacacaac tgtgttcact agcaacctca aacagacacc atggtgcatc 61 tgactcctga ggagaagtct gccgttactg ccctgtgggg caaggtgaac gtggatgaag 121 ttggtggtga ggccctgggc aggctgctgg tggtctaccc ttggacccag aggttctttg 181 agtcctttgg ggatctgtcc actcctgatg ctgttatggg caaccctaag gtgaaggctc 241 atggcaagaa agtgctcggt gcctttagtg atggcctggc tcacctggac aacctcaagg 301 gcacctttgc cacactgagt gagctgcact gtgacaagct gcacgtggat cctgagaact 361 tcaggctcct gggcaacgtg ctggtctgtg tgctggccca tcactttggc aaagaattca 421 ccccaccagt gcaggctgcc tatcagaaag tggtggctgg tgtggctaat gccctggccc 481 acaagtatca ctaagctcgc tttcttgctg tccaatttct attaaaggtt cctttgttcc 541 ctaagtccaa ctactaaact gggggatatt atgaagggcc ttgagcatct ggattctgcc 601 taataaaaaa catttatttt cattgcaa
[0080] O termo "Cas9" ou "domínio Cas9" refere-se a uma nuclease guiada por RNA compreendendo uma proteína Cas9, ou um fragmento da mesma (por exemplo, uma proteína compreendendo um domínio de clivagem de DNA ativo, inativo ou parcialmente ativo de Cas9, e/ou o domínio de ligação de gRNA de Cas9). Uma nuclease Cas9 também é referida às vezes como uma nuclease Casn1 ou uma nuclease associada a CRISPR (repetição palindrômica curta regularmente interespaçada agrupada). CRISPR é um sistema imunológico adaptativo que fornece proteção contra elementos genéticos móveis (vírus, elementos transponíveis e plasmídeos conjugativos). Os agrupamentos de CRISPR contêm espaçadores, sequências complementares aos elementos móveis antecedentes e ácidos nucleicos invasores alvo. Os agrupamentos de CRISPR são transcritos e processados em RNA CRISPR (crRNA). Em sistemas CRISPR tipo II, o processamento correto de pré-crRNA requer um RNA pequeno transcodificado (tracrRNA), ribonuclease 3 endógena (rnc) e uma proteína Cas9. O tracrRNA serve como um guia para o processamento auxiliado pela ribonuclease 3 de pré-crRNA. Subsequentemente, Cas9/crRNA/tracrRNA cliva endonucleoliticamente o alvo de dsDNA linear ou circular complementar ao espaçador. O filamento alvo não complementar a crRNA é primeiro cortado endonucleoliticamente e, em seguida, aparado 3’-5' éxonucleoliticamente. Na natureza, a ligação e a clivagem do DNA normalmente requerem proteínas e ambos os RNAs. No entanto, RNAs de guia único ("sgRNA" ou simplesmente "gNRA") podem ser construídos geneticamente de modo a incorporar aspectos tanto do crRNA quanto do tracrRNA em uma única espécie de RNA. Vide, por exemplo, Jinek M., Chylinski K., Fonfara I., Hauer M., Doudna J.A., Charpentier E. Science 337:816-821(2012), cujo conteúdo total é aqui incorporado por referência. Cas9 reconhece um motivo curto nas sequências de repetição CRISPR (o PAM ou motivo adjacente do protoespaçador) para ajudar a distinguir o próprio versus o não próprio. As sequências e estruturas de nuclease Cas9 são bem conhecidas dos versados na técnica (vide, por exemplo, "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Ferretti et al., J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Primeaux C., Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); "CRISPR RNA maturation by transencoded small RNA and host factor RNase III." Deltcheva E., Chylinski K., Sharma C.M., Gonzales K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Nature 471:602-607(2011); e "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." Jinek M., Chylinski K., Fonfara I., Hauer M., Doudna J.A., Charpentier E. Science 337:816-821(2012), todo o conteúdo de cada um dos que são incorporados aqui por referência). Ortólogos Cas9 foram descritos em várias espécies, incluindo, mas não se limitando a, S. pyogenes e S. thermophilus. Nucleases e sequências de Cas9 adicionais adequadas serão aparentes para aqueles versados na técnica com base nesta divulgação, e tais nucleases e sequências de Cas9 incluem sequências de Cas9 dos organismos e loci divulgados em Chylinski, Rhun e Charpentier, "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems" (2013) RNA Biology 10:5, 726-737; todo o conteúdo do qual é incorporado aqui por referência.
[0081] Um exemplo de Cas9 é Cas9 de Streptococcus pyogenes (spCas9), cuja sequência de aminoácidos é fornecida abaixo: MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLI GALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLAD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYN QLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDR GMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSG KTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQI ANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSD NVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[0082] Uma proteína Cas9 inativada por nuclease pode ser intercambiavelmente referida como uma proteína "dCas9" (para nuclease- Cas9 "morto") ou Cas9 cataliticamente inativa. Métodos para gerar uma proteína Cas9 (ou um fragmento da mesma) com um domínio de clivagem de DNA inativo são conhecidos (vide, por exemplo, Jinek et al., Science. 337:816-821(2012); Qi et al., "Repurposing CRISPR as an RNA-Guided Platform for SequenceSpecific Control of Gene Expression" (2013) Cell. 28;152(5):1173-83, todo o conteúdo de cada um dos quais são aqui incorporados por referência). Por exemplo, o domínio de clivagem de DNA de Cas9 é conhecido por incluir dois subdomínios, o subdomínio nuclease HNH e o subdomínio de RuvC1. O subdomínio HNH cliva o filamento complementar ao gRNA, enquanto o subdomínio RuvC1 cliva o filamento não complementar. Mutações dentro desses subdomínios podem silenciar a atividade nuclease Cas9. Por exemplo, as mutações D10A e H840A inativam completamente a atividade nuclease Cas9 de S. pyogenes (Jinek et al., Science. 337:816-821(2012); Qi et al., Cell. 28;152(5):1173-83 (2013)). Em algumas modalidades, uma Cas9 nuclease tem um domínio de clivagem de DNA inativo (por exemplo, um inativado), isto é, a Cas9 é uma nickase, referida como uma proteína "nCas9" (para Cas9 "nickase").
[0083] Em algumas modalidades, são fornecidas proteínas que compreendem fragmentos de Cas9. Por exemplo, em algumas modalidades, uma proteína compreende um de dois domínios Cas9: (1) o domínio de ligação de gRNA de Cas9; ou (2) o domínio de clivagem de DNA de Cas9. Em algumas modalidades, as proteínas que compreendem Cas9 ou fragmentos das mesmas são referidas como "variantes de Cas9". Uma variante de Cas9 compartilha homologia com Cas9, ou um fragmento da mesma. Por exemplo, uma variante de Cas9 é pelo menos cerca de 70% idêntica, pelo menos cerca de 80% idêntica, pelo menos cerca de 90% idêntica, pelo menos cerca de 95% idêntica, pelo menos cerca de 96% idêntica, pelo menos cerca de 97% idêntica, em pelo menos cerca de 98% idêntico, pelo menos cerca de 99% idêntico, pelo menos cerca de 99,5% idêntico ou pelo menos cerca de 99,9% idêntico ao Cas9 de tipo selvagem. Em algumas modalidades, a variante de Cas9 pode ter 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais alterações de aminoácidos em comparação com Cas9 de tipo selvagem. Em algumas modalidades, a variante de Cas9 compreende um fragmento de Cas9 (por exemplo, um domínio de ligação de gRNA ou um domínio de clivagem de DNA), de modo que o fragmento seja pelo menos cerca de 70% idêntico, pelo menos cerca de 80% idêntico, pelo menos cerca de 90% idêntico, pelo menos cerca de 95% idêntico, pelo menos cerca de 96% idêntico, pelo menos cerca de 97% idêntico, pelo menos cerca de 98% idêntico, pelo menos cerca de 99% idêntico, pelo menos cerca de 99,5% idêntico ou pelo menos cerca de 99,9% idêntico ao fragmento correspondente de Cas9 de tipo selvagem. Em algumas modalidades, o fragmento é pelo menos 30%, pelo menos 35%, pelo menos 40%, pelo menos 45%, pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65%, pelo menos 70 %, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95% idêntico, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos pelo menos 99,5% do comprimento de aminoácido de uma Cas9 de tipo selvagem correspondente.
[0084] Em algumas modalidades, o fragmento tem pelo menos 100 aminoácidos de comprimento. Em algumas modalidades, o fragmento é de pelo menos 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250 ou pelo menos 1300 aminoácidos de comprimento. Em algumas modalidades, Cas9 de tipo selvagem corresponde a Cas9 de Streptococcus pyogenes (Sequência de Referência NCBI: NC_017053.1, sequências de nucleotídeos e aminoácidos como segue): ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCG TCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAA AGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAA ATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAG CGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGA AGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGC GAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTG GTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATA TAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCAT CTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGC TTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTT TTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAA CTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAA CCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCA CGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCC CCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGT CATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGA AGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTA GATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTT GGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAA GAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGAT TAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCT TTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGA TCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAG CCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGG ATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCT GCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAAT TCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTT TATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGA CTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAG TCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCC ATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCA TTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAA AGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATA ACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAAC CAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACT CTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGAT TATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGT TGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTA AAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGA TATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGG GGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGA TAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGG ACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCT GGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATC GCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGA AGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACAT GAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTA TTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGG GCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAG ACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGA ATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGC ATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTAT TATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATA TTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGT TTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTG ATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGT CAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTA ATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAG GTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGT TGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGT CGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGG TTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAA GATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATG CCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAA GAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAA GTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAG GCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTC TTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCC CTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATA AAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCC AAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCT CCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGC TCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGT CCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAA GGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATC ACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTT AGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAA CTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGA TGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTC TGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAA AAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTG TGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAG TGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAG TTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACA AGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCT CCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATA TACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCC ATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAG GTGACTGA MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLI GALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLAD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYN QLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDR GMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSG KTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQI ANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSD NVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[0085] Em algumas modalidades, Cas9 de tipo selvagem corresponde a, ou compreende as seguintes sequências de nucleotídeos e/ou aminoácidos: ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCG TTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAA ATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAAT CTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGC GACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCA AGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGC CAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTT GTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAAC ATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATC ACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGA GGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCA CTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGA CAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAA GAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTT AGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCA CAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATA GCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGAC TTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGAT GACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCG GACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTAT CTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTAT CCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGA CACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATA AGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATAT TGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACC CATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACT CAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGG TAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTT AGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAA AAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGAC CCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAG TCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATA AAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTG ACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACT TTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTAT GTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACA GAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGT GACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGC TTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCG TCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGG ACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGT GTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAG ACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAG TTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAA ACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTC GATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAG CTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGG CACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGA ATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAG TCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAAC CGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTC AGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAA GAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCT GTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACC TACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAA ACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTT TTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGAT AAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGT AAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACT GATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGG TGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCT CGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGA TTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCG GGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTC AGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACC ACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCAC TCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGA TTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACA GGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATT ATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATAC GCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCG TATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGT CCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCG GAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAA GCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTG GCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAA AAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAAT TATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACC CCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGG ATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAAT GGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGG GAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTA GCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAA CAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAA TCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGA TGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGA TAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACT CTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACA ACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGAC GCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGG ATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAG AGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAA GATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[0086] Em algumas modalidades, Cas9 de tipo selvagem corresponde a Cas9 de Streptococcus pyogenes (Sequência de Referência NCBI: NC_002737.2 (sequência de nucleotídeos como se segue); e Sequência de Referência Uniprot: Q99ZW2 (sequência de aminoácidos como se segue): ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCG TCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAA AGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAA ATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAG CGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGA AGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGC GAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTG GTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATA TAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCAT CTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCT TAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTT TTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAAC TATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAAC CCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCAC GATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCC CGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCA TTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAG ATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGAT AATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGG CAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGA GTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTA AACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTT AGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGAT CAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGC CAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGA TGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTG CGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATT CACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTT ATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGAC TTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGT CGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCA TGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCAT TTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAA GTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAA CGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACC AGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTC TTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATT ATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTT GAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAA AAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGAT ATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGG AGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGA TAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGG ACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCT GGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATC GCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGA AGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACA TGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGT ATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGG GGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAA ATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGA AACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAA AGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTAT CTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAAT TAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCA CAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGC GTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGA AGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCC AAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAAC GTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCC AATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTT GGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATT CGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTT CCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTAC CATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCT TTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTG ATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAA GAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCAT GAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGC AAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTC TGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCC ATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGC GGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGC TTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTT TGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGT GGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACT AGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATT GACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAA TCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGT AAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAG CTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTC ATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAAC AATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGA GCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAAT TTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAA TACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAAT CTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATC GTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTAT CCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGT CAGCTAGGAGGTGACTGA MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (SEQ ID NO: 1. sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC).
[0087] Em algumas modalidades, Cas9 refere-se a Cas9 de: Corynebacterium ulcerans (NCBI Refs: NC_015683.1, NC_017317.1); Corynebacterium diphtheria (NCBI Refs: NC_016782.1, NC_016786.1); Spiroplasma syrphidicola (NCBI Ref: NC_021284.1); Prevotella intermedia (NCBI Ref: NC_017861.1); Spiroplasma taiwanense (NCBI Ref: NC_021846.1); Streptococcus iniae (NCBI Ref: NC_021314.1); Belliella baltica (NCBI Ref: NC_018010.1); Psychroflexus torquisI (NCBI Ref: NC_018721.1); Streptococcus thermophilus (NCBI Ref: YP_820832.1), Listeria innocua (NCBI Ref: NP_472073.1), Campylobacter jejuni (NCBI Ref: YP_002344900.1) ou Neisseria meningitidis (NCBI Ref: YP_002342100.1) ou a uma Cas9 de qualquer outro organismo.
[0088] Em algumas modalidades, a Cas9 é uma Cas9 de Neisseria menigitidis (NmeCas9) ou uma variante do mesmo. Em algumas modalidades, a NmeCas9 tem especificidade para um NNNNGAYW PAM, em que Y é C ou T e W é A ou T. Em algumas modalidades, a NmeCas9 tem especificidade para um NNNNGYTT PAM, em que Y é C ou T. Em algumas modalidades, a NmeCas9 tem especificidade para um PAM NNNNGTCT. Em algumas modalidades, a NmeCas9 é uma Nme1 Cas9. Em algumas modalidades, a NmeCas9 tem especificidade para um NNNNGATT PAM, um NNNNCCTA PAM, um NNNNCCTC PAM, um NNNNCCTT PAM, um NNNNCCTG PAM, um NNNNCCGT PAM, um NNNNCCGGPAM, um NNNNCCCA PAM, um NNNNCCCT PAM, um NNNNCCCC PAM, um NNNNCCAT PAM, um NNNNCCAG PAM, um NNNNCCAT PAM ou um NNNGATT PAM. Em algumas modalidades, a Nme1Cas9 tem especificidade para um NNNNGATT PAM, um NNNNCCTA PAM, um NNNNCCTC PAM, um NNNNCCTT PAM ou um NNNNCCTG PAM. Em algumas modalidades, a NmeCas9 tem especificidade para um CAA PAM, um CAAA PAM ou um CCA PAM. Em algumas modalidades, a NmeCas9 é uma Nme2 Cas9. Em algumas modalidades, a NmeCas9 tem especificidade para um NNNNCC (N4CC) PAM, em que N é qualquer um de A, G, C ou T. em algumas modalidades, a NmeCas9 tem especificidade para um NNNNCCGT PAM, um NNNNCCGGPAM, um NNNNCCCA PAM, um NNNNCCCT PAM, um NNNNCCCC PAM, um NNNNCCAT PAM, um NNNNCCAG PAM, um NNNNCCAT PAM ou um NNNGATT PAM. Em algumas modalidades, a NmeCas9 é uma Nme3Cas9. Em algumas modalidades, a NmeCas9 tem especificidade para um NNNNCAAA PAM, um NNNNCC PAM ou um NNNNCNNN PAM. Em algumas modalidades, os domínios de interação com PAM para Nme1, Nme2 ou Nme3 são N4GAT, N4CC e N4CAAA, respectivamente. Características adicionais de NmeCas9 e sequências PAM são descritas em Edraki et al., A Compact, High-Accuracy Cas9 with a Dinucleotide PAM for in vivo Genome Editing, Mol. Célula. (2019) 73 (4): 714-726, que é incorporado neste documento por referência na sua totalidade.
[0089] Uma proteína Cas9 de Neisseria meningitidis exemplar, Nme1Cas9, (Referência NCBI: WP_002235162.1; endonuclease Cas9 guiada por RNA de CRISPR tipo II) tem a seguinte sequência de aminoácidos: 1 maafkpnpin yilgldigia svgwamveid edenpiclid Igvrvferae vpktgdslam 61 arrlarsvrr Itrrrahrll rarrllkreg vlqaadfden glikslpntp wqlraaaldr 121 kltplewsav llhlikhrgy Isqrkneget adkelgallk gvadnahalq tgdfrtpael 181 alnkfekesg hirnqrgdys htfsrkdlqa elillfekqk efgnphvsgg lkegietllm 241 tqrpalsgda vqkmlghctf epaepkaakn tytaerfiwl tklnnlrile qgserpltdt 301 eratlmdepy rkskltyaqa rkllgledta ffkglrygkd naeastlmem kayhaisral 361 ekeglkdkks plnlspelqd eigtafslfk tdeditgrlk driqpeilea llkhisfdkf 421 vqislkalrr ivplmeqgkr ydeacaeiyg dhygkkntee kiylppipad eirnpvvlra 481 lsqarkving vvrrygspar ihietarevg ksfkdrkeie krqeenrkdr ekaaakfrey 541 fpnfvgepks kdilklrlye qqhgkclysg keinlgrlne kgyveidhal pfsrtwddsf 601 nnkvlvlgse nqnkgnqtpy eyfngkdnsr ewqefkarve tsrfprskkq rillqkfded 661 gfkernlndt ryvnrflcqf vadrmrltgk gkkrvfasng qitnllrgfw glrkvraend 721 rhhaldavvv acstvamqqk itrfvrykem nafdgktidk etgevlhqkt hfpqpweffa 781 qevmirvfgk pdgkpefeea dtpeklrtll aeklssrpea vheyvtplfv srapnrkmsg 841 qghmetvksa krldegvsvl rvpltqlklk dlekmvnrer epklyealka rleahkddpa 901 kafaepfyky dkagnrtqqv kavrveqvqk tgvwvrnhng iadnatmvrv dvfekgdkyy 961 lvpiyswqva kgilpdravv qgkdeedwql iddsfnfkfs lhpndlvevi tkkarmfgyf 1021 aschrgtgni nirihdldhk igkngilegi gvktalsfqk yqidelgkei rpcrlkkrpp 1081 vr
[0090] Outra proteína Cas9 de Neisseria meningitidis exemplar, Nme2Cas9, (Referência NCBI: WP_002230835; endonuclease Cas9 guiada por RNA de CRISPR tipo II) tem a seguinte sequência de aminoácidos: 1 maafkpnpin yilgldigia svgwamveid eeenpirlid Igvrvferae vpktgdslam 61 arrlarsvrr Itrrrahrll rarrllkreg vlqaadfden glikslpntp wqlraaaldr 121 kltplewsav llhlikhrgy Isqrkneget adkelgallk gvannahalq tgdfrtpael 181 alnkfekesg hirnqrgdys htfsrkdlqa elillfekqk efgnphvsgg Ikegietllm 241 tqrpalsgda vqkmlghctf epaepkaakn tytaerfiwl tklnnlrile qgserpltdt 301 eratlmdepy rkskltyaqa rkllgledta ffkglrygkd naeastlmem kayhaisral 361 ekeglkdkks plnlsselqd eigtafslfk tdeditgrlk drvqpeilea llkhisfdkf 421 vqislkalrr ivplmeqgkr ydeacaeiyg dhygkkntee kiylppipad eirnpvvlra 481 lsqarkving vvrrygspar ihietarevg ksfkdrkeie krqeenrkdr ekaaakfrey 541 fpnfvgepks kdilklrlye qqhgkclysg keinlvrlne kgyveidhal pfsrtwddsf 601 nnkvlvlgse nqnkgnqtpy eyfngkdnsr ewqefkarve tsrfprskkq rillqkfded 661 gfkecnlndt ryvnrflcqf vadhilltgk gkrrvfasng qitnllrgfw glrkvraend 721 rhhaldavvv acstvamqqk itrfvrykem nafdgktidk etgkvlhqkt hfpqpweffa 781 qevmirvfgk pdgkpefeea dtpeklrtll aeklssrpea vheyvtplfv srapnrkmsg 841 ahkdtlrsak rfvkhnekis vkrvwlteik ladlenmvny kngreielye alkarleayg 901 gnakqafdpk dnpfykkggq lvkavrvekt qesgvllnkk naytiadngd mvrvdvfckv 961 dkkgknqyfi vpiyawqvae nilpdidckg yriddsytfc fslhkydlia fqkdekskve 1021 fayyincdss ngrfylawhd kgskeqqfri stqnlvliqk yqvnelgkei rpcrlkkrpp 1081 vr
[0091] Em algumas modalidades, dCas9 corresponde a, ou compreende em parte ou no todo, uma sequência de aminoácidos Cas9 tendo uma ou mais mutações que inativam a atividade nuclease Cas9. Por exemplo, em algumas modalidades, um domínio dCas9 compreende D10A e uma mutação H840A ou mutações correspondentes em outro Cas9. Em algumas modalidades, o dCas9 compreende a sequência de aminoácidos de dCas9 (D10A e H840A): MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC).
[0092] Em algumas modalidades, o domínio Cas9 compreende uma mutação D10A, enquanto o resíduo na posição 840 permanece uma histidina na sequência de aminoácidos fornecida acima ou nas posições correspondentes em qualquer uma das sequências de aminoácidos fornecidas neste documento.
[0093] Em outras modalidades, variantes de dCas9 com mutações diferentes de D10A e H840A são fornecidas, as quais, por exemplo, resultam em Cas9 inativada por nuclease (dCas9). Tais mutações, a título de exemplo, incluem outras substituições de aminoácidos em D10 e H840, ou outras substituições dentro dos domínios nuclease por cerca de 5 aminoácidos, por cerca de 10 cerca de 15 aminoácidos, por cerca de 20 cerca de 25 aminoácidos, por cerca de 30 cerca de 40 aminoácidos, por cerca de 50 cerca de 75 aminoácidos, por cerca de 100 Cas9 (por exemplo, substituições no subdomínio nuclease de HNH e/ou no subdomínio de RuvC1). Em algumas modalidades, são fornecidas variantes ou homólogos de dCas9 que são pelo menos cerca de 70% idênticos, pelo menos cerca de 80% idênticos, pelo menos cerca de 90% idênticos, pelo menos cerca de 95% idênticos, pelo menos cerca de 98% idênticos, pelo menos cerca de 99% idênticos, pelo menos cerca de 99,5% idênticos, ou pelo menos cerca de 99,9% idênticos. Em algumas modalidades, as variantes de dCas9 são fornecidas com sequências de aminoácidos que são mais curtas, ou mais longas, aminoácidos, aminoácidos, aminoácidos, aminoácidos, aminoácidos ou mais.
[0094] Em algumas modalidades, as proteínas de fusão Cas9, conforme fornecidas neste documento, compreendem a sequência de aminoácidos de comprimento completo de uma proteína Cas9, por exemplo, uma das sequências de Cas9 fornecidas neste documento. Em outras modalidades, no entanto, as proteínas de fusão, conforme fornecidas neste documento, não compreendem uma sequência de Cas9 de comprimento completo, mas apenas um ou mais fragmentos das mesmas. Sequências de aminoácidos exemplares de domínios Cas9 adequados e fragmentos de Cas9 são fornecidos aqui, e sequências adequadas adicionais de domínios e fragmentos de Cas9 serão aparentes para aqueles versados na técnica.
[0095] Deve ser apreciado que proteínas Cas9 adicionais (por exemplo, uma Cas9 nuclease morta (dCas9), uma Cas9 nickase (nCas9) ou uma Cas9 nuclease ativa, incluindo variantes e homólogos das mesmas, estão dentro do escopo desta divulgação. Proteínas Cas9 exemplares incluem, sem limitação, aquelas fornecidas abaixo. Em algumas modalidades, a proteína Cas9 é uma Cas9 nuclease morta (dCas9). Em algumas modalidades, a proteína Cas9 é uma nickase Cas9 (nCas9). Em algumas modalidades, a proteína Cas9 é uma Cas9 nuclease ativa. Cas9 cataliticamente inativa exemplar (dCas9): DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFF HRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD Nickase Cas9 cataliticamente exemplar (nCas9): DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFF HRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD Cas9 cataliticamente ativa exemplar: DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFF HRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD
[0096] Em algumas modalidades, Cas9 refere-se a uma Cas9 de arqueia (por exemplo, nanoarqueia), que constitui um domínio e reino de micróbios procarióticos unicelulares. Em algumas modalidades, Cas9 refere-se a CasX ou CasY, que foram descritas em, por exemplo, Burstein et al., "New CRISPR-Cas systems from uncultivated microbes." Cell Res. 21 de fevereiro de 2017. doi: 10.1038/cr.2017.21, todo o conteúdo do qual é incorporado por meio deste por referência. Usando metagenômica resolvida por genoma, uma série de sistemas CRISPR-Cas foi identificada, incluindo a primeira Cas9 relatada no domínio da arqueia de vida. Esta proteína Cas9 divergente foi encontrada em nanoarqueias pouco estudadas como parte de um sistema CRISPR-Cas ativo. Em bactérias, dois sistemas até então desconhecidos foram descobertos, CRISPR-CasX e CRISPR-CasY, que estão entre os sistemas mais compactos já descobertos. Em algumas modalidades, Cas9 refere-se a CasX ou uma variante de CasX. Em algumas modalidades, Cas9 refere-se a um CasY ou uma variante de CasY. Deve ser apreciado que outras proteínas de ligação de DNA guiadas por RNA podem ser usadas como uma proteína de ligação de DNA programável de ácido nucleico (napDNAbp) e estão dentro do escopo desta divulgação.
[0097] Em algumas modalidades, a Cas9 é uma variante de Cas9 com especificidade para uma sequência PAM alterada. Em algumas modalidades, as variantes de Cas9 adicionais e sequências PAM são descritas em Miller et al., Continuous evolution of SpCas9 variants compatible with non-G PAMs. Nat Biotechnol (2020), doi.org/10.1038/ s41587-020-0412-8, cuja totalidade é aqui incorporada por referência. Em algumas modalidades, uma variante de Cas9 não tem requisitos de PAM específicos. Em algumas modalidades, uma variante de Cas9, por exemplo, uma variante de SpCas9 tem especificidade para um NRNH PAM, em que R é A ou G e H é A, C ou T., Em algumas modalidades, a variante de SpCas9 tem especificidade para uma sequência PAM AAA, TAA, CAA, GAA, TAT, GAT ou CAC. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1134, 1135, 1137, 1139, 1151, 1180, 1188, 1211, 1218, 1219, 1221, 1249, 1256, 1264, 1290, 1318, 1317, 1320, 1321, 1323, 1332, 1333, 1335, 1337 ou 1339 conforme enumerado em relação à sequência de referência abaixo ou uma posição correspondente da mesma. MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC).
[0098] Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1135, 1218, 1219, 1221, 1249, 1320, 1321, 1323, 1332, 1333, 1335 ou 1337 conforme enumerado em relação à sequência de referência acima, ou uma posição correspondente da mesma. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1134, 1135, 1137, 1139, 1151, 1180, 1188, 1211, 1219, 1221, 1256, 1264, 1290, 1318, 1317, 1320, 1323, 1333 conforme enumerado em relação à sequência de referência acima, ou uma posição correspondente da mesma. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1131, 1135, 1150, 1156, 1180, 1191, 1218, 1219, 1221, 1227, 1249, 1253, 1286, 1293, 1320, 1321, 1332, 1335, 1339 conforme enumerado em relação à sequência de referência acima, ou uma posição correspondente da mesma. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1127, 1135, 1180, 1207, 1219, 1234, 1286, 1301, 1332, 1335, 1337, 1338, 1349 conforme enumerado em relação à sequência de referência acima. Substituições de aminoácidos exemplares e especificidade de PAM de variantes de SpCas9 são mostradas nas Tabelas A-D e FIG. 49.
[0099] Em modalidades particulares, napDNAbps úteis nos méto dos da invenção incluem permutantes circulares, que são conhecidos na técnica e descritos, por exemplo, por Oakes et al., Cell 176, 254267, 2019. Um permutante circular exemplar segue onde a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligante, e a sequência sublinhada indica uma sequência de localização nuclear bipartida, CP5 (com MSP "NGC = Variante Pam com mutações de Cas9 regular do tipo NGG" PID = Domínio de Interação de Proteína e "D10A" nickase): EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDK GRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARK KDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLAS AKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQH KHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIH LFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRI DLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSV GWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATR LKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEED KKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLAL AHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGV DAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFK SNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYK EIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNRE DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKIL TFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQS FIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKP AFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVE DRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIE ERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTI LDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIAN LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELD KAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKS KLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESE FVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV*
[00100] Exemplos não limitativos de um domínio de ligação de nucleotídeo programável de polinucleotídeo que pode ser incorporado em um editor de base incluem um domínio derivado de proteína CRISPR, uma nuclease de restrição, uma meganuclease, nuclease de TAL (TALEN) e uma nuclease de dedo de zinco (ZFN).
[00101] Em algumas modalidades, a proteína de ligação de DNA programável de ácido nucleico (napDNAbp) de qualquer uma das proteínas de fusão aqui fornecidas pode ser uma proteína CasX ou CasY. Em algumas modalidades, o napDNAbp é uma proteína CasX. Em algumas modalidades, o napDNAbp é uma proteína CasY. Em algumas modalidades, o napDNAbp compreende uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou facilmente 99,5% idêntico a uma proteína CasX ou CasY de ocorrência natural. Em algumas modalidades, o napDNAbp é uma proteína CasX ou CasY de ocorrência natural. Em algumas modalidades, o napDNAbp compreende uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou facilmente 99,5% idêntico a qualquer CasX ou proteína CasY aqui descrita. Deve ser apreciado que Cas12b/C2c1, CasX e CasY de outras espécies bacterianas também podem ser usados de acordo com a presente divulgação. Cas12b/C2c1 (uniprot.org/uniprot/T0D7A2#2) sp|T0D7A2|C2C1_ALIAG C2c1 endo-nuclease associada a CRISPR OS = Aliciclobacillus acido- terrestris (cepa ATCC 49025/DSM 3922/ CIP 106132/NCIMB 13137/GD3B) GN=c2c1 PE=1 SV=1 MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQEN LYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSD DELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIA KAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADF GLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMS WESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDM KEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDA EIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSI LRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGER RHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALY FRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVR VQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDG KLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPF FFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQ LAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFEN ELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRS GERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIR AEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGK WVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELI NQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPE PFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQI HADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRT ADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEAD EAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI CasX (uniprot.org/uniprot/F0NN87; uniprot.org/uniprot/F0NH53) >tr|F0NN87|F0NN87_SULIH proteína Casx associada a CRISPR OS = Sulfolobus islandicus (cepa HVE10/4) GN = SiH_0402 PE=4 SV=1 MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAK NNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCY NFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERT RRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILY SLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVG QNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLA NYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNG ELIRGEG >tr|F0NH53|F0NH53_SULIR proteína associada a CRISPR, Casx OS = Sulfolobus islandicus (cepa REY15A) GN=SiRe_0771 PE=4 SV=1 MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAK NNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCY NFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERT RRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGIL YSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAV GQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVL ANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNG ELIRGEG Deltaproteobacteria CasX MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRR KKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVG LMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKL EQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGK FGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMG TIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQ PHTKEGVDAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFP SFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNT ILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDW GKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKA SFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISG FSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDI KKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWN DLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPS NIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEG YKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLF YHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAY EGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGW ATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISK WTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIA RSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA CasY (ncbi.nlm.nih.gov/protein/APG80656.1) >APG80656.1 proteína associada a CRISPRCasY [bactéria do grupo da Parcubacteria não cultivada] MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTV PREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQ YGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFL NKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKD AGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVN NNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLG EGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKL REPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKK AKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRR FLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDE KETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKA VEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPI VKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIA KAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTET QLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGL AGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFL DLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDG GVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQF LEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGS ERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILD QNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRN RIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADK NLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQEL IGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMR GNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLK N IKVLGQMKKI
[00102] O termo "substituição de aminoácidos conservadora" ou "mutação conservadora" refere-se à substituição de um aminoácido por outro aminoácido com uma propriedade comum. Uma maneira funcional de definir propriedades comuns entre aminoácidos individuais é analisar as frequências normalizadas de mudanças de aminoácidos entre proteínas correspondentes de organismos homólogos (Schulz, GE e Schirmer, RH, Principles of Protein Structure, Springer-Verlag, Nova Iorque (1979)). De acordo com tais análises, grupos de aminoácidos podem ser definidos onde os aminoácidos dentro de um grupo trocam preferivelmente uns com os outros e, portanto, se assemelham mais em seu impacto na estrutura geral da proteína (Schulz, G. E. e Schirmer, R. H., supra). Exemplos não limitativos de mutações conservadoras incluem substituições de aminoácidos de aminoácidos, por exemplo, lisina por arginina e vice- versa, de modo que uma carga positiva possa ser mantida; ácido glutâmico para ácido aspártico e vice-versa, de modo que uma carga negativa possa ser mantida; serina por treonina de modo que um -OH livre possa ser mantido; e glutamina para asparagina de forma que um -NH2 livre possa ser mantido.
[00103] O termo "sequência de codificação" ou "sequência de codificação de proteína", conforme usado indistintamente aqui, refere- se a um segmento de um polinucleotídeo que codifica uma proteína. A região ou sequência é delimitada mais perto da extremidade 5’ por um códon de início e mais perto da extremidade 3’ com um códon de parada. As sequências de codificação também podem ser referidas como quadros de leitura abertos.
[00104] O termo "desaminase" ou "domínio desaminase", tal como aqui utilizado, refere-se a uma proteína ou enzima que catalisa uma reação de desaminação. Em algumas modalidades, a desaminase é uma adenosina desaminase, que catalisa a desaminação hidrolítica da adenina em hipoxantina. Em algumas modalidades, a desaminase é uma adenosina desaminase, que catalisa a desaminação hidrolítica de adenosina ou adenina (A) em inosina (I). Em algumas modalidades, o domínio desaminase ou desaminase é uma adenosina desaminase que catalisa a desaminação hidrolítica de adenosina ou desoxiadenosina em inosina ou desoxiinosina, respectivamente. Em algumas modalidades, a adenosina desaminase catalisa a desaminação hidrolítica da adenosina em ácido desoxirribonucleico (DNA). As adenosinas desaminases (por exemplo, adenosinas desaminases construídas geneticamente, adenosinas desaminases evoluídas) fornecidas neste documento podem ser de qualquer organismo, como uma bactéria. Em algumas modalidades, a adenosina desaminase é de uma bactéria, como Escherichia coli, Staphylococcus aureus, Salmonella typhimurium, Shewanella putrefaciens, Haemophilus influenzae ou Caulobacter crescentus.
[00105] Em algumas modalidades, a adenosina desaminase é uma TadA desaminase. Em algumas modalidades, a TadA desaminase é uma variante de TadA. Em algumas modalidades, a variante de TadA é um TadA*8. Em algumas modalidades, a desaminase ou domínio de desaminase é uma variante de uma desaminase de ocorrência natural de um organismo, como um humano, chimpanzé, gorila, macaco, vaca, cão, rato ou camundongo. Em algumas modalidades, a desaminase ou domínio da desaminase não ocorre na natureza. Por exemplo, em algumas modalidades, a desaminase ou domínio da desaminase é pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75% pelo menos 80%, pelo menos 85 %, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99 %, pelo menos 99,1%, pelo menos 99,2%, pelo menos 99,3%, pelo menos 99,4%, pelo menos 99,5%, pelo menos 99,6%, pelo menos 99,7%, pelo menos 99,8% ou pelo menos 99,9% idêntico a um desaminase de ocorrência natural. Por exemplo, os domínios de desaminase são descritos nos Pedidos Internacionais PCT Nos. PCT/2017/045381 (WO 2018/027078) e PCT/US2016/058344 (WO 2017/070632), cada um dos quais é incorporado neste documento por referência em sua totalidade. Além disso, vide Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A< to G< in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017)), e Rees, H.A., et al., "Base editing: precision chemistry on the genome and transcriptome of living cells." Nat Rev Genet. 2018 Dec;19(12):770- 788. doi: 10.1038/s41576-018-0059-1, cujo conteúdo inteiro é aqui incorporado por referência.
[00106] "Detectar" refere-se à identificação da presença, ausência ou quantidade do analito a ser detectado. Em uma modalidade, é detectada uma alteração de sequência em um polinucleotídeo ou polipeptídeo. Em outra modalidade, a presença de indels é detectada.
[00107] Por "marcador detectável" entende-se uma composição que, quando ligada a uma molécula de interesse, torna a última detectável, através de meios espectroscópicos, fotoquímicos, bioquímicos, imunoquímicos ou químicos. Por exemplo, os marcadores úteis incluem isótopos radioativos, contas magnéticas, contas metálicas, partículas coloidais, corantes fluorescentes, reagentes densos de elétrons, enzimas (por exemplo, como comumente usado em um ELISA), biotina, digoxigenina ou haptenos.
[00108] Por "doença" entende-se qualquer condição ou distúrbio que danifica ou interfere na função normal de uma célula, tecido ou órgão. Em uma modalidade, a doença é SCD. Em uma modalidade, a doença é β-talassemia.
[00109] O termo "quantidade eficaz", tal como aqui utilizado, refere- se a uma quantidade de um agente biologicamente ativo que é suficiente para induzir uma resposta biológica desejada. A quantidade eficaz de composto(s) ativo(s) usado(s) para praticar a presente invenção para o tratamento terapêutico de uma doença varia dependendo da forma de administração, idade, peso corporal e saúde geral do indivíduo. Em última análise, o médico assistente ou veterinário decidirá a quantidade e o regime de dosagem apropriados. Esse valor é denominado valor "efetivo". Em modalidades particulares, uma quantidade eficaz é a quantidade de um sistema de editor de base da invenção (por exemplo, uma proteína de fusão compreendendo uma proteína de ligação de DNA programável, um editor de nucleobase e gRNA) que é suficiente para alterar uma mutação de SCD em uma célula para atingir um efeito terapêutico (por exemplo, para reduzir ou controlar a SCD em um indivíduo ou um sintoma ou condição do mesmo). Esse efeito terapêutico não precisa ser suficiente para alterar um SCD em todas as células de um tecido ou órgão, mas apenas em cerca de 1%, 5%, 10%, 25%, 50%, 75% ou mais das células presentes em um tecido ou órgão. Em uma modalidade, uma quantidade eficaz é suficiente para melhorar um ou mais sintomas de AF, tais sintomas incluem anemia e isquemia.
[00110] Por "fragmento" entende-se uma porção de um polipeptídeo ou molécula de ácido nucleico. Esta porção contém, pelo menos, cerca de 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% ou 90% de todo o comprimento da molécula de ácido nucleico de referência ou polipeptídeo. Um fragmento pode conter 10, 20, 30, 40, 50, 60, 70, 80, 90 ou 100, 200, 300, 400, 500, 600, 700, 800, 900 ou 1000 nucleotídeos ou aminoácidos.
[00111] Por "RNA guia" ou "gRNA" entende-se um polinucleotídeo que pode ser específico para uma sequência alvo e pode formar um complexo com uma proteína de domínio de ligação de nucleotídeo programável de polinucleotídeo (por exemplo, Cas9 ou Cpf1). Em uma modalidade, o polinucleotídeo guia é um RNA guia (gRNA). Os gRNAs podem existir como um complexo de dois ou mais RNAs ou como uma única molécula de RNA. Os gRNAs que existem como uma única molécula de RNA podem ser referidos como RNAs de guia único (sgRNAs), embora "gRNA" seja usado indistintamente para referir-se a RNAs guia que existem como moléculas únicas ou como um complexo de duas ou mais moléculas. Normalmente, os gRNAs que existem como uma única espécie de RNA compreendem dois domínios: (1) um domínio que compartilha homologia com um ácido nucleico alvo (por exemplo, e direciona a ligação de um complexo Cas9 ao alvo); e (2) um domínio que se liga a uma proteína Cas9. Em algumas modalidades, o domínio (2) corresponde a uma sequência conhecida como tracrRNA e compreende uma estrutura haste-alça. Por exemplo, em algumas modalidades, o domínio (2) é idêntico ou homólogo a um tracrRNA conforme fornecido em Jinek et al., Science 337: 816-821 (2012), cujo conteúdo total é incorporado aqui por referência. Outros exemplos de gRNAs (por exemplo, aqueles que incluem o domínio 2) podem ser encontrados no Pedido de Patente Provisório U.S., U.S.S.N. 61/874.682, depositado em 6 de setembro de 2013, intitulado "Switchable Cas9 Nucleases and Uses Thereof," e o pedido de patente provisória dos EUA, U.S.S.N. 61/874.746, depositado em 6 de setembro de 2013, intitulado "Delivery System For Functional Nucleases," todo o conteúdo de cada um é aqui incorporado por referência em sua totalidade. Em algumas modalidades, um gRNA compreende dois ou mais dos domínios (1) e (2) e pode ser referido como um "gRNA estendido". Um gRNA estendido se ligará a duas ou mais proteínas Cas9 e se ligará a um ácido nucleico alvo em duas ou mais regiões distintas, conforme descrito neste documento. O gRNA compreende uma sequência de nucleotídeos que complementa um sítio alvo, que medeia a ligação do complexo nuclease/RNA ao referido sítio alvo, fornecendo a especificidade de sequência do complexo nuclease: RNA. Como será apreciado por aqueles versados na técnica, as sequências de polinucleotídeo de RNA, por exemplo, sequências gRNA, incluem a nucleobase uracil (U), um derivado de pirimidina, em vez da nucleobase timina (T), que está incluída nas sequências de polinucleotídeo de DNA. No RNA, a uracil forma pares de bases com adenina e substitui a timina durante a transcrição do DNA.
[00112] "Hb G-Makassar" ou "Makassar" refere-se a uma variante de β-hemoglobina humana, a hemoglobina humana (Hb) da variante G-Makassar ou mutação (variante Makassar HB), que é uma hemoglobina variante assintomática de ocorrência natural (E6A). Hb G- Makassar foi identificada pela primeira vez na Indonésia. (Mohamad, AS et al., 2018, Hematol. Rep., 10 (3): 7210 (doi: 10.4081/hr.2018.7210). A mobilidade da Hb G-Makassar é mais lenta quando submetida à eletroforese. A variante da β-hemoglobina de Makassar tem sua anormalidade anatômica no local β-6 ou A3 onde o resíduo de glutamila normalmente é substituído por um resíduo de alanila. A substituição de um único aminoácido no gene que codifica a subunidade β-globina β-6 glutamila em valina resultará como anemia falciforme. Os procedimentos de rotina, como focagem isoelétrica, separação por eletroforese de hemoglobina por cromatografia líquida de alta performance (HPLC) de troca catiônica e eletroforese de acetato de celulose, não foram capazes de separar as formas de Hb G-Makassar e de globina HbS, visto que tinham propriedades idênticas quando analisadas por esses métodos. Consequentemente, Hb G- Makassar e HbS foram incorretamente identificadas e confundidas uma com a outra pelos versados na técnica, levando assim a um diagnóstico incorreto de anemia falciforme (SCD).
[00113] "Hibridação" significa ligação de hidrogênio, que pode ser ligação de hidrogênio de Watson-Crick, Hoogsteen ou Hoogsteen reversa, entre nucleobases complementares. Por exemplo, adenina e timina são nucleobases complementares que emparelham através da formação de ligações de hidrogênio.
[00114] O termo "inibidor de reparo de base" ou "IBR" refere-se a uma proteína que é capaz de inibir a atividade de uma enzima de reparo de ácido nucleico, por exemplo, uma enzima de reparo de excisão de base (BER). Em algumas modalidades, o IBR é um inibidor de reparo de excisão de base de inosina. Inibidores exemplares de reparo de base incluem inibidores de APE1, Endo III, Endo IV, Endo V, Endo VIII, Fpg, hOGGl, hNEILl, T7 Endol, T4PDG, UDG, hSMUGl e hAAG. Em algumas modalidades, o IBR é um inibidor de Endo V ou hAAG. Em algumas modalidades, o IBR é um EndoV cataliticamente inativo ou um hAAG cataliticamente inativo. Em algumas modalidades, o inibidor de reparo de base é um inibidor de Endo V ou hAAG. Em algumas modalidades, o inibidor de reparo de base é um EndoV cataliticamente inativo ou um hAAG cataliticamente inativo.
[00115] Em algumas modalidades, o inibidor de reparo de base é o inibidor de uracil glicosilase (UGI). UGI refere-se a uma proteína que é capaz de inibir uma enzima de reparo de excisão de base de glicosilase de DNA-uracil. Em algumas modalidades, um domínio UGI compreende um UGI de tipo selvagem ou um fragmento de um UGI de tipo selvagem. Em algumas modalidades, as proteínas UGI fornecidas neste documento incluem fragmentos de UGI e proteínas homólogas a um UGI ou um fragmento de UGI. Em algumas modalidades, o inibidor de reparo de base é um inibidor de reparo de excisão de base de inosina. Em algumas modalidades, o inibidor de reparo de base é uma "nuclease específica de inosina cataliticamente inativa" ou "nuclease específica de inosina morta". Sem desejar ser limitado por qualquer teoria em particular, glicosilases de inosina cataliticamente inativas (por exemplo, glicosilase de alquil adenina (AAG)) podem se ligar à inosina, mas não podem criar um sítio abásico ou remover a inosina, bloqueando, assim, estericamente a porção de inosina recém-formada de danos ao DNA/mecanismos de reparo. Em algumas modalidades, a nuclease específica de inosina cataliticamente inativa pode ser capaz de se ligar a uma inosina em um ácido nucleico, mas não cliva o ácido nucleico. Nucleases específicas de inosina cataliticamente inativas exemplares não limitantes incluem glicosilase de alquil adenosina cataliticamente inativa (nuclease AAG), por exemplo, de um humano, e endonuclease V cataliticamente inativa (nuclease EndoV), por exemplo, de E. coli. Em algumas modalidades, a nuclease AAG cataliticamente inativa compreende uma mutação E125Q ou uma mutação correspondente em outra nuclease AAG.
[00116] Por "aumento" entende-se uma alteração positiva de pelo menos 10%, 25%, 50%, 75% ou 100%.
[00117] Uma "inteína" é um fragmento de uma proteína que é capaz de extirpar-se e unir os fragmentos restantes (as exteínas) com uma ligação peptídica em um processo conhecido como emenda (splicing) de proteína. As inteínas também são referidas como "íntrons de proteína". O processo de excisão de uma inteína e união das porções restantes da proteína é aqui denominado "emenda de proteína" ou "emenda de proteína mediada pela inteína". Em algumas modalidades, uma inteína de uma proteína precursora (uma proteína contendo inteína antes da emenda da proteína mediada por inteína) vem de dois genes. Tal inteína é aqui referida como uma inteína dividida (por exemplo, inteína-N dividida e inteína-C dividida). Por exemplo, em cianobactérias, DnaE, a subunidade catalítica a da DNA polimerase III, é codificada por dois genes separados, dnaE-n e dnaE-c. A inteína codificada pelo gene dnaE-n pode ser aqui referida como "inteína-N". A inteína codificada pelo gene dnaE-c pode ser aqui referida como "inteína-C".
[00118] Outros sistemas de inteína também podem ser usados. Por exemplo, uma inteína sintética com base na inteína dnaE, o par de inteína Cfa-N (por exemplo, inteína-N dividida) e Cfa-C (por exemplo, inteína-C dividida), foi descrito (por exemplo, em Stevens et al., J Am Chem Soc. 2016, 24 de fevereiro; 138 (7): 2162-5, aqui incorporado por referência). Exemplos não limitativos de pares de inteína que podem ser usados de acordo com a presente divulgação incluem: Cfa DnaE inteína, Ssp GyrB inteína, Ssp DnaX inteína, Ter DnaE3 inteína, Ter ThyX inteína, Rma DnaB inteína e Cne Prp8 inteína (por exemplo, como descrito na Patente U.S. No. 8.394.604, aqui incorporada por referência.
[00119] Sequências exemplares de nucleotídeos e aminoácidos de inteínas são fornecidas. DNA DnaE Inteína-N: TGCCTGTCATACGAAACCGAGATACTGACAGTAGAATATGGCCTT CTGCCAATCGGGAAGATTGTGGAGAAACGGATAGAATGCACAGTT TACTCTGTCGATAACAATGGTAACATTTATACTCAGCCAGTTGCCC AGTGGCACGACCGGGGAGAGCAGGAAGTATTCGAATACTGTCTG GAGGATGGAAGTCTCATTAGGGCCACTAAGGACCACAAATTTATG ACAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGA GAGTTGGACCTCATGCGAGTTGACAACCTTCCTAAT Proteína DnaE Inteína-N: CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHD RGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMR VDNLPN DNA DnaE Inteína-C: ATGATCAAGATAGCTACAAGGAAGTATCTTGGCAAACAAAACGTTT ATGATATTGGAGTCGAAAGAGATCACAACTTTGCTCTGAAGAACG GATTCATAGCTTCTAAT Inteína-C: MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN DNA Cfa-N: TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGGCTTCT TGCCTATTGGAAAGATTGTCGAAGAGAGAATTGAATGCACAGTATA TACTGTAGACAAGAATGGTTTCGTTTACACACAGCCCATTGCTCAA TGGCACAATCGCGGCGAACAAGAAGTATTTGAGTACTGTCTCGAG GATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGACCA CTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGC TTGGATCTCAAACAAGTGGATGGATTGCCA Proteína Cfa-N: CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHN RGEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQV DGLP DNA Cfa-C: ATGAAGAGGACTGCCGATGGATCAGAGTTTGAATCTCCCAAGAAG AAGAGGAAAGTAAAGATAATATCTCGAAAAAGTCTTGGTACCCAAA ATGTCTATGATATTGGAGTGGAGAAAGATCACAACTTCCTTCTCAA GAACGGTCTCGTAGCCAGCAAC Proteína Cfa-C: MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKNG LVASN
[00120] Inteína-N e inteína-C podem ser fundidas à porção N- terminal da Cas9 dividida e a porção C-terminal da Cas9 dividida, respectivamente, para a junção da porção N-terminal da Cas9 dividida e da porção C-terminal da Cas9 dividida. Por exemplo, em algumas modalidades, um inteína-N é fundida ao C-terminal da porção N- terminal da Cas9 dividida, ou seja, para formar uma estrutura de N-- [porção N-terminal da Cas9 dividida]-[inteína-N]--C. Em algumas modalidades, uma inteína-C é fundida ao N-terminal da porção C- terminal da Cas9 dividida, ou seja, para formar uma estrutura de N- [inteína-C]--[porção C-terminal da Cas9 dividida]-C. O mecanismo de emenda de proteína mediado por inteínas para unir as proteínas às quais as inteínas são fundidas (por exemplo, Cas9 dividida) é conhecido na técnica, por exemplo, como descrito em Shah et al., Chem Sci 2014; 5 (1): 446-461, aqui incorporado por referência. Os métodos para projetar e usar inteínas são conhecidos na técnica e descritos, por exemplo, por WO2014004336, WO2017132580, US20150344549 e US20180127780, cada um dos quais é incorporado aqui por referência na sua totalidade.
[00121] Os termos "isolado", "purificado" ou "biologicamente puro" referem-se ao material que está livre em vários graus de componentes que normalmente o acompanham como encontrado em seu estado nativo. "Isolar" denota um grau de separação da fonte original ou arredores. "Purificar" denota um grau de separação que é maior do que o isolamento. Uma proteína "purificada" ou "biologicamente pura" é suficientemente livre de outros materiais, de modo que quaisquer impurezas não afetem materialmente as propriedades biológicas da proteína ou causem outras consequências adversas. Isto é, um ácido nucleico ou peptídeo desta invenção é purificado se estiver substancialmente livre de material celular, material viral ou meio de cultura quando produzido por técnicas de DNA recombinante, ou precursores químicos ou outros produtos químicos quando quimicamente sintetizado. Pureza e homogeneidade são normalmente determinadas usando técnicas de química analítica, por exemplo, eletroforese em gel de poliacrilamida ou cromatografia líquida de alto desempenho. O termo "purificado" pode denotar que um ácido nucleico ou proteína dá origem a essencialmente uma banda em um gel eletroforético. Para uma proteína que pode ser submetida a modificações, por exemplo, fosforilação ou glicosilação, diferentes modificações podem dar origem a diferentes proteínas isoladas, que podem ser purificadas separadamente.
[00122] Por "polinucleotídeo isolado" entende-se um ácido nucleico (por exemplo, um DNA) que está livre dos genes que, no genoma de ocorrência natural do organismo do qual a molécula de ácido nucleico da invenção é derivada, flanqueiam o gene. O termo, portanto, inclui, por exemplo, um DNA recombinante que é incorporado em um vetor; em um plasmídeo ou vírus que se replica autonomamente; ou no DNA genômico de um procarioto ou eucarioto; ou que existe como uma molécula separada (por exemplo, um cDNA ou um fragmento genômico ou cDNA produzido por PCR ou digestão com endonuclease de restrição) independente de outras sequências. Além disso, o termo inclui uma molécula de RNA que é transcrita de uma molécula de DNA, bem como um DNA recombinante que é parte de um gene híbrido que codifica uma sequência de polipeptídeo adicional.
[00123] Por um "polipeptídeo isolado" entende-se um polipeptídeo da invenção que foi separado dos componentes que o acompanham naturalmente. Normalmente, o polipeptídeo é isolado quando está pelo menos 60%, em peso, livre de proteínas e moléculas orgânicas de ocorrência natural com as quais está naturalmente associado. Preferivelmente, a preparação é pelo menos 75%, mais preferivelmente pelo menos 90%, e mais preferivelmente pelo menos 99%, em peso, de um polipeptídeo da invenção. Um polipeptídeo isolado da invenção pode ser obtido, por exemplo, por extração de uma fonte natural, por expressão de um ácido nucleico recombinante que codifica tal polipeptídeo; ou sintetizando quimicamente a proteína. A pureza pode ser medida por qualquer método apropriado, por exemplo, cromatografia em coluna, eletroforese em gel de poliacrilamida ou por análise de HPLC.
[00124] O termo "ligante", tal como aqui utilizado, pode referir-se a um ligante covalente (por exemplo, ligação covalente), um ligante não covalente, um grupo químico ou uma molécula que liga duas moléculas ou porções, por exemplo, dois componentes de um complexo de proteínas ou um ribonucleocomplexo, ou dois domínios de uma proteína de fusão, como, por exemplo, um polinucleotídeo domínio de ligação de DNA programável (por exemplo, dCas9) e um domínio desaminase ((por exemplo, uma adenosina desaminase ou uma adenosina desaminase e uma citidina desaminase, por exemplo, conforme descrito em PCT/US19/44935). Um ligante pode unir diferentes componentes de, ou porções diferentes de componentes de um sistema de editor de base. Por exemplo, em algumas modalidades, um ligante pode unir um domínio de ligação de polinucleotídeo guia de um domínio de ligação de nucleotídeo programável de polinucleotídeo e um domínio catalítico de uma desaminase. Em algumas modalidades, um ligante pode unir um polipeptídeo CRISPR e uma desaminase. Em algumas modalidades, um ligante pode unir uma Cas9 e uma desaminase. Em algumas modalidades, um ligante pode unir um dCas9 e uma desaminase. Em algumas modalidades, um ligante pode unir um nCas9 e uma desaminase. Em algumas modalidades, um ligante pode unir um polinucleotídeo guia e uma desaminase. Em algumas modalidades, um ligante pode unir um componente de desaminação e um componente de ligação de nucleotídeo programável de polinucleotídeo de um sistema de editor de base. Em algumas modalidades, um ligante pode unir uma porção de ligação de RNA de um componente de desaminação e um componente de ligação de nucleotídeo programável de polinucleotídeo de um sistema de editor de base. Em algumas modalidades, um ligante pode unir uma porção de ligação de RNA de um componente de desaminação e uma porção de ligação de RNA de um componente de ligação de nucleotídeo programável de polinucleotídeo de um sistema de editor de base. Um ligante pode ser posicionado entre, ou flanqueado por, dois grupos, moléculas ou outras porções e conectado a cada um por meio de uma ligação covalente ou interação não covalente, conectando assim os dois. Em algumas modalidades, o ligante pode ser uma molécula orgânica, grupo, polímero ou porção química. Em algumas modalidades, o ligante pode ser um polinucleotídeo. Em algumas modalidades, o ligante pode ser um ligante de DNA. Em algumas modalidades, o ligante pode ser um ligante de RNA. Em algumas modalidades, um ligante pode compreender um aptâmero capaz de se ligar a um ligando. Em algumas modalidades, o ligante pode ser carboidrato, um peptídeo, uma proteína ou um ácido nucleico. Em algumas modalidades, o ligante pode compreender um aptâmero pode ser derivado de um riboswitch. O riboswitch do qual o aptâmero é derivado pode ser selecionado a partir de um riboswitch de teofilina, um riboswitch de pirofosfato de tiamina (TPP), um riboswitch de adenosina cobalamina (AdoCbl), um riboswitch S-adenosil metionina (SAM), um riboswitch SAH (riboswitch, um mononucleotídeo de flavina FMN) riboswitch, um riboswitch tetraidrofolato, um riboswitch lisina, um riboswitch glicina, um riboswitch purina, um riboswitch GlmS ou um riboswitch pré- queosina1 (PreQ1). Em algumas modalidades, um ligante pode compreender um aptâmero ligado a um polipeptídeo ou um domínio de proteína, como um ligando de polinucleotídeo. Em algumas modalidades, o ligando de polinucleotídeo pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de proteína de revestimento SfMu Com, um motivo alfa estéril, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telomerase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA. Em algumas modalidades, o ligando de polinucleotídeo pode ser uma porção de um componente do sistema de editor de base. Por exemplo, um componente de edição de nucleobase pode compreender um domínio de desaminase e um motivo de reconhecimento de RNA.
[00125] Em algumas modalidades, o ligante pode ser um aminoácido ou uma pluralidade de aminoácidos (por exemplo, um peptídeo ou proteína). Em algumas modalidades, o ligante pode ter cerca de 5-100 aminoácidos de comprimento, por exemplo, cerca de 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 20-30, 30-40, 4050, 50-60, 60-70, 70-80, 80-90 ou 90-100 aminoácidos de comprimento. Em algumas modalidades, o ligante pode ter cerca de 100-150, 150-200, 200-250, 250-300, 300-350, 350-400, 400-450 ou 450-500 aminoácidos de comprimento. Ligantes mais longos ou mais curtos também podem ser contemplados.
[00126] Em algumas modalidades, um ligante se junta a um domínio de ligação de gRNA de uma nuclease programável de RNA, incluindo um domínio nuclease Cas9 e o domínio catalítico de uma proteína de edição de ácido nucleico (por exemplo, adenosina desaminase). Em algumas modalidades, um ligante une um dCas9 e uma proteína de edição de ácido nucleico. Por exemplo, o ligante é posicionado entre, ou flanqueado por, dois grupos, moléculas ou outras porções e conectado a cada um por meio de uma ligação covalente, conectando assim os dois. Em algumas modalidades, o ligante é um aminoácido ou uma pluralidade de aminoácidos (por exemplo, um peptídeo ou proteína). Em algumas modalidades, o ligante é uma molécula orgânica, grupo, polímero ou fração química. Em algumas modalidades, o ligante tem 5-200 aminoácidos de comprimento, por exemplo, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 35, 45, 50, 55, 60, 60, 65, 70, 70, 75, 80, 85, 90, 90, 95, 100, 101, 102, 103, 104, 105, 110, 120, 130, 140, 150, 160, 175, 180, 190 ou 200 aminoácidos de comprimento. Ligantes mais longos ou mais curtos também são contemplados.
[00127] Em algumas modalidades, os domínios do editor de nucleobase são fundidos por meio de um ligante que compreende a sequência de aminoácidos de SGGSSGSETPGTSESATPESSGGS, SGGSSGGSSGSETPGTSESATPESSGGSSGGS, ou GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSP AGSPTSTEEGTSTEPSEGSAPGTSTEPSE GSAPGTSESATPESGPGSEPATSGGSGGS.
[00128] Em algumas modalidades, os domínios do editor de nucleobases são fundidos por meio de um ligante que compreende a sequência de aminoácidos SGSETPGTSESATPES, que também pode ser referido como o ligante XTEN. Em algumas modalidades, um ligante compreende a sequência de aminoácidos SGGS. Em algumas modalidades, um ligante compreende motivo (SGGS)n, (GGGS)n, (GGGGS)n, (G)n, (EAAAK)n, (GGS)n, SGSETPGTSESATPES ou (XP)n ou uma combinação de qualquer um destes, em que n é independentemente um número inteiro entre 1 e 30, e em que X é qualquer aminoácido. Em algumas modalidades, n é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 ou 15.
[00129] Em algumas modalidades, o ligante tem 24 aminoácidos de comprimento. Em algumas modalidades, o ligante compreende a sequência de aminoácidos SGGSSGGSSGSETPGTSESATPES. Em algumas modalidades, o ligante tem 40 aminoácidos de comprimento. Em algumas modalidades, o ligante compreende a sequência de aminoácidos SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS. Em algumas modalidades, o ligante tem 64 aminoácidos de comprimento. Em algumas modalidades, o ligante compreende a sequência de aminoácidos SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSS GSETPGTSESATPESSGGSSGGS. Em algumas modalidades, o ligante tem 92 aminoácidos de comprimento. Em algumas modalidades, o ligante compreende a sequência de aminoácidos PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTS TEEGTSTEPSE GSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS.
[00130] Por "marcador" entende-se qualquer proteína ou polinucleotídeo com uma alteração no nível de expressão ou atividade que está associada a uma doença ou distúrbio.
[00131] O termo "mutação", tal como aqui utilizado, refere-se a uma substituição de um resíduo dentro de uma sequência, por exemplo, um ácido nucleico ou sequência de aminoácidos, por outro resíduo ou uma deleção ou inserção de um ou mais resíduos dentro de uma sequência. As mutações são tipicamente descritas neste documento identificando o resíduo original seguido pela posição do resíduo na sequência e pela identidade do resíduo recém-substituído. Vários métodos para fazer as substituições de aminoácidos (mutações) fornecidos neste documento são bem conhecidos na técnica e são fornecidos, por exemplo, por Green e Sambrook, Molecular Cloning: A Laboratory Manual (4a ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY (2012)). Em algumas modalidades, os editores de base presentemente divulgados podem gerar com eficiência uma "mutação pretendida", como uma mutação pontual, em um ácido nucleico (por exemplo, um ácido nucleico dentro de um genoma de um indivíduo) sem gerar um número significativo de mutações indesejadas, como mutações pontuais não intencionais. Em algumas modalidades, uma mutação pretendida é uma mutação que é gerada por um editor de base específico (por exemplo, um editor de base de adenosina) ligado a um polinucleotídeo guia (por exemplo, gRNA), projetado especificamente para gerar a mutação pretendida.
[00132] Em geral, as mutações feitas ou identificadas em uma sequência (por exemplo, uma sequência de aminoácidos como aqui descrita) são numeradas em relação a uma sequência de referência (ou tipo selvagem), ou seja, uma sequência que não contém as mutações. O versado na técnica compreenderá prontamente como determinar a posição das mutações nas sequências de aminoácidos e ácidos nucleicos em relação a uma sequência de referência.
[00133] O termo "mutações não conservadoras" envolve substituições de aminoácidos entre grupos diferentes, por exemplo, lisina por triptofano ou fenilalanina por serina, etc. Neste caso, é preferível que a substituição de aminoácidos não conservadora não interfira com, ou inibir a atividade biológica da variante funcional. A substituição não conservadora de aminoácidos pode aumentar a atividade biológica da variante funcional, de modo que a atividade biológica da variante funcional seja aumentada em comparação com a proteína de tipo selvagem.
[00134] O termo "sequência de localização nuclear", "sinal de localização nuclear" ou "NLS" refere-se a uma sequência de aminoácidos que promove a importação de uma proteína para o núcleo da célula. As sequências de localização nuclear são conhecidas na técnica e descritas, por exemplo, em Plank et al., Pedido PCT Internacional, PCT/EP2000/011690, depositado em 23 de novembro de 2000, publicado como WO/2001/038547 em 31 de maio de 2001, cujos conteúdos são incorporados neste documento por referência para a sua divulgação de sequências de localização nuclear exemplares. Em outras modalidades, a NLS é uma NLS otimizada descrita, por exemplo, por Koblan et al., Nature Biotech. 2018 doi: 10.1038/nbt.4172. Em algumas modalidades, uma NLS compreende a sequência de aminoácidos KRTADGSEFESPKKKRKV, KRPAATKKAGQAKKKK, KKTELQTTNAENKTKKL, KRGINDRNFWRGENGRKTR, RKSGKIAAIVVKRPRK, PKKKRKV, ou MDSLLMNRRKFLYQFKNVRWAKGRRETYLC.
[00135] Os termos "ácido nucleico" e "molécula de ácido nucleico", tal como aqui utilizados, referem-se a um composto que compreende uma nucleobase e uma porção ácida, por exemplo, um nucleosídeo, um nucleotídeo ou um polímero de nucleotídeos. Normalmente, os ácidos nucleicos poliméricos, por exemplo, moléculas de ácido nucleico compreendendo três ou mais nucleotídeos são moléculas lineares, nas quais nucleotídeos adjacentes estão ligados uns aos outros por meio de uma ligação fosfodiéster. Em algumas modalidades, "ácido nucleico" refere-se a resíduos de ácido nucleico individuais (por exemplo, nucleotídeos e/ou nucleosídeos). Em algumas modalidades, "ácido nucleico" refere-se a uma cadeia de oligonucleotídeo compreendendo três ou mais resíduos de nucleotídeo individuais. Tal como aqui utilizado, os termos "oligonucleotídeo" e "polinucleotídeo" podem ser usados indistintamente para referir-se a um polímero de nucleotídeos (por exemplo, uma sequência de pelo menos três nucleotídeos). Em algumas modalidades, "ácido nucleico" abrange RNA, bem como DNA de fita simples e/ou duplo. Os ácidos nucleicos podem ser de ocorrência natural, por exemplo, no contexto de um genoma, um transcrito, um mRNA, tRNA, rRNA, siRNA, snRNA, um plasmídeo, cosmídeo, cromossomo, cromátide ou outra molécula de ácido nucleico de ocorrência natural. Por outro lado, uma molécula de ácido nucleico pode ser uma molécula de ocorrência não natural, por exemplo, um DNA ou RNA recombinante, um cromossomo artificial, um genoma modificado, ou seu fragmento, ou um DNA, RNA, híbrido de DNA/RNA sintético, ou incluindo nucleotídeos ou nucleosídeos de ocorrência não natural. Além disso, os termos "ácido nucleico", "DNA", "RNA" e/ou termos similares incluem análogos de ácido nucleico, por exemplo, análogos tendo outra estrutura principal que não uma fosfodiéster. Os ácidos nucleicos podem ser purificados a partir de fontes naturais, produzidos usando sistemas de expressão recombinantes e opcionalmente purificados, sintetizados quimicamente, etc. Quando apropriado, por exemplo, no caso de moléculas sintetizadas quimicamente, os ácidos nucleicos podem compreender análogos de nucleosídeos, como análogos com bases quimicamente modificadas ou açúcares e modificações de estrutura principal. Uma sequência de ácido nucleico é apresentada na direção 5’ a 3’, a menos que indicado de outra forma. Em algumas modalidades, um ácido nucleico é ou compreende nucleosídeos naturais (por exemplo, adenosina, timidina, guanosina, citidina, uridina, desoxiadenosina, desoxitimidina, desoxiguanosina e desoxicitidina); análogos de nucleosídeo (por exemplo, 2-aminoadenosina, 2- tiotimidina, inosina, pirrolo-pirimidina, 3-metil adenosina, 5-metilcitidina, 2-aminoadenosina, C5-bromouridina, C5-fluorouridina, C5-iodouridina, C5-propinil-uridina, C5-propinil-citidina, C5-metilcitidina, 2- aminoadenosina, 7-deazaadenosina, 7-deazaguanosina, 8- oxoadenosina, 8-oxoguanosina, O (6)-metilguanina e 2-tiocitidina); bases quimicamente modificadas; bases biologicamente modificadas (por exemplo, bases metiladas); bases intercaladas; açúcares modificados (2’-, por exemplo, fluororibose, ribose, 2'-desoxirribose, arabinose e hexose); e/ou grupos fosfato modificados (por exemplo, fosforotioatos e ligações 5'-N-fosforamidita).
[00136] O termo "proteína de ligação de DNA programável de ácido nucleico" ou "napDNAbp" pode ser usado alternadamente com "domínio de ligação de nucleotídeo programável de polinucleotídeo" para referir-se a uma proteína que se associa a um ácido nucleico (por exemplo, DNA ou RNA), tal como um guia nucleico ácido ou polinucleotídeo guia (por exemplo, gRNA), que guia o napDNAbp para uma sequência de ácido nucleico específica. Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio de ligação de DNA programável de polinucleotídeo. Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio de ligação de RNA programável de polinucleotídeo. Em algumas modalidades, o domínio de ligação de nucleotídeo programável do polinucleotídeo é uma proteína Cas9. Uma proteína Cas9 pode se associar a um RNA guia que guia a proteína Cas9 para uma sequência de DNA específica que é complementar ao RNA guia. Em algumas modalidades, o napDNAbp é um domínio Cas9, por exemplo, uma nuclease Cas9 ativa, uma nickase Cas9 (nCas9) ou uma Cas9 inativa nuclease (dCas9). Exemplos não limitativos de proteínas de ligação de DNA programáveis de ácido nucleico incluem Cas9 (por exemplo, dCas9 e nCas9), Cas12a/Cpfl, Cas12b/ C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i. Exemplos não limitantes de enzimas Cas incluem Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5d, Cas5t, Cas5h, Cas5a, Cas6, Cas7, Cas8, Cas8a, Cas8b, Cas8c, Cas9 (também conhecidas como Csn1 or Csx12), Cas10, Cas10d, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/ C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, Cas12i, Csy1 , Csy2, Csy3, Csy4, Cse1, Cse2, Cse3, Cse4, Cse5e, Csc1, Csc2, Csa5, Csn1, Csn2, Csm1, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx1S, Csx11, Csf1, Csf2, CsO, Csf4, Csd1, Csd2, Cst1, Cst2, Csh1, Csh2, Csa1, Csa2, Csa3, Csa4, Csa5, proteínas efetoras de Cas tipo II, proteínas efetoras de Cas Tipo V, proteínas efetoras de Cas Tipo VI, CARF, DinG, homólogos dos mesmos ou versões modificadas ou projetadas dos mesmos. Outras proteínas de ligação de DNA programáveis de ácido nucleico também estão dentro do escopo desta divulgação, embora possam não ser listadas especificamente nesta divulgação. Vide, por exemplo, Makarova et al. "Classification and Nomenclature of CRISPR-Cas Systems: Where from Here?" CRISPR J. Outubro de 2018; 1:325-336. doi: 10.1089/ crispr.2018.0033; Yan et al., "Functionally diverse type V CRISPR-Cas systems" Science. 4 de janeiro de 2019; 363(6422):88-91. doi: 10.1126/ science.aav7271, todo o conteúdo de cada um é aqui incorporado por referência.
[00137] O termo "nucleobase", "base nitrogenada" ou "base", usado de forma intercambiável neste documento, refere-se a um composto biológico contendo nitrogênio que forma um nucleosídeo, que por sua vez é um componente de um nucleotídeo. A capacidade das nucleobases de formar pares de bases e se empilharem leva diretamente a estruturas helicoidais de cadeia longa, como ácido ribonucléico (RNA) e ácido desoxirribonucléico (DNA). Cinco nucleobases - adenina (A), citosina (C), guanina (G), timina (T) e uracil (U) - são chamadas de primárias ou canônicas. Adenina e guanina são derivadas de purina, e citosina, uracil e timina são derivadas de pirimidina. DNA e RNA também podem conter outras bases (não primárias) que são modificadas. Nucleobases modificadas exemplares não limitativas podem incluir hipoxantina, xantina, 7-metilguanina, 5,6- di-hidrouracil, 5-metilcitosina (m5C) e 5-hidrometilcitosina. A hipoxantina e a xantina podem ser criadas pela presença de mutagênicos, ambas por desaminação (substituição do grupo amina por um grupo carbonila). A hipoxantina pode ser modificada a partir da adenina. A xantina pode ser modificada a partir da guanina. O uracil pode resultar da desaminação da citosina. Um "nucleosídeo" consiste em uma nucleobase e um açúcar de cinco carbonos (ribose ou desoxirribose). Exemplos de um nucleosídeo incluem adenosina, guanosina, uridina, citidina, 5-metiluridina (m5U), desoxiadenosina, desoxiguanosina, timidina, desoxiuridina e desoxicitidina. Exemplos de um nucleosídeo com uma nucleobase modificada incluem inosina (I), xantosina (X), 7-metilguanosina (m7G), dihidrouridina (D), 5- metilcitidina (m5C) e pseudouridina (Φ). Um "nucleotídeo" consiste em uma nucleobase, um açúcar de cinco carbonos (ribose ou desoxirribose) e pelo menos um grupo fosfato.
[00138] Os termos "domínio de edição de nucleobase" ou "proteína de edição de nucleobase", tal como aqui utilizados, referem-se a uma proteína ou enzima que pode catalisar uma modificação de nucleobase em RNA ou DNA, tal como citosina (ou citidina) para uracil (ou uridina) ou timina (ou timidina), e adenina (ou adenosina) para desaminações de hipoxantina (ou inosina), bem como adições e inserções de nucleotídeos não modelados. Em algumas modalidades, o domínio de edição de nucleobase é um domínio de desaminase (por exemplo, uma adenina desaminase ou uma adenosina desaminase; ou uma citidina desaminase ou uma citosina desaminase). Em algumas modalidades, o domínio de edição de nucleobase é mais do que um domínio de desaminase (por exemplo, uma adenina desaminase ou uma adenosina desaminase e uma citidina ou uma citosina desaminase, por exemplo, conforme descrito em PCT/US19/44935). Em algumas modalidades, o domínio de edição de nucleobase pode ser um domínio de edição de nucleobase de ocorrência natural. Em algumas modalidades, o domínio de edição de nucleobases pode ser um domínio de edição de nucleobases desenvolvido ou desenvolvido a partir do domínio de edição de nucleobases de ocorrência natural. O domínio de edição de nucleobases pode ser de qualquer organismo, como uma bactéria, humano, chimpanzé, gorila, macaco, vaca, cachorro, rato ou camundongo.
[00139] Conforme usado neste documento, "obter" como em "obter um agente" inclui sintetizar, comprar, gerar, preparar ou de outra forma adquirir o agente.
[00140] Um "paciente" ou "indivíduo", conforme usado neste documento, refere-se a um indivíduo mamífero ou indivíduo diagnosticado com, tendo, em risco de ter ou desenvolver, suscetível a, ou suspeito de ter ou desenvolver uma doença ou distúrbio. Em algumas modalidades, o termo "paciente" refere-se a um indivíduo mamífero com uma probabilidade maior do que a média de desenvolver uma doença ou distúrbio. Pacientes exemplares podem ser humanos, primatas não humanos, gatos, cães, porcos, gado, gatos, cavalos, camelos, lhamas, cabras, ovelhas, roedores (por exemplo, camundongos, coelhos, ratos ou porquinhos-da-índia) e outros mamíferos que podem beneficiar das terapias aqui divulgadas. Pacientes humanos exemplares podem ser homens e/ou mulheres.
[00141] "Paciente em necessidade do mesmo" ou "indivíduo em necessidade do mesmo" é referido neste documento como um paciente diagnosticado com, em risco ou tendo, predeterminado para ter, ou suspeito de ter uma doença ou distúrbio.
[00142] Os termos "mutação patogênica", "variante patogênica", "mutação de revestimento de doença", "variante causadora de doença", "mutação deletéria" ou "mutação predisponente" referem-se a uma alteração genética ou mutação que aumenta a suscetibilidade ou predisposição de um indivíduo a uma determinada doença ou distúrbio. Em algumas modalidades, a mutação patogênica compreende pelo menos um aminoácido de tipo selvagem substituído por pelo menos um aminoácido patogênico em uma proteína codificada por um gene.
[00143] Os termos "proteína", "peptídeo", "polipeptídeo" e seus equivalentes gramaticais são usados indistintamente neste documento e referem-se a um polímero de resíduos de aminoácidos ligados entre si por ligações peptídicas (amida). Os termos referem-se a uma proteína, peptídeo ou polipeptídeo de qualquer tamanho, estrutura, ou função. Normalmente, uma proteína, peptídeo ou polipeptídeo terá pelo menos três aminoácidos de comprimento. Uma proteína, peptídeo ou polipeptídeo pode referir-se a uma proteína individual ou uma coleção de proteínas. Um ou mais dos aminoácidos em uma proteína, peptídeo ou polipeptídeo podem ser modificados, por exemplo, pela adição de uma entidade química, tal como um grupo carboidrato, um grupo hidroxila, um grupo fosfato, um grupo farnesila, um grupo isofarnesila, um grupo de ácido graxo, um ligante para conjugação, funcionalização ou outras modificações, etc. Uma proteína, peptídeo ou polipeptídeo também pode ser uma única molécula ou pode ser um complexo multimolecular. Uma proteína, peptídeo ou polipeptídeo pode ser apenas um fragmento de uma proteína ou peptídeo de ocorrência natural. Uma proteína, peptídeo ou polipeptídeo pode ser de ocorrência natural, recombinante ou sintético, ou qualquer combinação dos mesmos. O termo "proteína de fusão", tal como aqui utilizado, refere-se a um polipeptídeo híbrido que compreende domínios de proteína de pelo menos duas proteínas diferentes. Uma proteína pode estar localizada na porção amino-terminal (N-terminal) da proteína de fusão ou na proteína carbóxi-terminal (C-terminal) formando assim uma proteína de fusão amino-terminal ou uma proteína de fusão carbóxi-terminal, respectivamente. Uma proteína pode compreender diferentes domínios, por exemplo, um domínio de ligação de ácido nucleico (por exemplo, o domínio de ligação de gRNA de Cas9 que direciona a ligação da proteína a um sítio alvo) e um domínio de clivagem de ácido nucleico, ou um domínio catalítico de uma proteína de edição de ácido. Em algumas modalidades, uma proteína compreende uma parte proteica, por exemplo, uma sequência de aminoácidos que constitui um domínio de ligação de ácido nucleico e um composto orgânico, por exemplo, um composto que pode atuar como um agente de clivagem de ácido nucleico. Em algumas modalidades, uma proteína está em um complexo com, ou está em associação com, um ácido nucleico, por exemplo, RNA ou DNA. Qualquer uma das proteínas aqui fornecidas pode ser produzida por qualquer método conhecido na técnica. Por exemplo, as proteínas fornecidas neste documento podem ser produzidas por meio da expressão e purificação de proteínas recombinantes, que é especialmente adequado para proteínas de fusão compreendendo um ligante de peptídeo. Os métodos para expressão e purificação de proteínas recombinantes são bem conhecidos e incluem aqueles descritos por Green e Sambrook, Molecular Cloning: A Laboratory Manual (4a ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY (2012)), todo o conteúdo dos quais são aqui incorporados por referência.
[00144] Os polipeptídeos e proteínas divulgados neste documento (incluindo porções funcionais e variantes funcionais dos mesmos) podem compreender aminoácidos sintéticos no lugar de um ou mais aminoácidos de ocorrência natural. Esses aminoácidos sintéticos são conhecidos na técnica e incluem, por exemplo, ácido aminociclohexano carboxílico, norleucina, ácido α-amino n-decanoico, homosserina, S-acetilaminometil-cisteína, trans-3- e trans-4- hidroxiprolina, 4-aminofenilalanina, 4-nitrofenilalanina, 4- clorofenilalanina, 4-carboxifenilalanina, β-fenilserina β- hidroxifenilalanina, fenilglicina, α-naftilalanina, ciclohexilalanina, ciclohexilglicina, ácido indolina-2-carboxílico, ácido 1,2,3,4- tetrahidroisoquinolina-3-carboxílico, ácido aminomalônico, monoamida de ácido aminomalônico, N’-benzil-N’-metil-lisina, N’,N’-dibenzil-lisine, 6-hidroxilisina, ornitina, ácido α-aminociclopentano carboxílico, ácido α- aminociclohexano carboxílico, ácido α-aminocicloheptano carboxílico, ácido α-(2-amino-2-norbomano)-carboxilico, ácido α,Y—diaminobutirico, ácido α,β-diaminopropi0nico, homofenilalanina, e α-terc-butilglicina. Os polipeptídeos e proteínas podem ser associados a modificações pós- tradução de um ou mais aminoácidos dos construtos polipeptídicos. Exemplos não limitativos de modificações pós-tradução incluem fosforilação, acilação incluindo acetilação e formilação, glicosilação (incluindo N-ligado e O-ligado), amidação, hidroxilação, alquilação incluindo metilação e etilação, ubiquitilação, adição de ácido carboxílico pirrolidona, formação de pontes dissulfeto, sulfatação, miristoilação, palmitoilação, isoprenilação, farnesilação, geranilação, glipiação, lipoilação e iodação.
[00145] O termo "recombinante", conforme usado aqui no contexto de proteínas ou ácidos nucleicos, refere-se a proteínas ou ácidos nucleicos que não ocorrem na natureza, mas são o produto da engenharia humana. Por exemplo, em algumas modalidades, uma proteína recombinante ou molécula de ácido nucleico compreende uma sequência de aminoácidos ou nucleotídeos que compreende pelo menos uma, pelo menos duas, pelo menos três, pelo menos quatro, pelo menos cinco, pelo menos seis ou pelo menos sete mutações em comparação com qualquer sequência de ocorrência natural.
[00146] Por "reduz" entende-se uma alteração negativa de pelo menos 10%, 25%, 50%, 75% ou 100%.
[00147] Por "referência" entende-se um padrão ou condição de controle. Em uma modalidade, a referência é uma célula de tipo selvagem ou saudável. Em outras modalidades e sem limitação, uma referência é uma célula não tratada que não é submetida a uma condição de teste, ou está submetida a placebo ou solução salina normal, meio, tampão e/ou um vetor de controle que não abriga um polinucleotídeo de interesse.
[00148] Uma "sequência de referência" é uma sequência definida usada como base para a comparação de sequências. Uma sequência de referência pode ser um subconjunto ou a totalidade de uma sequência especificada; por exemplo, um segmento de um cDNA completo ou sequência de gene, ou o cDNA completo ou sequência de gene. Para polipeptídeos, o comprimento da sequência de polipeptídeo de referência será geralmente de pelo menos cerca de 16 aminoácidos, pelo menos cerca de 20 aminoácidos, mais pelo menos cerca de 25 aminoácidos e ainda mais preferivelmente cerca de 35 aminoácidos, cerca de 50 aminoácidos ou cerca de 100 aminoácidos. Para ácidos nucleicos, o comprimento da sequência de ácido nucleico de referência será geralmente de pelo menos cerca de 50 nucleotídeos, pelo menos cerca de 60 nucleotídeos, pelo menos cerca de 75 nucleotídeos e cerca de 100 nucleotídeos ou cerca de 300 nucleotídeos ou qualquer número inteiro próximo ou entre eles. Em algumas modalidades, uma sequência de referência é uma sequência de tipo selvagem de uma proteína de interesse. Em outras modalidades, uma sequência de referência é uma sequência de polinucleotídeo que codifica uma proteína de tipo selvagem.
[00149] O termo "nuclease programável por RNA" e "nuclease guiada por RNA" são usados com (por exemplo, se liga ou se associa a) um ou mais RNA (s) que não seja um alvo para clivagem. Em algumas modalidades, uma nuclease programável de RNA, quando em um complexo com um RNA, pode ser referida como um complexo nuclease: RNA. Normalmente, o(s) RNA(s) ligado(s) é(são) referido(s) como RNA guia (gRNA). Os gRNAs podem existir como um complexo de dois ou mais RNAs ou como uma única molécula de RNA. Os gRNAs que existem como uma única molécula de RNA podem ser referidos como RNAs de guia único (sgRNAs), embora "gRNA" seja usado indistintamente para referir-se a RNAs guia que existem como moléculas únicas ou como um complexo de duas ou mais moléculas. Normalmente, os gRNAs que existem como uma única espécie de RNA compreendem dois domínios: (1) um domínio que compartilha homologia com um ácido nucleico alvo (por exemplo, e direciona a ligação de um complexo Cas9 ao alvo); e (2) um domínio que se liga a uma proteína Cas9. Em algumas modalidades, o domínio (2) corresponde a uma sequência conhecida como tracrRNA e compreende uma estrutura haste-alça. Por exemplo, em algumas modalidades, o domínio (2) é idêntico ou homólogo a um tracrRNA conforme fornecido em Jinek et al., Science 337: 816-821 (2012), cujo conteúdo total é incorporado aqui por referência. Outros exemplos de gRNAs (por exemplo, aqueles que incluem o domínio 2) podem ser encontrados no Pedido de Patente Provisório U.S., U.S.S.N. 61/874,682, depositado em 6 de setembro de 2013, intitulado "Switchable Cas9 Nucleases and Uses Thereof," e o pedido de patente provisória U.S., U.S.S.N. 61/874,746, depositado em 6 de setembro de 2013, intitulado "Delivery System For Functional Nucleases," todo o conteúdo de cada um é aqui incorporado por referência em sua totalidade. Em algumas modalidades, um gRNA compreende dois ou mais dos domínios (1) e (2) e pode ser referido como um "gRNA estendido". Por exemplo, um gRNA estendido irá, por exemplo, ligar duas ou mais proteínas Cas9 e ligar um ácido nucleico alvo em duas ou mais regiões distintas, como aqui descrito. O gRNA compreende uma sequência de nucleotídeos que complementa um sítio alvo, que medeia a ligação do complexo nuclease/RNA ao referido sítio alvo, fornecendo a especificidade de sequência do complexo nuclease: RNA.
[00150] Em algumas modalidades, a nuclease programável de RNA é a endonuclease Cas9 (sistema associado a CRISPR), por exemplo, Cas9 (Csnl) de Streptococcus pyogenes (vide, por exemplo, "Complete genome sequence of an Ml strain of Streptococcus pyogenes." Ferretti J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Primeaux C, Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Deltcheva E., Chylinski K., Sharma CM., Gonzales K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Nature 471:602-607(2011).
[00151] Como as nucleases programáveis de RNA (por exemplo, Cas9) usam hibridização de RNA: DNA para atingir sítios de clivagem de DNA, essas proteínas são capazes de serem direcionadas, em princípio, a qualquer sequência especificada pelo RNA guia. Métodos de uso de nucleases programáveis de RNA, como Cas9, para clivagem específica de sítio (por exemplo, para modificar um genoma) são conhecidos na técnica (vide, por exemplo, Cong, L. et al., Multiplex genome engineering using CRISPR/Cas systems. Science 339, 819823 (2013); Mali, P. et ah, RNA-guided human genome engineering via Cas9. Science 339, 823-826 (2013); Hwang, W.Y. et al., Efficient genome editing in zebrafish using a CRISPR-Cas system. Nature biotechnology 31, 227-229 (2013); Jinek, M. et ah, RNA-programmed genome editing in human cells. eLife 2, e00471 (2013); Dicarlo, J.E. et al., Genome engineering in Saccharomyces cerevisiae using CRISPR- Cas systems. Nucleic acids research (2013); Jiang, W. et ah RNA- guided editing of bacterial genomes using CRISPR-Cas systems. Nature biotechnology 31, 233-239 (2013); todo o conteúdo de cada um dos quais é incorporado aqui por referência).
[00152] O termo "polimorfismo de nucleotídeo único (SNP)" é uma variação em um único nucleotídeo que ocorre em uma posição específica no genoma, onde cada variação está presente em algum grau apreciável dentro de uma população (por exemplo, >1%). Por exemplo, em uma posição de base específica no genoma humano, o nucleotídeo C pode aparecer na maioria dos indivíduos, mas em uma minoria de indivíduos, a posição é ocupada por um A. Isso significa que há um SNP nesta posição específica, e as duas variações de nucleotídeos possíveis, C ou A, são mencionadas como sendo alelos para esta posição. SNPs são a base das diferenças na suscetibilidade à doença. A gravidade da doença e a forma como nosso corpo responde aos tratamentos também são manifestações de variações genéticas. Os SNPs podem cair em regiões codificantes de genes, regiões não codificantes de genes ou nas regiões intergênicas (regiões entre genes). Em algumas modalidades, os SNPs dentro de uma sequência de codificação não alteram necessariamente a sequência de aminoácidos da proteína que é produzida, devido à degenerescência do código genético. SNPs na região de codificação são de dois tipos: SNPs sinônimos e não sinônimos. SNPs sinônimos não afetam a sequência da proteína, enquanto SNPs não sinônimos alteram a sequência de aminoácidos da proteína. Os SNPs não sinônimos são de dois tipos: sem sentido e não sentido. Os SNPs que não estão em regiões codificadoras de proteínas ainda podem afetar a emenda do gene, a ligação do fator de transcrição, a degradação do RNA mensageiro ou a sequência de RNA não codificador. A expressão gênica afetada por este tipo de SNP é conhecida como eSNP (expressão SNP) e pode ser a montante ou a jusante do gene. Uma única variante de nucleotídeo (SNV) é uma variação em um único nucleotídeo sem quaisquer limitações de frequência e pode surgir em células somáticas. Uma variação somática de um único nucleotídeo também pode ser chamada de alteração de um único nucleotídeo.
[00153] Por "liga-se especificamente" entende-se uma molécula de ácido nucleico, polipeptídeo ou complexo do mesmo (por exemplo, um domínio de ligação de DNA programável de ácido nucleico e ácido nucleico guia), composto ou molécula que reconhece e se liga a um polipeptídeo e/ou molécula de ácido nucleico de da invenção, mas que não reconhece e se liga substancialmente a outras moléculas em uma amostra, por exemplo, uma amostra biológica.
[00154] As moléculas de ácido nucleico úteis nos métodos da invenção incluem qualquer molécula de ácido nucleico que codifica um polipeptídeo da invenção ou um fragmento do mesmo. Tais moléculas de ácido nucléico não precisam ser 100% idênticas a uma sequência de ácido nucléico endógena, mas tipicamente exibirão identidade substancial. Os polinucleotídeos com "identidade substancial" com uma sequência endógena são tipicamente capazes de hibridizar com pelo menos um filamento de uma molécula de ácido nucleico de fita dupla. As moléculas de ácido nucleico úteis nos métodos da invenção incluem qualquer molécula de ácido nucleico que codifica um polipeptídeo da invenção ou um fragmento do mesmo. Tais moléculas de ácido nucléico não precisam ser 100% idênticas a uma sequência de ácido nucléico endógena, mas tipicamente exibirão identidade substancial. Os polinucleotídeos com "identidade substancial" com uma sequência endógena são tipicamente capazes de hibridizar com pelo menos um filamento de uma molécula de ácido nucleico de fita dupla. Por "hibridizar" pretende-se significar emparelhar para formar uma molécula de fita dupla entre sequências de polinucleotídeo complementares (por exemplo, um gene aqui descrito), ou porções do mesmo, sob várias condições de restringência. (vide, por exemplo, Wahl, G. M. e S. L. Berger (1987) Methods Enzymol. 152: 399; Kimmel, A. R. (1987) Methods Enzymol. 152: 507).
[00155] Por exemplo, a concentração de sal rigorosa será normalmente inferior a cerca de 750 mM de NaCl e 75 mM de citrato trissódico, preferivelmente inferior a cerca de 500 mM de NaCl e 50 mM de citrato trissódico, e mais preferivelmente inferior a cerca de 250 mM de NaCl e 25 mM de citrato trissódico. A hibridização de baixo rigor pode ser obtida na ausência de solvente orgânico, por exemplo, formamida, enquanto a hibridização de alto rigor pode ser obtida na presença de pelo menos cerca de 35% de formamida e, mais preferivelmente, pelo menos cerca de 50% de formamida. Condições de temperatura rigorosas normalmente incluirão temperaturas de pelo menos cerca de 30 °C, mais preferivelmente de pelo menos cerca de 37 °C, e mais preferivelmente de pelo menos cerca de 42 °C. Parâmetros adicionais variados, tais como tempo de hibridização, a concentração de detergente, por exemplo, dodecilsulfato de sódio (SDS), e a inclusão ou exclusão de DNA transportador, são bem conhecidos dos versados na técnica. Vários níveis de rigor são alcançados combinando essas várias condições, conforme necessário. Em uma modalidade, a hibridização ocorrerá a 30 °C em 750 mM de NaCl, 75 mM de citrato trissódico e SDS a 1%. Em outra modalidade, a hibridização ocorrerá a 37 °C em 500 mM de NaCl, 50 mM de citrato trissódico, SDS a 1%, formamida a 35% e 100 μg/ml de DNA de espermatozóide de salmão desnaturado (ssDNA). Em outra modalidade, a hibridização ocorrerá a 42 °C em 250 mM de NaCl, 25 mM de citrato trissódico, SDS a 1%, formamida a 50% e 200 μg/ml ssDNA. Variações úteis nestas condições serão prontamente aparentes para os versados na técnica.
[00156] Para a maioria das aplicações, as etapas de lavagem que seguem a hibridização também variam em rigor. As condições de rigor da lavagem podem ser definidas pela concentração de sal e pela temperatura. Como acima, o rigor da lavagem pode ser aumentado diminuindo a concentração de sal ou aumentando a temperatura. Por exemplo, a concentração rigorosa de sal para as etapas de lavagem será preferivelmente inferior a cerca de 30 mM de NaCl e 3 mM de citrato trissódico, e mais preferivelmente inferior a cerca de 15 mM de NaCl e 1,5 mM de citrato trissódico. Condições de temperatura restritivas para as etapas de lavagem normalmente incluirão uma temperatura de pelo menos cerca de 25 °C, mais preferivelmente de pelo menos cerca de 42 °C, e ainda mais preferivelmente de pelo menos cerca de 68 °C. Em uma modalidade, as etapas de lavagem ocorrerão a 25 °C em 30 mM de NaCl, 3 mM de citrato trissódico e SDS a 0,1%. Em uma modalidade mais preferida, as etapas de lavagem ocorrerão a 42 °C em 15 mM de NaCl, 1,5 mM de citrato trissódico e SDS a 0,1%. Em uma modalidade mais preferida, as etapas de lavagem ocorrerão a 68 °C em 15 mM de NaCl, 1,5 mM de citrato trissódico e SDS a 0,1%. Variações adicionais nestas condições serão facilmente evidentes para os versados na técnica. As técnicas de hibridação são bem conhecidas dos versados na técnica e são descritas, por exemplo, em Benton e Davis (Science 196: 180, 1977); Grunstein e Hogness (Proc. Natl. Acad. Sei., USA 72: 3961, 1975); Ausubel et al. (Current Protocols in Molecular Biology, Wiley Interscience, Nova Iorque, 2001); Berger e Kimmel (Guide to Molecular Cloning Techniques, 1987, Academic Press, Nova Iorque); e Sambrook et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press, Nova Iorque.
[00157] Por "divisão" entende-se dividido em dois ou mais fragmentos.
[00158] Uma "proteína Cas9 dividida" ou "Cas9 dividida" refere-se a uma proteína Cas9 que é fornecida como um fragmento N-terminal e um fragmento C-terminal codificado por duas sequências de nucleotídeos separadas. Os polipeptídeos correspondentes à porção N-terminal e à porção C-terminal da proteína Cas9 podem ser unidos para formar uma proteína Cas9 "reconstituída". Em modalidades particulares, a proteína Cas9 é dividida em dois fragmentos dentro de uma região desordenada da proteína, por exemplo, conforme descrito em Nishimasu et al., Cell, Volume 156, Questão 5, pp. 935-949, 2014, ou conforme descrito em Jiang et al. (2016) Science 351: 867-871. Arquivo PDB: 5F9R, cada um dos quais é incorporado aqui por referência. Em algumas modalidades, a proteína é dividida em dois fragmentos em qualquer C, T, A ou S dentro de uma região de SpCas9 entre cerca de aminoácidos A292-G364, F445-K483 ou E565-T637, ou em posições correspondentes em qualquer outra Cas9, variante de Cas9 (por exemplo, nCas9, dCas9) ou outra napDNAbp. Em algumas modalidades, a proteína é dividida em dois fragmentos em SpCas9 T310, T313, A456, S469 ou C574. Em algumas modalidades, o processo de divisão da proteína em dois fragmentos é referido como "divisão" da proteína.
[00159] Em outras modalidades, a porção N-terminal da proteína Cas9 compreende os aminoácidos 1-573 ou 1-637 de Cas9 de tipo selvagem (SpCas9) de S. pyogenes (Sequência de Referência NCBI: NC_002737.2, Sequência de Referência Uniprot: Q99ZW2), ou uma posição/mutação correspondente da mesma, e a porção C-terminal da proteína Cas9 compreende uma porção dos aminoácidos 574-1368 ou 638-1368 de SpCas9 de tipo selvagem.
[00160] A porção C-terminal da Cas9 dividida pode ser unida com a porção N-terminal da Cas9 dividida para formar uma proteína Cas9 completa. Em algumas modalidades, a porção C-terminal da proteína Cas9 começa onde termina a porção N-terminal da proteína Cas9. Como tal, em algumas modalidades, a porção C-terminal da Cas9 dividida compreende uma porção de aminoácidos (551-651)-1368 de spCas9. "(551-651)-1368" significa começando em um aminoácido entre os aminoácidos 551-651 (inclusive) e terminando no aminoácido 1368. Por exemplo, a porção C-terminal da Cas9 dividida pode compreender uma porção de qualquer um dos aminoácidos 551-1368, 552-1368, 553-1368, 554-1368, 555-1368, 556-1368, 557-1368, 5581368, 559-1368, 560-1368, 561-1368, 562-1368, 563-1368, 564-1368, 565-1368, 566-1368, 567-1368, 568-1368, 569-1368, 570-1368, 5711368, 572-1368, 573-1368, 574-1368, 575 -1368, 576-1368, 577-1368, 578-1368, 579-1368, 580-1368, 581-1368, 582-1368, 583-1368, 5841368, 585-1368, 586-1368, 587-1368, 588-1368, 589-1368, 590-1368, 591-1368, 592-1368, 593-1368, 594-1368, 595-1368, 596-1368, 597-1368, 598-1368, 599-1368, 600 -1368, 601-1368, 602-1368, 603-1368, 604-1368, 605-1368, 606-1368, 607-1368, 608-1368, 609-1368, 6101368, 611-1368, 612-1368, 613-1368, 614-1368, 615-1368, 616-1368, 617-1368, 618-1368, 619-1368, 620-1368, 621-1368, 622-1368, 623- 1368, 624-1368, 625 -1368, 626-1368, 627-1368, 628-1368, 629-1368, 630-1368, 631-1368, 632-1368, 633-1368, 634-1368, 635-1368, 6361368, 637-1368, 638-1368, 639-1368, 640-136 8, 641-1368, 642-1368, 643-1368, 644-1368, 645-1368, 646-1368, 647-1368, 648-1368, 6491368, 650-1368 ou 651-1368 de spCas9. Em algumas modalidades, a porção C-terminal da proteína Cas9 dividida compreende uma porção dos aminoácidos 574-1368 ou 638-1368 de SpCas9.
[00161] Por "indivíduo" entende-se um mamífero, incluindo, mas não se limitando a, um mamífero humano ou não humano, como um bovino, equino, canino, ovino ou felino. Os indivíduos incluem gado, animais domesticados criados para produzir trabalho e fornecer mercadorias, como comida, incluindo, sem limitação, gado, cabras, galinhas, cavalos, porcos, coelhos e ovelhas.
[00162] Por "substancialmente idêntico" entende-se um polipeptídeo ou molécula de ácido nucleico exibindo pelo menos 50% de identidade com uma sequência de aminoácidos de referência (por exemplo, qualquer uma das sequências de aminoácidos aqui descritas) ou sequência de ácido nucleico (por exemplo, qualquer uma das sequências de ácido nucleico aqui descritas). Em uma modalidade, tal sequência é pelo menos 60%, 80% ou 85%, 90%, 95% ou mesmo 99% idêntica no nível de aminoácido ou ácido nucleico à sequência usada para comparação.
[00163] A identidade de sequência é normalmente medida usando software de análise de sequência (por exemplo, Pacote de software de Análise de Sequência do Genetics Computer Group, Universidade de Wisconsin Biotechnology Center, 1710 University Avenue, Madison, Wis. 53705, BLAST, BESTFIT, GAP ou programas PILEUP/PRETTYBOX). Tal software combina sequências idênticas ou semelhantes atribuindo graus de homologia a várias substituições, deleções e/ou outras modificações. As substituições conservadoras incluem tipicamente substituições dentro dos seguintes grupos: glicina, alanina; valina, isoleucina, leucina; ácido aspártico, ácido glutâmico, asparagina, glutamina; serina, treonina; lisina, arginina; e fenilalanina, tirosina. Em uma abordagem exemplar para determinar o grau de identidade, um programa BLAST pode ser usado, com uma pontuação de probabilidade entre e-3 e e-100 indicando uma sequência intimamente relacionada. COBALTO é usado, por exemplo, com os seguintes parâmetros: a) parâmetros de alinhamento: penalidades de lacuna-11,1 e penalidades de lacuna final-5,-1, b) Parâmetros CDD: Usar RPS BLAST ligado; Valor E de Blast 0,003; Encontrar colunas conservadas e calcular novamente, e c) Parâmetros de Agrupamento de Consulta: Usar agrupamentos de consulta; Tamanho de palavra 4; Distância máxima do agrupamento 0,8; Alfabeto regular. Agulha EMBOSS é utilizada, por exemplo, com os seguintes parâmetros: d) Matriz: BLOSUM62; e) ABERTURA DA LACUNA: 10; f) EXTENSÃO DA LACUNA: 0,5; g) FORMATO DE SAÍDA: par; h) PENALIDADE DE FIM DE LACUNA: falsa; i) ABERTURA DE FIM DE LACUNA: 10; e j) EXTENSÃO DE FIM DE LACUNA: 0,5.
[00164] O termo "sítio alvo" refere-se a uma sequência dentro de uma molécula de ácido nucleico que é modificada por um editor de nucleobase. Em uma modalidade, o sítio alvo é desaminado por uma desaminase ou uma proteína de fusão compreendendo uma desaminase (por exemplo, adenina desaminase).
[00165] Conforme usado neste documento, os termos "tratar", "tratando", "tratamento" e semelhantes referem-se a reduzir ou melhorar uma doença, distúrbio e/ou sintomas associados aos mesmos ou obter um efeito farmacológico e/ou fisiológico desejado. Será apreciado que, embora não seja impedido, o tratamento de um distúrbio ou condição não requer que o distúrbio, condição ou sintomas associados sejam completamente eliminados. Em algumas modalidades, o efeito é terapêutico, ou seja, sem limitação, o efeito reduz parcialmente ou completamente, diminui, anula, diminui, alivia, diminui a intensidade ou cura uma doença e/ou sintoma adverso atribuível à doença. Em algumas modalidades, o efeito é preventivo, ou seja, o efeito protege ou evita a ocorrência ou recorrência de uma doença ou condição. Para este fim, os métodos presentemente divulgados compreendem a administração de uma quantidade terapeuticamente eficaz de uma composição como aqui descrito. Em algumas modalidades, a doença ou distúrbio é a anemia falciforme (SCD) ou β-talassemia.
[00166] Por "inibidor da uracil glicosilase" ou "UGI" entende-se um agente que inibe o sistema de reparo por excisão de uracil. Em uma modalidade, o agente é uma proteína ou seu fragmento que se liga a uma uracil-DNA glicosilase hospedeira e evita a remoção de resíduos de uracil do DNA. Em uma modalidade, um UGI é uma proteína, um fragmento desta ou um domínio que é capaz de inibir uma enzima de reparo de excisão de base de uracil-DNA glicosilase. Em algumas modalidades, um domínio UGI compreende um UGI de tipo selvagem ou uma versão modificada do mesmo. Em algumas modalidades, um domínio UGI compreende um fragmento da sequência de aminoácidos exemplar apresentada abaixo. Em algumas modalidades, um fragmento UGI compreende uma sequência de aminoácidos que compreende pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, em pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou 100% da sequência UGI exemplar fornecida abaixo. Em algumas modalidades, um UGI compreende uma sequência de aminoácidos que é homóloga à sequência de aminoácidos UGI exemplar ou fragmento da mesma, conforme estabelecido abaixo. Em algumas modalidades, o UGI ou um por ção do mesmo, é pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos pelo menos 99%, pelo menos 99,5%, pelo menos 99,9% ou 100% idêntico a um UGI de tipo selvagem ou uma sequência UGI, ou porção da mesma, conforme estabelecido abaixo. Um UGI exemplar compreende uma sequência de aminoácidos da seguinte forma: >splP14739IUNGI_BPPB2 inibidor de uracil-DNA glicosilase MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDES TDENVMLLTSD APEYKPWALVIQDSNGENKIKML.
[00167] O termo "vetor" refere-se a um meio de introduzir uma sequência de ácido nucleico em uma célula, resultando em uma célula transformada. Os vetores incluem plasmídeos, transposons, fagos, vírus, lipossomas e epissomas. "Vetores de expressão" são sequências de ácido nucleico que compreendem a sequência de nucleotídeos a ser expressa na célula receptora. Os vetores de expressão podem incluir sequências de ácido nucleico adicionais para promover e/ou facilitar a expressão da sequência introduzida, tais como sequências de início, parada, intensificador, promotor e secreção.
[00168] Quaisquer composições ou métodos fornecidos neste documento podem ser combinados com uma ou mais de qualquer uma das outras composições e métodos fornecidos neste documento.
[00169] A edição de DNA surgiu como um meio viável de modificar os estados de doença, corrigindo mutações patogênicas no nível genético. Até recentemente, todas as plataformas de edição de DNA funcionavam induzindo uma quebra de fita dupla de DNA (DSB) em um sítio genômico especificado e contando com vias de reparo de DNA endógeno para determinar o resultado do produto de uma maneira semiestocástica, resultando em populações complexas de produtos genéticos. Embora precisos, resultados de reparo definidos pelo usuário podem ser alcançados por meio da via de reparo direcionado por homologia (HDR), uma série de desafios impediu o reparo de alta eficiência usando HDR em tipos de células terapeuticamente relevantes. Na prática, esta via é ineficiente em relação à via de junção de extremidade não homóloga concorrente e sujeita a erros. Além disso, o HDR é fortemente restrito às fases G1 e S do ciclo celular, evitando o reparo preciso de DSBs em células pós- mitóticas. Como resultado, tem se mostrado difícil ou impossível alterar as sequências genômicas de maneira programável e definida pelo usuário com alta eficiência nessas populações.
BREVE DESCRIÇÃO DOS DESENHOS
[00170] FIGs. 1A-1C representam plasmídeos. A FIG. 1A é um vetor de expressão que codifica um editor de base TadA7.10-dCas9. A FIG. 1B é um plasmídeo que compreende moléculas de ácido nucleico que codificam proteínas que conferem resistência ao cloranfenicol (CamR) e resistência à espectinomicina (SpectR). O plasmídeo também compreende um gene de resistência à canamicina desativado por duas mutações pontuais. A FIG. 1C é um plasmídeo que compreende moléculas de ácido nucleico que codificam proteínas que conferem resistência ao cloranfenicol (CamR) e resistência à espectinomicina (SpectR). O plasmídeo também compreende um gene de resistência à canamicina desativado por três mutações pontuais.
[00171] A FIG. 2 apresenta imagens de colônias bacterianas transduzidas com os vetores de expressão representados na FIG. 1, que incluía um gene de resistência à canamicina defeituoso. Os vetores continham variantes de ABE7.10 que foram geradas usando PCR propenso a erros. As células bacterianas que expressam essas variantes de ABE7.10 "evoluídas" foram selecionadas para resistência à canamicina usando concentrações crescentes de canamicina. As bactérias que expressam variantes de ABE7.10 com atividade de adenosina desaminase foram capazes de corrigir as mutações introduzidas no gene de resistência à canamicina, restaurando assim a resistência à canamicina. As células resistentes à canamicina foram selecionadas para análise posterior.
[00172] As FIGs. 3A e 3B ilustram a edição de uma região reguladora do locus da subunidade gama da hemoglobina (HGB1), que é um sítio terapeuticamente relevante para a regulação positiva da hemoglobina fetal. A FIG. 3A é um desenho de uma porção da região reguladora para o gene HGB1. A FIG. 3B quantifica a eficiência e a especificidade das variantes da adenosina desaminase listadas na Tabela 15. A edição é avaliada no locus da subunidade gama da hemoglobina 1 (HGB1) em células HEK293T, que é o sítio terapeuticamente relevante para a suprarregulação da hemoglobina fetal. O painel superior representa resíduos de nucleotídeos na região alvo da sequência reguladora do gene HGB1. A5, A8, A9 e A11 denotam os resíduos de adenosina editados em HGB1.
[00173] A FIG. 4 ilustra a eficácia relativa dos editores de base de adenosina compreendendo um dCas9 que reconhece uma sequência PAM não canônica. O painel superior descreve a sequência de codificação da subunidade de hemoglobina. O painel inferior é um gráfico que demonstra a eficiência dos editores de base da variante da adenosina desaminase com RNAs-guia de comprimentos variados.
[00174] A FIG. 5 é um gráfico que ilustra a eficiência e especificidade de ABE8s. A edição percentual em nucleotídeos alvo pretendidos e nucleotídeos alvo não intencionais (bystander) é quantificada.
[00175] A FIG. 6 é um gráfico que ilustra a eficiência e especificidade de ABE8s. A edição percentual em nucleotídeos alvo pretendidos e nucleotídeos alvo não intencionais (bystanders) é quantificada.
[00176] As FIGs. 7A a 7C representam um esquema e gráficos de barras relacionados com Conversão de A • T em G • C e resultados fenotípicos em células primárias. A FIG. 7A apresenta um desenho esquemático de genes de globina embrionária, fetal e adulta situados no cromossomo 11 e indica o sítio HPFH HBG1/2 em que um editor de base única introduz a edição duplex. A FIG. 7B é um gráfico que representa a eficiência de edição de DNA em células CD34+. É mostrada a conversão de A • T em G • C no sítio do promotor -198 HBG1/2 em células CD34+ tratadas com ABE de dois doadores separados. Análise NGS conduzida 48 e 144h após o tratamento. A sequência alvo de - 198 HBG1/2 é a seguinte: GTGGGGA7AGGGGCCCCCAAGAGG com A7 em negrito e sublinhado duplo. Porcentagem A • T para G • C plotada para A7. A FIG. 7C é um gráfico que reflete a expressão percentual de Y-globina/α-globina em eritrócitos derivados de células editadas por ABE. Mostrado na FIG. 7C é a porcentagem de Y-globina formada como uma fração da alfa-globina. Valores para as FIGS. 7B e 7C são mostrados de dois doadores diferentes, pós-tratamento ABE e diferenciação eritroide. Conforme observado na FIG. 7B, as eficiências de edição ABE8 no sítio alvo do promotor -198 HBG1/2 foram comparativamente 2-3 vezes maiores em pontos de tempo iniciais (48 horas). Conforme observado na FIG. 7C, a edição ABE8 em células CD34+ produziu um aumento de aproximadamente 1,4 vez na formação de Y-globina em eritrócitos diferenciados. A título de exemplo, o editor de base ABE8.13-d resultou em 55% da expressão de Y-globina/α-globina.
[00177] As FIGs. 8A e 8B representam a conversão de A • T em G • C de células CD34+ tratadas com ABE8 no sítio do promotor -198 a montante de HBG1/2. A FIG. 8A é um mapa de calor que descreve a frequência de edição de A para G de ABE8s em células CD34+ de dois doadores, onde o doador 2 é heterozigoto para anemia falciforme, 48 e 144h após o tratamento do editor. A FIG. 8B é uma representação gráfica da distribuição de leituras de sequenciamento total que contêm apenas edições A7 ou edições combinadas (A7 + A8).
[00178] A FIG. 9 é um mapa de calor que descreve a frequência INDEL de células CD34+ tratadas com ABE8 no sítio -198 do promotor de gama-globina. Frequências mostradas de dois doadores em pontos de tempo 48h e 144h. A conversão completa de A • T em G • C no sítio alvo do promotor HBG1/2 -198, conforme descrito neste documento, cria um trecho poli-G de 10-nt. Como essas execuções de homopolímero frequentemente aumentam a taxa de erros induzidos por PCR e sequenciamento, frequências elevadas de INDEL são observadas neste local.
[00179] A FIG. 10 representa um traço UV-Vis de cromatografia líquida de ultra-alta performance (UHPLC) (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas não tratadas (doador 1).
[00180] A FIG. 11 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE7,10-m (doador 1)
[00181] A FIG. 12 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE7.10-d (doador1).
[00182] A FIG. 13 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8,8-m (doador 1)
[00183] A FIG. 14 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.8-d (doador 1).
[00184] A FIG. 15 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.13-m (doador1).
[00185] A FIG. 16 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.13-d (doador1).
[00186] A FIG. 17 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.17-m (doador1).
[00187] A FIG. 18 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.17-d (doador1).
[00188] A FIG. 19 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.20-m (doador1).
[00189] A FIG. 20 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.20-d (doador 1).
[00190] A FIG. 21 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas não tratadas (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00191] A FIG. 22 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE7,10-m (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00192] A FIG. 23 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE7.10-d (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00193] A FIG. 24 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8,8-m (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00194] A FIG. 25 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.8-d (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00195] A FIG. 26 reapresenta um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.13-m (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00196] A FIG. 27 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.13-d (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00197] A FIG. 28 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.17-m (doador 1).
[00198] A FIG. 29 representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.17-d (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00199] As FIGs. 30A e 30B representam traços UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8s. A FIG. 30A representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.20-m (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme. A FIG. 30B representa um traço UHPLC UV-Vis (220 nm) e integração dos níveis da cadeia de globina de células CD34+ diferenciadas tratadas com ABE8.20-d (doador 2). Nota: o doador 2 é heterozigoto para anemia falciforme.
[00200] As FIG. 31A-31E representam a edição com ABE8.8 em dois sítios independentes, atingindo mais de 90% de edição no dia 11 pós-diferenciação eritroide antes da enucleação e cerca de 60% da gama globina sobre alfa globina ou globina da família beta total no dia 18 pós-diferenciação eritroide. A FIG. 31A é um gráfico que representa uma média de edição de ABE8.8 em 2 doadores saudáveis em 2 experimentos independentes. A eficiência de edição foi medida com iniciadores que distinguem HBG1 e HBG2. A FIG. 31B é um gráfico que representa uma média de 1 doador saudável em 2 experimentos independentes. A eficiência da edição foi medida com iniciadores que reconhecem HBG1 e HBG2. A FIG. 31C é um gráfico que representa a edição de ABE8.8 em um doador com mutação E6V heterozigótica. As FIGs. 31D e 31E são gráficos que representam o aumento da gama globina nas células editadas ABE8.8.
[00201] As FIGs. 32A e 32B representam a edição percentual usando variante de ABE para corrigir as mutações da célula falciforme. A FIG. 32A é um gráfico que representa uma tela de diferentes variantes de editor com edição de cerca de 70% em fibroblastos de pacientes com SCD. A FIG. 32B é um gráfico que representa células CD34 de doadores saudáveis editadas com uma variante de ABE principal, visando uma mutação sinônima A13 em uma prolina adjacente que reside dentro da janela de edição e serve como um proxi para editar a mutação de SCD. As Variante de ABE8 apresentaram frequência média de edição em torno de 40% no proxi A13.
[00202] As FIGs. 33A e 33B representam o sequenciamento do amplicon de RNA para detectar a edição celular A-para-I no RNA associado ao tratamento ABE. Os pontos de dados individuais são mostrados e as barras de erro representam s.d. para n = 3 repetições biológicas independentes, realizadas em dias diferentes. A FIG. 33A é um gráfico que representa frequências de edição de A-para-I em amplicons de RNA direcionados para construtos de núcleo ABE 8 em comparação com controle de nickase ABE7 e Cas9 (D10A). A FIG. 33B é um gráfico que representa frequências de edição de A-para-I em amplicons de RNA direcionados para ABE8 com mutações que foram relatadas para melhorar a edição de RNA fora do alvo.
[00203] As FIGs. 34A e 34B apresentam gráficos e traços cromatográficos UPHLC relacionados à edição de células CD34+ de SCD. As células CD34+ de um paciente com SCD foram transfectadas com mRNA ABE8.8 e sgRNA (HBG1/2, 50 nM) usando eletroporação. As células editadas foram diferenciadas em células eritroides in vitro. A taxa de edição nos promotores HBG1/2 foi medida por Sequenciamento de Genoma de Próxima Geração (NGS). Como mostrado na FIG. 34A, a edição de 16,5% pelo editor de base ABE8.8 foi observada 48 horas após a diferenciação, e a edição de 89,2% foi medida no dia 14 após a diferenciação. A FIG. 34B mostra o detalhamento da edição de bystander em 48 horas e no dia 14 pós- diferenciação.
[00204] As FIGs. 35A-35D apresentam traços cromatográficos UPHLC de níveis de globina e gráficos relacionados à leitura funcional de regulação positiva de HbF e regulação negativa de HbS em células CD34+ de SCD submetidas à edição, conforme descrito para as FIGS. 34A e 34B. As células CD34+ de SCD editadas foram diferenciadas em células eritroides e os níveis de globina foram analisados no dia 18 após a diferenciação. A FIG. 35A apresenta um traço mostrando os níveis de globina em células eritroides diferenciadas de células CD34+ de SCD não editadas. A FIG. 35B apresenta um traço mostrando os níveis de globina em células eritroides diferenciadas de células CD34+ de SCD editadas. A FIG. 35C mostra que 63,2% do nível de Y globina foram detectados em células eritroides diferenciadas de células CD34+ de SCD editadas versus células não editadas. A FIG. 35D mostra que a globina S foi reduzida de 86% para 32,9%, diferenciada de células CD34+ de SCD editadas versus células não editadas. A regulação positiva da hemoglobina fetal é uma abordagem vantajosa para o tratamento da SCD e também da beta-talassemia.
[00205] As FIGs. 36A-36C mostram uma estrutura em laço, sequência alvo e gráfico relacionado à geração de uma variante do editor ABE para editar uma sequência de Cas9 NGG PAM não canônica. Projetar um editor de base ABE contendo um SpCas9 modificado incluindo substituições de aminoácidos MQKFRAER e tendo especificidade para PAM 5'-NGC-3’ alterado conforme descrito neste documento (FIG. 36A), permitiu o direcionamento do alelo falciforme ("alvo A") dentro a janela de edição de ABE como mostrado na FIG. 36B, proporcionando assim a capacidade de editar diretamente esta posição no sítio alvo, que normalmente não seria acessível usando um spCas9 tradicional. A FIG. 36C mostra um gráfico das atividades de edição de base de editores variantes contendo as substituições de aminoácidos MQKFRAER, que permitem o reconhecimento do sítio alvo e a conversão da nucleobase A em nucleobase T (A • T) para atingir a correção desejada de Val^Ala. Para cada variante plotada no eixo x, "Pro ^ Pro" representa a barra mais à esquerda; "Val^Ala" representa a barra do meio; e "Ser^Pro" representa a barra mais à direita.
[00206] A FIG. 37 apresenta um gráfico, sequência de sítio alvo e tabela relacionada à geração de variantes adicionais de adenosina desaminase em que o ligante para TadA foi removido e colocado mais próximo do complexo Cas9. Estas variantes exibiram maior eficácia na edição de uma linhagem celular modelo (HEK293T) que expressou o sítio alvo do alelo falciforme. O termo "ISLAY" ou "IBE" refere-se a editores de base que têm uma inserção da adenosina desaminase TadA dentro da sequência de Cas9, por exemplo, ISLAY1 V1015, ISLAY2 I1022, ISLAY3 I1029, ISLAY4 E1040, ISLAY5 E1058, ISLAY6 G1347, ISLAY7 E1054, ISLAY8 E1026 e ISLAY9 Q768, conforme estabelecido na Tabela 14A infra. No lado direito da figura, são mostrados o sítio alvo na sequência de ácido nucleico, o sítio PAM e a sequência de aminoácidos correspondente. "Cp5" (MSP552) na tabela refere-se a um ABE8 em um arcabouço que inclui um permutante circular Cas9 tendo a sequência de aminoácidos abaixo e conforme descrito infra. MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGW NRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAG AMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILAD ECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSE SATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGA VLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATL YSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGM NHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSG GSSGSETPGTSESATPESSGGSSGGSEIGKATAKYFFYSNIMNFFKT EITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKK TEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVL VVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKK DLIIKLPKYSLFELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASH YEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKV LSAYNKHRDKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRST KEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGS GGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKN LIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVD DSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLV DSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTY NQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGN LIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYAD LFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKAL VRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGT EELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLK DNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVV DKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYV TEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSV EISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFED REMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQS GKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHE HIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTT QKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQ NGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNR GKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSE LDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLK SKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESE FVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV
[00207] Para os experimentos, sgRNA guia de 20nt (1000 ng), spCas9-MQKFRAER, tendo especificidade para NGC PAM, foram usados para transformar células HEK293T (2x105 células/poço) em triplicado.
[00208] As FIGs. 38 e 39 mostram representações esquemáticas das diferentes variantes de adenosina desaminase ISLAY que demonstraram edição aumentada do sítio alvo (como mostrado na FIG. 37). Esquematicamente mostrado para comparação nos painéis do meio estão outros editores ABE (ABE7.10) com um ligante para o domínio TadA.
[00209] A FIG. 40 mostra gráficos de barras que representam a porcentagem de edição de base alcançada em células CD34+ que expressaram o sítio alvo de SCD e uma tabela que mostra ácidos nucleicos editados e alterações de aminoácidos. Células CD34+ de um paciente com traço falciforme heterozigótico foram tratadas com editores ABE e a edição do sítio alvo (9G), isto é, a conversão da nucleobase A em nucleobase T para atingir a correção desejada da Val > Ala foi medida. A edição superior a 50% do alelo da célula falciforme pelos editores de variante de ABE foi alcançada nas células CD34+ 96 horas após a eletroporação. Isso foi mantido após as células terem se diferenciado em glóbulos vermelhos in vitro (IVD), uma vez que uma edição superior a 60% foi mostrada em células eritroides diferenciadas (heterozigotos para traço falciforme) 12 dias após a diferenciação eritroide. Para os gráficos, Editor_nM mRNA_[sgRNA]:[mRNA]_Timepoint são avaliados e gRNA de 21nt foi utilizado.
[00210] As FIGs. 41A e 41B apresentam um traço cromatográfico de cromatografia líquida de ultra-alta performance (UHPLC) e resultados de LC-MS relacionados à detecção de espécies distintas de β-globina em células eritroides diferenciadas de HbS (β-globina em células falciformes) heterozigóticas editadas. Antes desses estudos e análises, discriminar e separar a variante da globina HbG Makassar da variante da globina falciforme HbS usando métodos convencionais era rotineiramente malsucedido pelos profissionais da técnica. Um método UHPLC foi desenvolvido e usado aqui para discriminar entre essas duas variantes de globina diferentes em células, por exemplo, células CD34+, de pacientes com SCD que foram editadas usando editores ABE8 como aqui descrito. Após a edição de células CD34+ de uma amostra de HbSS heterozigótica, diferentes variantes de beta globina (Hb) correspondentes àquelas com a substituição Val^Ala podem ser detectadas com base no peso molecular usando UHPLC (FIG. 41A). O pico de edição analisado por cromatografia líquida-espectrometria de massa (LC-MS) mostra o envelope de carga indicando uma nova variante de beta globina distinta (variante de Makassar), (FIG. 41B).
[00211] A FIG. 42 apresenta uma tabela de editores de base e sequências de sgRNA para amostras de SCD de edição de base com uma variante de globina HbS para obter correção para uma variante de globina HbG Makassar. Mutações ABE8 foram introduzidas em candidatos a editores líderes e sgRNA de diferentes comprimentos (protoespaçadores de 21nt, 20nt, 19nt) foram avaliados para examinar se a edição em alvo poderia ser melhorada enquanto reduzia a edição 1G potencialmente prejudicial (conversão Ser10Pro). O nucleotídeo "A" em negrito/itálico/sublinhado representa a substituição falciforme. As letras minúsculas nas sequências de sgRNA/protoespaçador indicam nucleobases que são 2'-O-metiladas. O "s" minúsculo nas sequências de sgRNA/protoespaçador indica fosforotioatos.
[00212] As FIGs. 43A e 43B mostram gráficos de barras da edição percentual total no sítio alvo 9G (ou 9G e outros sítios) em células CD34+ (amostra de traço falciforme heterozigótico) por diferentes editores ABE 48h após a eletroporação (FIG. 43A) ou células eritroides diferenciadas in vitro (amostra de traço falciforme heterozigótico) 7d após a diferenciação (FIG. 43B). Enquanto as mutações adicionais não melhoraram muito a edição no alvo, 4 editores demonstraram eficiência de edição em alvo comparável. O comprimento de sgRNA de 20 nt atingiu uma expectativa de edição indesejada inferior de 1G. Para estes gráficos, Editor_sgRNA nt ou Editor_100nM mRNA_μM sgRNA (20nt) são avaliados. A edição foi mantida durante a diferenciação eritroide in vitro, perto de 80%.
[00213] As FIGs. 44A e 44B apresentam gráficos de barras e uma tabela mostrando a sequência de ácido nucleico editada e a conversão da sequência de aminoácidos correspondente relacionada à edição de base total na posição 9G de HbS em amostras de SCD homozigóticas (HbSS). As células foram obtidas de uma amostra de sangue total (não mobilizado) de um paciente com SCD (HbSS) e submetidas à edição de base usando editores de base de variante de ABE. Na FIG. 44A: células CD34+ (~ 200.000 células, amostra de SCD homozigótica)) foram eletroporadas com 50 nM de editor de variante de ABE (MSP619 (ISLAY5)) a uma razão de 100:1 (2 μg de mRNA, 4,1 μg de sgRNA (21nt)). Os editores de base de variante de ABE alcançaram aproximadamente 65% de edição na posição 9G nas células em 7d após a eletroporação, e cerca de 60% de edição na posição 9G em 14d após a eletroporação. Na FIG. 44B: células CD34+ (~ 200.000 células, amostra de SCD homozigótica)) foram eletroporadas com 30nM de editor de variante de ABE (MSP616 (ISLAY2)) a uma razão 200:1 (1,3 μg de mRNA, 4,95 μg de sgRNA (21nt)). Os editores de base de variante de ABE alcançaram pelo menos aproximadamente 50% de edição na posição 9G nas células eritroides em 7d e 14d após a eletroporação.
[00214] A FIG. 45 apresenta um traço cromatográfico UHPLC após análise UHPLC, que mostra uma separação clara e discriminação entre a forma de HbS e as formas variantes de HbG Makassar de proteínas de globina após a edição de base usando editores de base variante de ABE em células HbSS homozigóticas obtidas de uma amostra de paciente com SCD.
[00215] As FIGs. 46A e 46B apresentam um traço cromatográfico de UHPLC e resultados de LC-MS relacionados à detecção de espécies distintas de β-globina em células eritroides diferenciadas de HbS (β-globina em células falciformes) heterozigóticas editadas. Conforme descrito para as FIGs. 41A e 41B, UHPLC foi usado para discriminar essas duas variantes de globina diferentes. Em uma amostra de HbSS heterozigótica editada, diferentes variantes de beta globina (Hb) correspondentes àquelas com a substituição Val^Ala podem ser detectadas com base no peso molecular (FIG. 46A). O pico de edição no traço LC-MS mostra o envelope de carga indicando uma nova variante de beta globina (FIG. 46B).
[00216] A FIG. 47 mostra traços cromatográficos UHPLC e resultados de LC-MS de amostras de HbSS (SCD) submetidas à edição de base ("HbSS - editado") ou não submetidas à edição de base ("HbSS - não editado"). Conforme mostrado nos cromatógrafos UHPLC superior e intermediário, a variante da globina HbG Makassar (em 9,81 min) é distinguida da forma da globina HbS (SCD) (10,03 min) com base nos diferenciais de tempo de eluição em UHPLC. As outras formas de globina são facilmente distinguidas. No gráfico LC- MS inferior, a variante HbG Makassar e a forma HbS da globina têm identidades diferentes e distinguíveis. Semelhante aos resultados apresentados para as FIGs. 41A, 41B, 45, 46A e 46B, as análises de UHPLC e LC-MS de células de amostras de células eritroides SCD (HbSS) editadas com os editores de base de variante de ABE aqui descritos fornecem identificação e separação claras da variante HbG Makassar e da variante HbS (SCD) da globina nas amostras, proporcionando assim um meio benéfico de identificar pacientes autênticos com SCD (HbS) e de aliviar ou prevenir erros de diagnóstico de SCD (HbSS) em pacientes que apresentam a variante de globina HbG Makassar.
[00217] As FIGs. 48A a 48C mostram gráficos de barras que representam áreas relativas sob os picos de dados de cromatografia UHPLC. A área sob os picos foi usada para quantificar a mudança total na quantidade das diferentes variantes de β-globina em uma amostra de SCD homozigótica que foi submetida à edição de base empregando uma variante de ABE da invenção. (Editor de base MSP619, 50 nM de mRNA, 5000 nM de sgRNA (21nt)). Os resultados apresentados sugerem que os níveis de conversão de globina HbS variante em globina HbG-Makassar assintomática estão diretamente correlacionados.
[00218] A FIG. 49 é uma tabela que descreve as variantes de Cas9 para acessar todos os PAMs possíveis dentro do espaço PAM NRNN. Apenas as variantes de Cas9 que requerem o reconhecimento de três ou menos nucleotídeos definidos em seus PAMs são listadas. As variantes PAM não G incluem SpCas9-NRRH, SpCas9-NRTH e SpCas9-NRCH. (Miller, S.M., et al. Continuous evolution of SpCas9 variants compatible with non-G PAMs, Nat. Biotechnol. (2020), (//doi.org/ 10.1038/s41587-020-0412-8), cujo conteúdo é incorporado neste documento por referência em sua totalidade.
DESCRIÇÃO DETALHADA DA INVENÇÃO
[00219] Conforme descrito abaixo, a presente invenção apresenta composições e métodos para alterar mutações associadas à anemia falciforme (SCD). Em algumas modalidades, a edição corrige uma mutação deletéria, de modo que o polinucleotídeo editado seja indistinguível de uma sequência de polinucleotídeo de referência de tipo selvagem. Em outra modalidade, a edição altera a mutação deletéria, de modo que o polinucleotídeo editado compreenda uma mutação benigna.
Edição do gene HBB
[00220] Conforme descrito neste documento, as composições e métodos da invenção são úteis e vantajosos para o tratamento da anemia falciforme (SCD), que é causada por uma mutação Glu ^ Val no sexto aminoácido da proteína β-globina codificada pelo gene HBB. Apesar de muitos desenvolvimentos até o momento no campo da edição de genes, a correção precisa do gene HBB doente para reverter Val ^ Glu permanece indescritível e atualmente não é alcançável usando as abordagens de edição de base CRISPR/Cas ou CRISPR/Cas.
[00221] A edição do genoma do gene HBB para substituir o nucleotídeo afetado usando uma abordagem de nuclease CRISPR/Cas requer a clivagem do DNA genômico. No entanto, a clivagem do DNA genômico acarreta um risco aumentado de gerar inserções/deleções de base (indels), que têm o potencial de causar consequências indesejáveis e não intencionais, incluindo a geração de códons de parada prematuros, alteração do quadro de leitura do códon, etc. Além disso, a geração de duplo quebras de cadeia no locus da β-globina tem o potencial de alterar radicalmente o locus por meio de eventos de recombinação. O locus β-globina contém um agrupamento de genes de globina com identidade de sequência entre si - 5’- ε-; GY-; AY-; δ-; e β-globina-3’. Devido à estrutura do locus β- globina, o reparo de recombinação de uma quebra de fita dupla dentro do locus tem o potencial de resultar na perda de genes de sequências intervenientes entre os genes da globina, por exemplo, entre os genes δ- e β-globina.
[00222] Alterações não intencionais no locus também apresentam o risco de causar talassemia.
[00223] As abordagens de edição de base CRISPR/Cas são promissoras, pois têm a capacidade de gerar alterações precisas no nível da nucleobase. No entanto, a correção precisa de Val ^ Glu (GTG ^ GAG) requer um editor de transversão de T • A a A • T, que atualmente não existe. Além disso, a especificidade da edição de base CRISPR/Cas é devida em parte a uma janela limitada de nucleotídeos editáveis criados pela formação da alça R após a ligação de CRISPR/Cas ao DNA. Assim, o direcionamento CRISPR/Cas deve ocorrer no local ou próximo ao local da célula falciforme para permitir que a edição de base seja possível e pode haver requisitos de sequência adicionais para a edição ideal dentro da janela. Um requisito para o direcionamento CRISPR/Cas é a presença de um motivo adjacente ao protoespaçador (PAM) flanqueando o local a ser direcionado. Por exemplo, muitos editores básicos são baseados em SpCas9, que requer um NGG PAM. Mesmo supondo hipoteticamente que uma transversão de T • A para A • T fosse possível, não existe NGG PAM que colocaria o alvo "A" em uma posição desejável para tal editor de base SpCas9. Embora muitas novas proteínas CRISPR/Cas tenham sido descobertas ou geradas para expandir a coleção de PAMs disponíveis, os requisitos de PAM permanecem um limite fator importante na capacidade de direcionar os editores de base CRISPR/Cas para nucleotídeos específicos em qualquer local do genoma.
[00224] A presente invenção é baseada, pelo menos em parte, em várias descobertas aqui descritas que abordam os desafios anteriores para fornecer uma abordagem de edição do genoma para o tratamento da anemia falciforme. Em um aspecto, a invenção é baseada em parte na capacidade de substituir a valina na posição do aminoácido 6, que causa a anemia falciforme, por uma alanina, para assim gerar uma variante de Hb (Hb Makassar) que não gera uma célula falciforme fenótipo. Embora a correção precisa (GTG ^ GAG) não seja possível sem um editor de base de transversão T • A para A • T, os estudos realizados aqui descobriram que uma substituição Val ^ Ala (GTG ^ GCG) (ou seja, a variante Hb Makassar) pode ser gerado usando um editor de base A • T para G • C (ABE). Isso foi alcançado em parte pelo desenvolvimento de novos editores de base e novas estratégias de edição de base, conforme fornecido aqui. Por exemplo, novos editores de base ABE (isto é, tendo um domínio de adenosina desaminase) que utilizam sequências de flanqueamento (por exemplo, sequências de PAM; sequências de ligação de dedo de zinco) para edição de base ideal no sítio alvo da célula falciforme.
[00225] Assim, a presente invenção inclui composições e métodos para edição de base de uma timidina (T) em uma citidina (C) no códon do sexto aminoácido de uma variante da anemia falciforme da proteína β-globina (HbS facilforme; E6V), substituindo assim uma alanina por uma valina (V6A) nesta posição de aminoácido. A substituição de alanina por valina na posição 6 de HbS gera uma variante da proteína β-globina que não tem um fenótipo de célula falciforme (por exemplo, não tem o potencial de polimerizar como no caso da variante patogênica HbS). Consequentemente, as composições e métodos da invenção são úteis para o tratamento da anemia falciforme (SCD).
EDITOR DE NUCLEOBASE
[00226] É divulgado aqui um editor de base ou um editor de nucleobase para editar, modificar ou alterar uma sequência de nucleotídeo alvo de um polinucleotídeo (por exemplo, polinucleotídeo de HBB). É aqui descrito um editor de nucleobases ou um editor de base compreendendo um domínio de ligação de nucleotídeo programável de polinucleotídeo e um domínio de edição de nucleobase (por exemplo, adenosina desaminase). Um domínio de ligação de nucleotídeo programável de polinucleotídeo, quando em conjunto com um polinucleotídeo guia ligado (por exemplo, gRNA), pode se ligar especificamente a uma sequência de polinucleotídeo alvo (ou seja, por meio de emparelhamento de base complementar entre bases do ácido nucleico guia ligado e bases do polinucleotídeo alvo sequência) e, desse modo, localize o editor de base na sequência de ácido nucleico alvo que se deseja editar. Em algumas modalidades, a sequência de polinucleotídeo alvo compreende DNA de fita simples ou DNA de fita dupla. Em algumas modalidades, a sequência de polinucleotídeo alvo compreende RNA. Em algumas modalidades, a sequência de polinucleotídeo alvo compreende um híbrido de DNA- RNA.
Domínio de Ligação de Nucleotídeo Programável de Polinucleotídeo
[00227] Deve ser apreciado que os domínios de ligação de nucleotídeos programáveis de polinucleotídeo também podem incluir proteínas programáveis de ácido nucleico que ligam RNA. Por exemplo, o domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser associado a um ácido nucleico que guia o domínio de ligação de nucleotídeo programável de polinucleotídeo para um RNA. Outras proteínas de ligação de DNA programáveis de ácido nucleico também estão dentro do escopo desta divulgação, embora não estejam especificamente listadas nesta divulgação.
[00228] Um domínio de ligação de nucleotídeo programável de polinucleotídeo de um editor de base pode ele próprio compreender um ou mais domínios. Por exemplo, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode compreender um ou mais domínios nuclease. Em algumas modalidades, o domínio nuclease de um domínio de ligação de nucleotídeo programável de polinucleotídeo pode compreender uma endonuclease ou uma éxonuclease. Aqui, o termo "éxonuclease" refere-se a uma proteína ou polipeptídeo capaz de digerir um ácido nucleico (por exemplo, RNA ou DNA) de extremidades livres, e o termo "endonuclease" refere-se a uma proteína ou polipeptídeo capaz de catalisar (por exemplo, clivar) regiões internas em um ácido nucléico (por exemplo, DNA ou RNA). Em algumas modalidades, uma endonuclease pode clivar um fita simples de um ácido nucleico de fita dupla. Em algumas modalidades, uma endonuclease pode clivar ambos os filamentos de uma molécula de ácido nucleico de fita dupla. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser uma desoxirribonuclease. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser uma ribonuclease.
[00229] Em algumas modalidades, um domínio nuclease de um domínio de ligação de nucleotídeo programável de polinucleotídeo pode cortar zero, um ou dois filamentos de um polinucleotídeo alvo. Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo pode compreender um domínio nickase. Aqui, o termo "nickase" refere-se a um domínio de ligação de nucleotídeo programável de polinucleotídeo compreendendo um domínio nuclease que é capaz de clivar apenas um filamento dos dois filamentos em uma molécula de ácido nucleico duplexada (por exemplo, DNA). Em algumas modalidades, uma nickase pode ser derivada de uma forma totalmente ativa cataliticamente (por exemplo, natural) de um domínio de ligação de nucleotídeo programável de polinucleotídeo através da introdução de uma ou mais mutações no domínio de ligação de nucleotídeo programável de polinucleotídeo ativo. Por exemplo, onde um domínio de ligação de nucleotídeo programável de polinucleotídeo compreende um domínio nickase derivado de Cas9, o domínio nickase derivado de Cas9 pode incluir uma mutação D10A e uma histidina na posição 840. Em tais casos, o resíduo H840 retém atividade catalítica e pode, assim, clivar um único filamento do dúplex de ácido nucleico. Em outro exemplo, um domínio nickase derivado de Cas9 pode compreender uma mutação H840A, enquanto o resíduo de aminoácido na posição 10 permanece um D. Em algumas modalidades, uma nickase pode ser derivada de uma forma totalmente ativa cataliticamente (por exemplo, natural) de um domínio de ligação de nucleotídeo programável de polinucleotídeo removendo toda ou uma porção de um domínio nuclease que não é necessário para a atividade nickase. Por exemplo, onde um domínio de ligação de nucleotídeo programável de polinucleotídeo compreende um domínio nickase derivado de Cas9, o domínio nickase derivado de Cas9 pode compreender uma deleção de todo ou uma porção do domínio RuvC ou do domínio HNH.
[00230] A sequência de aminoácidos de uma Cas9 cataliticamente ativo exemplar é a seguinte: MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD
[00231] Um editor de base compreendendo um domínio de ligação de nucleotídeo programável de polinucleotídeo compreendendo um domínio nickase é, portanto, capaz de gerar uma quebra de DNA de fita simples (corte) em uma sequência alvo de polinucleotídeo específico (por exemplo, determinada pela sequência complementar de um ácido nucleico guia ligado). Em algumas modalidades, o filamento de uma sequência de polinucleotídeo alvo duplex de ácido nucleico que é clivada por um editor de base compreendendo um domínio nickase (por exemplo, domínio nickase derivado de Cas9) é o filamento que não é editado pelo editor de base (ou seja, o filamento que é clivado pelo editor de base é oposto a um filamento que compreende uma base a ser editada). Em outras modalidades, um editor de base compreendendo um domínio nickase (por exemplo, domínio nickase derivado de Cas9) pode clivar o filamento de uma molécula de DNA que está sendo direcionado para edição. Em tais casos, o filamento não direcionado não é clivado.
[00232] Também são fornecidos neste documento editores de base compreendendo um domínio de ligação de nucleotídeo programável de polinucleotídeo que está cataliticamente morto (isto é, incapaz de clivar uma sequência de polinucleotídeo alvo). Aqui, os termos "cataliticamente morto" e "nuclease morta" são usados alternadamente para referir-se a um domínio de ligação de nucleotídeo programável de polinucleotídeo que tem uma ou mais mutações e/ou deleções resultando em sua incapacidade de clivar um filamento de um ácido nucleico. Em algumas modalidades, um editor de base de domínio de ligação de nucleotídeo programável de polinucleotídeo morto cataliticamente pode não ter atividade nuclease como resultado de mutações pontuais específicas em um ou mais domínios nuclease. Por exemplo, no caso de um editor de base que compreende um domínio Cas9, a Cas9 pode compreender uma mutação D10A e uma mutação H840A. Essas mutações inativam ambos os domínios nuclease, resultando assim na perda da atividade nuclease. Em outras modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo morto cataliticamente pode compreender uma ou mais deleções de todo ou uma porção de um domínio catalítico (por exemplo, domínios RuvC1 e/ou HNH). Em outras modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo morto cataliticamente compreende uma mutação pontual (por exemplo, D10A ou H840A), bem como uma deleção de todo ou uma porção de um domínio nuclease.
[00233] Também contempladas neste documento são mutações capaz de gerar um domínio de ligação de nucleotídeo programável de polinucleotídeo morto cataliticamente a partir de uma versão anteriormente funcional do domínio de ligação de nucleotídeo programável de polinucleotídeo. Por exemplo, no caso de Cas9 cataliticamente morta ("dCas9"), variantes com mutações diferentes de D10A e H840A são fornecidas, o que resulta em Cas9 inativada por nuclease. Tais mutações, a título de exemplo, incluem outras substituições de aminoácidos em D10 e H840, ou outras substituições dentro dos domínios nuclease Cas9 (por exemplo, substituições no subdomínio nuclease de HNH e/ou no subdomínio de RuvC1). Domínios nuclease Cas9 inativos adequados adicionais podem ser evidentes para aqueles versados na técnica com base nesta divulgação e conhecimento na área e estão dentro do escopo desta divulgação. Tais domínios nuclease Cas9 inativos adequados exemplares incluem, mas não estão limitados a, D10A/H840A, D10A/D839A/H840A e domínios mutantes D10A/D839A/ H840A/N863A (vide, por exemplo, Prashant et al., CAS9 transcriptional activators for target specificity screening and paired nickases for cooperative genome engineering. Nature Biotechnology. 2013; 31(9): 833-838, cujos conteúdos inteiros são aqui incorporados por referência).
[00234] Exemplos não limitativos de um domínio de ligação de nucleotídeo programável de polinucleotídeo que pode ser incorporado em um editor de base incluem um domínio derivado de proteína CRISPR, uma nuclease de restrição, uma meganuclease, nuclease de TAL (TALEN) e uma nuclease de dedo de zinco (ZFN). Em algumas modalidades, um editor de base compreende um domínio de ligação de nucleotídeo programável de polinucleotídeo compreendendo uma proteína natural ou modificada ou porção da mesma que por meio de um ácido nucleico guia ligado é capaz de se ligar a uma sequência de ácido nucleico durante modificação mediada por CRISPR (isto é, Repetições Palindrômicas Curtas Regularmente Interespaçadas Agrupadas) de um ácido nucleico. Essa proteína é aqui referida como uma "proteína CRISPR". Por conseguinte, é divulgado aqui um editor de base compreendendo um domínio de ligação de nucleotídeo programável de polinucleotídeo compreendendo a totalidade ou uma porção de uma proteína CRISPR (ou seja, um editor de base compreendendo como um domínio a totalidade ou uma porção de uma proteína CRISPR, também referida como um "domínio derivado de proteína CRISPR" do editor de base). Um domínio derivado da proteína CRISPR incorporado em um editor de base pode ser modificado em comparação com um tipo selvagem ou versão natural da proteína CRISPR. Por exemplo, conforme descrito abaixo, um domínio derivado da proteína CRISPR pode compreender uma ou mais mutações, inserções, deleções, rearranjos e/ou recombinações em relação a um tipo selvagem ou versão natural da proteína CRISPR.
[00235] CRISPR é um sistema imunológico adaptativo que fornece proteção contra elementos genéticos móveis (vírus, elementos transponíveis e plasmídeos conjugativos). Os agrupamentos de CRISPR contêm espaçadores, sequências complementares aos elementos móveis antecedentes e ácidos nucleicos invasores alvo. Os agrupamentos de CRISPR são transcritos e processados em RNA CRISPR (crRNA). Em sistemas CRISPR tipo II, processamento correto de pré-crRNA requer um RNA pequeno trans-codificado (tracrRNA), ribonuclease 3 endógena (rnc) e uma proteína Cas9. O tracrRNA serve como um guia para o processamento auxiliado pela ribonuclease 3 de pré-crRNA. Subsequentemente, Cas9/crRNA/tracrRNA cliva endonucleoliticamente o alvo de dsDNA linear ou circular complementar ao espaçador. O filamento alvo não complementar ao crRNA é primeiro cortado endonucleoliticamente e, em seguida, aparado 3’-5’ éxonucleoliticamente. Na natureza, a ligação e a clivagem do DNA normalmente requerem proteínas e ambos os RNAs. No entanto, RNAs de guia único ("sgRNA" ou simplesmente "gNRA") podem ser projetados de modo a incorporar aspectos tanto do crRNA quanto do tracrRNA em uma única espécie de RNA. Vide, por exemplo, Jinek M., Chylinski K., Fonfara I., Hauer M., Doudna J. A., Charpentier E. Science 337: 816-821 (2012), cujo conteúdo total é aqui incorporado por referência. Cas9 reconhece um motivo curto nas sequências de repetição CRISPR (o PAM ou motivo adjacente do protoespaçador) para ajudar a distinguir o próprio versus o não próprio.
[00236] Em algumas modalidades, os métodos descritos neste documento podem utilizar uma proteína Cas construída geneticamente. Um RNA guia (gRNA) é um RNA sintético curto composto por uma sequência de arcabouço necessária para a ligação de Cas e um espaçador de ~20 nucleotídeos definido pelo usuário que define o alvo genômico a ser modificado. Assim, um versado na técnica pode alterar o alvo genômico da especificidade da proteína Cas parcialmente determinada por quão específica é a sequência de direcionamento de gRNA para o alvo genômico em comparação com o resto do genoma.
[00237] Em algumas modalidades, a sequência de arcabouço de gRNA é a seguinte: GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU AAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU.
[00238] Em algumas modalidades, um domínio derivado da proteína CRISPR incorporado em um editor de base é uma endonuclease (por exemplo, desoxirribonuclease ou ribonuclease) capaz de se ligar a um polinucleotídeo alvo quando em conjunto com um ácido nucleico guia ligado. Em algumas modalidades, um domínio derivado da proteína CRISPR incorporado em um editor de base é uma nickase capaz de ligar um polinucleotídeo alvo quando em conjunto com um ácido nucleico guia ligado. Em algumas modalidades, um domínio derivado da proteína CRISPR incorporado em um editor de base é um domínio morto cataliticamente capaz de ligar um polinucleotídeo alvo quando em conjunto com um ácido nucleico guia ligado. Em algumas modalidades, um polinucleotídeo alvo ligado por um domínio derivado da proteína CRISPR de um editor de base é o DNA. Em algumas modalidades, um polinucleotídeo alvo ligado por um domínio derivado da proteína CRISPR de um editor de base é o RNA.
[00239] As proteínas Cas que podem ser usadas aqui incluem classe 1 e classe 2. Exemplos não limitativos de proteínas Cas incluem Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5d, Cas5t, Cas5h, Cas5a, Cas6, Cas7, Cas8, Cas9 (também conhecida como Csn1 ou Csx12), Cas10, Csy1 , Csy2, Csy3, Csy4, Cse1, Cse2, Cse3, Cse4, Cse5e, Csc1, Csc2, Csa5, Csn1, Csn2, Csm1, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx1S, Csf1, Csf2, CsO, Csf4, Csd1, Csd2, Cst1, Cst2, Csh1, Csh2, Csa1, Csa2, Csa3, Csa4, Csa5, Cas12a/Cpf1, Cas12b/C2c1, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i, CARF, DinG, homólogos dos mesmos ou versões modificadas dos mesmos. Uma enzima CRISPR não modificada pode ter atividade de clivagem de DNA, como Cas9, que tem dois domínios de endonuclease funcionais: RuvC e HNH. Uma enzima CRISPR pode direcionar a clivagem de uma ou ambas as cadeias em uma sequência alvo, tal como dentro de uma sequência alvo e/ou dentro de um complemento de uma sequência alvo. Por exemplo, uma enzima CRISPR pode direcionar a clivagem de uma ou ambos os filamentos dentro de cerca de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 200, 500, ou mais pares de bases do primeiro ou último nucleotídeo de uma sequência alvo.
[00240] Um vetor que codifica uma enzima CRISPR que é mutada em relação a uma enzima de tipo selvagem correspondente, de modo que a enzima CRISPR mutada não tem a capacidade de clivar uma ou ambas as cadeias de um polinucleotídeo alvo contendo uma sequência alvo pode ser usado. Cas9 pode referir-se a um polipeptídeo com pelo menos ou pelo menos cerca de 50%, 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98 %, 99% ou 100% de identidade de sequência e/ou homologia de sequência com um polipeptídeo Cas9 exemplar de tipo selvagem (por exemplo, Cas9 de S. pyogenes). Cas9 pode referir-se a um polipeptídeo com no máximo ou no máximo cerca de 50%, 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98 %, 99% ou 100% de identidade de sequência e/ou homologia de sequência com um polipeptídeo Cas9 exemplar de tipo selvagem (por exemplo, de S. pyogenes). Cas9 pode referir-se ao tipo selvagem ou a uma forma modificada da proteína Cas9 que pode compreender uma alteração de aminoácido, como uma deleção, inserção, substituição, variante, mutação, fusão, quimera ou qualquer combinação dos mesmos.
[00241] Em algumas modalidades, um domínio derivado da proteína CRISPR de um editor de base pode incluir todo ou uma parte de Cas9 de Corynebacterium ulcerans (NCBI Refs: NC_015683.1, NC_017317.1); Corynebacterium diphtheria (NCBI Refs: NC_016782.1, NC_016786.1); Spiroplasma syrphidicola (NCBI Ref: NC_021284.1); Prevotella intermedia (NCBI Ref: NC_017861.1); Spiroplasma taiwanense (NCBI Ref: NC_021846.1); Streptococcus iniae (NCBI Ref: NC_021314.1); Belliella baltica (NCBI Ref: NC_018010.1); Psychroflexus torquis (NCBI Ref: NC_018721.1); Streptococcus thermophilus (NCBI Ref: YP_820832.1); Listeria innocua (NCBI Ref: NP_472073.1); Campylobacter jejuni (NCBI Ref: YP_002344900.1); Neisseria meningitidis (NCBI Ref: YP_002342100.1), Streptococcus pyogenes ou Staphylococcus aureus.
Domínios Cas9 de Editores de Nucleobase
[00242] As sequências e estruturas de nuclease Cas9 são bem conhecidas pelos versados na técnica (vide, por exemplo, "Complete genome sequence of an Ml strain of Streptococcus pyogenes." Ferretti et al., J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Primeaux C, Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); "CRISPR RNA maturation by transencoded small RNA and host factor RNase III." Deltcheva E., Chylinski K., Sharma C.M., Gonzales K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Nature 471:602-607(2011); e "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." Jinek M., Chylinski K., Fonfara I., Hauer M., Doudna J.A., Charpentier E. Science 337:816-821(2012), todo o conteúdo de cada um dos quais são incorporados aqui por referência). Ortólogos Cas9 foram descritos em várias espécies, incluindo, mas não se limitando a, S. pyogenes e S. thermophilus. Nucleases e sequências de Cas9 adicionais adequadas serão aparentes para aqueles versados na técnica com base nesta divulgação, e tais nucleases e sequências de Cas9 incluem sequências de Cas9 dos organismos e loci divulgados em Chylinski, Rhun, e Charpentier, "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems" (2013) RNA Biology 10:5, 726-737; todo o conteúdo do qual é incorporado aqui por referência.
[00243] Em algumas modalidades, uma proteína de ligação de DNA programável de ácido nucleico (napDNAbp) é um domínio Cas9. Domínios Cas9 exemplares não limitativos são fornecidos neste documento. O domínio Cas9 pode ser um domínio Cas9 ativa de nuclease, um domínio nuclease Cas9 inativo (dCas9) ou uma nickase Cas9 (nCas9). Em algumas modalidades, o domínio Cas9 é um domínio nuclease ativo. Por exemplo, o domínio Cas9 pode ser um domínio Cas9 que corta ambos os filamentos de um ácido nucleico duplexado (por exemplo, ambos os filamentos de uma molécula de DNA duplexado). Em algumas modalidades, o domínio Cas9 compreende qualquer uma das sequências de aminoácidos conforme estabelecido neste documento. Em algumas modalidades, o domínio Cas9 compreende uma sequência de aminoácidos que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntica a qualquer uma das sequências de aminoácidos aqui estabelecidas. Em algumas modalidades, o domínio Cas9 compreende uma sequência de aminoácidos que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais ou mais mutações em comparação com qualquer uma das sequências de aminoácidos aqui estabelecidas. Em algumas modalidades, o domínio Cas9 compreende uma sequência de aminoácidos que tem pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 30, pelo menos 40, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 150, pelo menos 200, pelo menos 250, pelo menos 300, pelo menos 350, pelo menos 400, pelo menos 500, pelo menos 600, pelo menos 700, pelo menos 800, pelo menos 900, pelo menos 1000, pelo menos 1100, ou pelo menos 1200 resíduos de aminoácidos contíguos idênticos em comparação com qualquer uma das sequências de aminoácidos aqui estabelecidas.
[00244] Em algumas modalidades, são fornecidas proteínas que compreendem fragmentos de Cas9. Por exemplo, em algumas modalidades, uma proteína compreende um de dois domínios Cas9: (1) o domínio de ligação de gRNA de Cas9; ou (2) o domínio de clivagem de DNA de Cas9. Em algumas modalidades, as proteínas que compreendem Cas9 ou fragmentos das mesmas são referidas como "variantes de Cas9". Uma variante de Cas9 compartilha homologia com Cas9, ou um fragmento da mesma. Por exemplo, uma variante de Cas9 é pelo menos cerca de 70% idêntica, pelo menos cerca de 80% idêntica, pelo menos cerca de 90% idêntica, pelo menos cerca de 95% idêntica, pelo menos cerca de 96% idêntica, pelo menos cerca de 97% idêntica, em pelo menos cerca de 98% idêntica, pelo menos cerca de 99% idêntica, pelo menos cerca de 99,5% idêntica ou pelo menos cerca de 99,9% idêntica à Cas9 de tipo selvagem. Em algumas modalidades, a variante de Cas9 pode ter 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais alterações de aminoácidos em comparação com Cas9 de tipo selvagem. Em algumas modalidades, a variante de Cas9 compreende um fragmento de Cas9 (por exemplo, um domínio de ligação de gRNA ou um domínio de clivagem de DNA), de modo que o fragmento seja pelo menos cerca de 70% idêntico, pelo menos cerca de 80% idêntico, pelo menos cerca de 90 % idêntico, pelo menos cerca de 95% idêntico, pelo menos cerca de 96% idêntico, pelo menos cerca de 97% idêntico, pelo menos cerca de 98% idêntico, pelo menos cerca de 99% idêntico, pelo menos cerca de 99,5% idêntico ou pelo menos cerca de 99,9 % idêntico ao fragmento correspondente de Cas9 de tipo selvagem. Em algumas modalidades, o fragmento é pelo menos 30%, pelo menos 35%, pelo menos 40%, pelo menos 45%, pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65%, pelo menos 70 %, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95% idêntico, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos pelo menos 99,5% do comprimento de aminoácido de uma Cas9 de tipo selvagem correspondente. Em algumas modalidades, o fragmento tem pelo menos 100 aminoácidos de comprimento. Em algumas modalidades, o fragmento é de pelo menos 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250 ou pelo menos 1300 aminoácidos de comprimento.
[00245] Em algumas modalidades, as proteínas de fusão Cas9, conforme fornecidas neste documento, compreendem a sequência de aminoácidos de comprimento completo de uma proteína Cas9, por exemplo, uma das sequências de Cas9 fornecidas neste documento. Em outras modalidades, no entanto, as proteínas de fusão, conforme fornecidas neste documento, não compreendem uma sequência de Cas9 de comprimento completo, mas apenas um ou mais fragmentos das mesmas. Sequências de aminoácidos exemplares de domínios Cas9 adequados e fragmentos de Cas9 são fornecidos aqui, e sequências adequadas adicionais de domínios Cas9 e fragmentos serão aparentes para aqueles versados na técnica.
[00246] Uma proteína Cas9 pode se associar a um RNA guia que orienta a proteína Cas9 para uma sequência de DNA específica que tem complementar ao RNA guia. Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio Cas9, por exemplo, uma Cas9 ativa de nuclease, uma nickase Cas9 (nCas9) ou uma Cas9 inativa de nuclease (dCas9). Exemplos de proteínas de ligação de DNA programáveis de ácido nucleico incluem, sem limitação, Cas9 (por exemplo, dCas9 e nCas9), CasX, CasY, Cpf1, Cas12b/C2C1 e Cas12c/C2C3.
[00247] Em algumas modalidades, Cas9 de tipo selvagem corresponde a Cas9 de Streptococcus pyogenes (Sequência de Referência NCBI: NC_017053.1, sequências de nucleotídeos e aminoácidos como segue): ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCG TCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAA AGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAA ATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAG CGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGA AGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGC GAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTG GTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATA TAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCAT CTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGC TTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTT TTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAA CTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAA CCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCA CGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCC CCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGT CATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGA AGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTA GATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTT GGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAA GAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGAT TAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCT TTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGA TCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAG CCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGG ATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCT GCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAAT TCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTT TATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGA CTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAG TCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCC ATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCA TTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAA AGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATA ACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAAC CAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACT CTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGAT TATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGT TGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTA AAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGA TATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGG GGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGA TAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGG ACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCT GGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATC GCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGA AGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACAT GAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTA TTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGG GCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAG ACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGA ATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGC ATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTAT TATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATA TTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGT TTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTG ATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGT CAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTA ATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAG GTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGT TGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGT CGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGG TTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAA GATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATG CCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAA GAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAA GTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAG GCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTC TTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCC CTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATA AAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCC AAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCT CCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGC TCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGT CCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAA GGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATC ACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTT AGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAA CTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGA TGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTC TGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAA AAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTG TGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAG TGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAG TTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACA AGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCT CCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATA TACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCC ATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAG GTGACTGA MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLI GALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLAD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYN QLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDR GMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSG KTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQI ANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSD NVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[00248] Em algumas modalidades, Cas9 de tipo selvagem corresponde a, ou compreende, as seguintes sequências de nucleotídeos e/ou aminoácidos: ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCG TTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAA ATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAAT CTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGC GACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCA AGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGC CAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTT GTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAAC ATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATC ACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGA GGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCA CTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGA CAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAA GAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTT AGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCA CAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATA GCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGAC TTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGAT GACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCG GACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTAT CTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTAT CCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGA CACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATA AGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATAT TGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACC CATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACT CAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGG TAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTT AGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAA AAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGAC CCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAG TCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATA AAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTG ACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACT TTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTAT GTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACA GAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGT GACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGC TTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCG TCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGG ACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGT GTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAG ACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAG TTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAA ACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTC GATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAG CTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGG CACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGA ATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAG TCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAAC CGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTC AGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAA GAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCT GTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACC TACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAA ACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTT TTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGAT AAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTA AAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTG ATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGT GGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTC GTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGAT TCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGG GAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCA GAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCA CCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACT CATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGAT TACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAG GAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTA TGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATAC GCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCG TATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGT CCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCG GAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAA GCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTG GCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAA AAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAAT TATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACC CCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGG ATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAAT GGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGG GAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTA GCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAA CAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAA TCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGA TGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGA TAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACT CTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACA ACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGAC GCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGG ATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAG AGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAA GATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIG ALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF FHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[00249] Em algumas modalidades, Cas9 de tipo selvagem corresponde a Cas9 de Streptococcus pyogenes (Sequência de Referência NCBI: NC_002737.2 (sequência de nucleotídeos como se segue); e Sequência de Referência Uniprot: Q99ZW2 (sequência de aminoácidos como se segue): ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCG TCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAA AGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAA ATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAG CGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGA AGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGC GAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTG GTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATA TAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCAT CTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCT TAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTT TTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAAC TATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAAC CCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCAC GATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCC CGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCA TTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAG ATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGAT AATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGG CAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGA GTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTA AACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTT AGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGAT CAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGC CAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGA TGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTG CGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATT CACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTT ATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGAC TTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGT CGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCA TGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCAT TTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAA GTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAA CGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACC AGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTC TTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATT ATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTT GAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAA AAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGAT ATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGG AGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGA TAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGG ACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCT GGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATC GCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGA AGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACA TGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGT ATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGG GGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAA ATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGA AACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAA AGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTAT CTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAAT TAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCA CAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGC GTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGA AGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCC AAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAAC GTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCC AATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTT GGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATT CGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTT CCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTAC CATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCT TTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTG ATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAA GAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCAT GAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGC AAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTC TGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCC ATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGC GGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGC TTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTT TGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGT GGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTA GGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTG ACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAAT CATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTA AACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGC TGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCAT TATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAAT TGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCA AATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTA GATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATAC GTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTT GGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTA AACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCA TCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAG CTAGGAGGTGACTGA MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[00250] Em algumas modalidades, Cas9 refere-se a Cas9 de: Corynebacterium ulcerans (NCBI Refs: NC_015683.1, NC_017317.1); Corynebacterium diphtheria (NCBI Refs: NC_016782.1, NC_016786.1); Spiroplasma syrphidicola (NCBI Ref: NC_021284.1); Prevotella intermedia (NCBI Ref: NC_017861.1); Spiroplasma taiwanense (NCBI Ref: NC_021846.1); Streptococcus iniae (NCBI Ref: NC_021314.1); Belliella baltica (NCBI Ref: NC_018010.1); Psychroflexus torquisI (NCBI Ref: NC_018721.1); Streptococcus thermophilus (NCBI Ref: YP_820832.1), Listeria innocua (NCBI Ref: NP_472073.1), Campylobacter jejuni (NCBI Ref: YP_002344900.1) ou Neisseria. meningitidis (NCBI Ref: YP_002342100.1) ou a uma Cas9 de qualquer outro organismo.
[00251] Deve ser apreciado que proteínas Cas9 adicionais (por exemplo, uma Cas9 morta de nuclease (dCas9), uma casquase Cas9 (nCas9) ou uma Cas9 ativa de nuclease, incluindo variantes e homólogos dos mesmos, estão dentro do escopo desta divulgação. Proteínas Cas9 exemplares incluem, sem limitação, aquelas fornecidas abaixo. Em algumas modalidades, a proteína Cas9 é uma Cas9 morta de nuclease (dCas9). Em algumas modalidades, a proteína Cas9 é uma nickase Cas9 (nCas9). Em algumas modalidades, a proteína Cas9 é uma Cas9 ativa de nuclease.
[00252] Em algumas modalidades, o domínio Cas9 é um domínio nuclease Cas9 inativo (dCas9). Por exemplo, o domínio dCas9 pode se ligar a uma molécula de ácido nucleico duplexado (por exemplo, através de uma molécula de gRNA) sem clivar nenhum dos filamentos da molécula de ácido nucleico duplexado. Em algumas modalidades, o domínio nuclease dCas9 inativo compreende uma mutação D10X e uma mutação H840X da sequência de aminoácidos aqui estabelecida, ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas, em que X é qualquer alteração de aminoácido. Em algumas modalidades, o domínio nuclease dCas9 inativo compreende uma mutação D10A e uma mutação H840A da sequência de aminoácidos aqui estabelecida, ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas. Como um exemplo, um domínio nuclease Cas9 inativo compreende a sequência de aminoácidos apresentada no vetor de clonagem pPlatTET-gRNA2 (No. de Registro BAV54124).
[00253] A sequência de aminoácidos de uma cas9 cataliticamente inativo (dCas9) exemplar é como se segue: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIG ALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF FHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (vide, por exemplo, Qi et al., "Repurposing CRISPR as an RNA-guided platform for sequence-specific control of gene expression." Cell. 2013; 152(5):1173-83, cujos conteúdos inteiros são incorporados aqui por referência).
[00254] Domínios nuclease Cas9 inativos adequados adicionais serão aparentes para aqueles versados na técnica com base nesta divulgação e conhecimento na área, e estão dentro do escopo desta divulgação. Tais domínios nuclease Cas9 inativos adequados exemplares incluem, mas não estão limitados a, D10A/H840A, D10A/D839A/ H840A e domínios mutantes D10A/D839A/H840A/N863A (vide, por exemplo, Prashant et al., CAS9 transcriptional activators for target specificity screening and paired nickases for cooperative genome engineering. Nature Biotechnology. 2013; 31(9): 833-838, cujos conteúdos inteiros são aqui incorporados por referência).
[00255] Em algumas modalidades, uma nuclease Cas9 tem um domínio de clivagem de DNA inativo (por exemplo, um inativado), isto é, a Cas9 é uma nickase, referida como uma proteína "nCas9" (para "nickase" Cas9). Uma proteína Cas9 inativada por nuclease pode ser intercambiavelmente referida como uma proteína "dCas9" (para nuclease- Cas9 "morta") ou Cas9 cataliticamente inativa. Métodos para gerar uma proteína Cas9 (ou um fragmento da mesma) com um domínio de clivagem de DNA inativo são conhecidos (vide, por exemplo, Jinek et al., Science. 337:816-821(2012); Qi et al., "Repurposing CRISPR as an RNA-Guided Platform for SequenceSpecific Control of Gene Expression" (2013) Cell. 28;152(5):1173-83, todo o conteúdo de cada um dos quais é aqui incorporado por referência). Por exemplo, o domínio de clivagem de DNA de Cas9 é conhecido por incluir dois subdomínios, o subdomínio nuclease HNH e o subdomínio de RuvC1. O subdomínio HNH cliva o filamento complementar ao gRNA, enquanto o subdomínio RuvC1 cliva o filamento não complementar. Mutações dentro desses subdomínios podem silenciar a atividade nuclease Cas9. Por exemplo, as mutações D10A e H840A inativam completamente a atividade nuclease de Cas9 de S. pyogenes (Jinek et al., Science. 337:816-821(2012); Qi et al., Cell. 28;152(5):1173-83 (2013)).
[00256] Em algumas modalidades, o domínio dCas9 compreende uma sequência de aminoácidos que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, em pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntica a qualquer um dos domínios dCas9 aqui fornecidos. Em algumas modalidades, o domínio Cas9 compreende sequências de aminoácidos que têm 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais ou mais mutações em comparação com qualquer uma das sequências de aminoácidos aqui estabelecidas. Em algumas modalidades, o domínio Cas9 compreende uma sequência de aminoácidos que tem pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 30, pelo menos 40, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 150, pelo menos 200, pelo menos 250, pelo menos 300, pelo menos 350, pelo menos 400, pelo menos 500, pelo menos 600, pelo menos 700, pelo menos 800, pelo menos 900, pelo menos 1000, pelo menos 1100, ou pelo menos 1200 resíduos de aminoácidos contíguos idênticos em comparação com qualquer uma das sequências de aminoácidos aqui estabelecidas.
[00257] Em algumas modalidades, dCas9 corresponde a, ou compreende em parte ou no todo, uma sequência de aminoácidos Cas9 tendo uma ou mais mutações que inativam a atividade nuclease Cas9. Por exemplo, em algumas modalidades, um domínio dCas9 compreende D10A e uma mutação H840A ou mutações correspondentes em outra Cas9.
[00258] Em algumas modalidades, o dCas9 compreende a sequência de aminoácidos de dCas9 (D10A e H840A): 0 (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC).
[00259] Em algumas modalidades, o domínio Cas9 compreende uma mutação D10A, enquanto o resíduo na posição 840 permanece uma histidina na sequência de aminoácidos fornecida acima ou nas posições correspondentes em qualquer uma das sequências de aminoácidos fornecidas neste documento.
[00260] Em outras modalidades, variantes de dCas9 com mutações diferentes de D10A e H840A são fornecidas, as quais, por exemplo, resultam em Cas9 inativado por nuclease (dCas9). Tais mutações, a título de exemplo, incluem outras substituições de aminoácidos em D10 e H840, ou outras substituições dentro dos domínios nuclease de Cas9 (por exemplo, substituições no subdomínio nuclease de HNH e/ou no subdomínio de RuvC1). Em algumas modalidades, variantes ou homólogos de dCas9 são fornecidos que são pelo menos cerca de 70% idênticos, pelo menos cerca de 80% idênticos, pelo menos cerca de 90% idênticos, pelo menos cerca de 95% idênticos, pelo menos cerca de 98% idênticos, pelo menos cerca de 99% idênticos, pelo menos cerca de 99,5% idênticos, ou pelo menos cerca de 99,9% idênticos. Em algumas modalidades, as variantes de dCas9 são fornecidas com sequências de aminoácidos que são mais curtas ou mais longas, por cerca de 5 aminoácidos, por cerca de 10 aminoácidos, por cerca de 15 aminoácidos, por cerca de 20 aminoácidos, por cerca de 25 aminoácidos, por cerca de 30 aminoácidos, por cerca de 40 aminoácidos, por cerca de 50 aminoácidos, por cerca de 75 aminoácidos, por cerca de 100 aminoácidos ou mais.
[00261] Em algumas modalidades, o domínio Cas9 é uma nickase Cas9. A nickase Cas9 pode ser uma proteína Cas9 que é capaz de clivar apenas um filamento de uma molécula de ácido nucleico duplexado (por exemplo, uma molécula de DNA duplexado). Em algumas modalidades, a nickase Cas9 cliva o filamento alvo de uma molécula de ácido nucleico duplexada, o que significa que a nickase Cas9 cliva o filamento que é emparelhado com base em (complementar a) um gRNA (por exemplo, um sgRNA) que está ligado ao Cas9. Em algumas modalidades, uma nickase Cas9 compreende uma mutação D10A e tem uma histidina na posição 840. Em algumas modalidades, a nickase Cas9 cliva o filamento não alvo e não editado de base de uma molécula de ácido nucleico duplexada, o que significa que a nickase Cas9 cliva o filamento que não é emparelhado por base a um gRNA (por exemplo, um sgRNA) que está ligado ao Cas9. Em algumas modalidades, uma nickase Cas9 compreende uma mutação H840A e tem um resíduo de ácido aspártico na posição 10 ou uma mutação correspondente. Em algumas modalidades, a nickase Cas9 compreende uma sequência de aminoácidos que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntica a qualquer uma das nickases Cas9 fornecidas neste documento. As nickases Cas9 adicionais adequadas serão aparentes para aqueles versados na técnica com base nesta divulgação e conhecimento na área e estão dentro do escopo desta divulgação.
[00262] A sequência de aminoácidos de uma nickase Cas9 cataliticamente exemplar (nCas9) é a seguinte: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIG ALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF FHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD
[00263] Em algumas modalidades, Cas9 refere-se a uma Cas9 de arqueia (por exemplo, nanoarqueia), que constitui um domínio e reino de micróbios procarióticos unicelulares. Em algumas modalidades, a proteína de ligação de nucleotídeo programável pode ser uma proteína CasX ou CasY, que foi descrita em, por exemplo, Burstein et al., "New CRISPR-Cas systems from uncultivated microbes". Cell Res. 2017, 21 de fevereiro, doi: 10.1038/cr.2017.21, todo o conteúdo do qual é incorporado por meio deste por referência. Usando metagenômica resolvida por genoma, uma série de sistemas CRISPR-Cas foi identificada, incluindo a primeira Cas9 relatada no domínio arqueia da vida. Esta proteína Cas9 divergente foi encontrada em nanoarqueias pouco estudadas como parte de um sistema CRISPR-Cas ativo. Em bactérias, dois sistemas até então desconhecidos eram descobertos, CRISPR-CasX e CRISPR-CasY, que estão entre os sistemas mais compactos já descobertos. Em algumas modalidades, em um sistema de editor de base aqui descrito, Cas9 é substituída por CasX ou uma variante de CasX. Em algumas modalidades, em um sistema de editor de base aqui descrito, Cas9 é substituída por CasY ou uma variante de CasY. Deve ser apreciado que outras proteínas de ligação a DNA guiadas por RNA podem ser usadas como uma proteína de ligação a DNA programável de ácido nucleico (napDNAbp) e estão dentro do escopo desta divulgação.
[00264] Em algumas modalidades, a proteína de ligação de DNA programável de ácido nucleico (napDNAbp) de qualquer uma das proteínas de fusão aqui fornecidas pode ser uma proteína CasX ou CasY. Em algumas modalidades, o napDNAbp é uma proteína CasX. Em algumas modalidades, o napDNAbp é uma proteína CasY. Em algumas modalidades, o napDNAbp compreende uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou facilmente 99,5% idêntica a uma proteína CasX ou CasY de ocorrência natural. Em algumas modalidades, a proteína de ligação de nucleotídeo programável é uma proteína CasX ou CasY de ocorrência natural. Em algumas modalidades, a proteína de ligação de nucleotídeo programável compreende uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95% , pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou facilmente 99,5% idêntico a qualquer proteína CasX ou CasY aqui descrita. Deve ser apreciado que CasX e CasY de outras espécies bacterianas também podem ser usados de acordo com a presente divulgação.
[00265] Uma sequência de aminoácido de CasX exemplar ((uniprot.org/uniprot/F0NN87; uniprot.org/uniprot/F0NH53) proteína CasX associada a tr|F0NN87|F0NN87_SULIHCRISPR OS = Sulfolobus islandicus (cepa HVE10/4) GN = SiH_0402 PE=4 SV=1) é como segue: MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAK NNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCY NFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERT RRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILY SLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVG QNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLA NYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGE LIRGEG.
[00266] Uma sequência de aminoácido de CasX exemplar (proteína associada a >tr|F0NH53|F0NH53_SULIR CRISPR, Casx OS = Sulfolobus islandicus (cepa REY15A) GN=SiRe_0771 PE=4 SV=1) é como segue: MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAK NNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCY NFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERT RRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGIL YSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAV GQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVL ANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNG ELIRGEG. Deltaproteobacteria CasX MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRR KKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVG LMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKL EQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGK FGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMG TIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQ PHTKEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFP SFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNT ILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDW GKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKA SFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISG FSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDI KKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWN DLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPS NIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEG YKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLF YHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAY EGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGW ATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISK WTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIA RSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
[00267] Uma sequência de aminoácido CasY exemplar ((ncbi. nlm.nih.gov/protein/APG80656.1) proteína CasY associada a >APG 80656.1 CRISPR [bacteria do grupo Parcubacteria não cultuvada]) é como segue: MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTV PREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQ YGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFL NKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKD AGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVN NNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLG EGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKL REPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKK AKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRR FLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDE KETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKA VEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPI VKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIA KAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTET QLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGL AGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFL DLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDG GVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQF LEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGS ERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILD QNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRN RIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADK NLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQEL IGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMR GNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLK NIKVLGQMKKI
[00268] A nuclease Cas9 tem dois domínios de endonuclease funcionais: RuvC e HNH. Cas9 sofre uma mudança conformacional após a ligação ao alvo que posiciona os domínios nuclease para clivar filamentos opostos do DNA alvo. O resultado final da clivagem de DNA mediada por Cas9 é uma quebra de fita dupla (DSB) dentro do DNA alvo (~3-4 nucleotídeos a montante da sequência PAM). A DSB resultante é então reparado por uma das duas vias gerais de reparo: (1) a via de junção de extremidades não homólogas (NHEJ) eficiente, mas sujeita a erros; ou (2) a via de reparo dirigido por homologia (HDR) menos eficiente, mas de alta fidelidade.
[00269] A "eficiência" de união de extremidade não homóloga (NHEJ) e/ou reparo dirigido por homologia (HDR) pode ser calculado por qualquer método conveniente. Por exemplo, em algumas modalidades, a eficiência pode ser expressa em termos de porcentagem de HDR bem-sucedido. Por exemplo, um ensaio de nuclease de topógrafo pode ser usado para gerar produtos de clivagem e a razão de produtos para substrato pode ser usada para calcular a porcentagem. Por exemplo, pode ser usada uma enzima de nuclease pesquisadora que cliva diretamente o DNA contendo uma sequência de restrição recém-integrada como resultado de HDR bem- sucedido. Mais substrato clivado indica uma maior porcentagem de HDR (uma maior eficiência de HDR). Como um exemplo ilustrativo, uma fração (porcentagem) de HDR pode ser calculada usando a seguinte equação [(produtos de clivagem)/(substrato mais produtos de clivagem)] (por exemplo, (b + c)/(a + b + c), onde "A" é a intensidade da banda do substrato de DNA e "b" e "c" são os produtos de clivagem).
[00270] Em algumas modalidades, a eficiência pode ser expressa em termos de porcentagem de NHEJ bem-sucedido. Por exemplo, um ensaio de endonuclease I de T7 pode ser usado para gerar produtos de clivagem e a proporção de produtos para substrato pode ser usada para calcular a porcentagem de NHEJ. A endonuclease I de T7 cliva o DNA heteroduplex incompatível que surge da hibridização de filamentos de DNA de tipo selvagem e mutante (NHEJ gera pequenas inserções ou deleções aleatórias (indels) no sítio de quebra original). Mais clivagem, indica uma porcentagem maior de NHEJ (uma maior eficiência de NHEJ). Como um exemplo ilustrativo, uma fração (porcentagem) de NHEJ pode ser calculada usando a seguinte equação: (1- (1- (b + c)/(a + b + c))1/2) x 100, onde "a" é a intensidade de banda do substrato de DNA e "b" e "c" são os produtos de clivagem (Ran et. al., Cell. 12 de setembro de 2013; 154 (6): 1380-9; e Ran et al., Nat Protoc. Nov de 2013; 8 (11): 2281-2308).
[00271] A via de reparo NHEJ é o mecanismo de reparo mais ativo e frequentemente causa pequenas inserções ou deleções de nucleotídeos (indels) no sítio DSB. A aleatoriedade do reparo DSB mediado por NHEJ tem implicações práticas importantes, porque uma população de células que expressam Cas9 e um gRNA ou um polinucleotídeo guia pode resultar em uma matriz diversificada de mutações. Na maioria dos casos, NHEJ dá origem a pequenos indels no DNA alvo que resultam em deleções, inserções de aminoácidos ou mutações de deslocamento de quadro levando a códons de parada prematuros dentro do quadro de leitura aberto (ORF) do gene alvo. O resultado final ideal é uma mutação de perda de função dentro do gene alvo.
[00272] Embora o reparo DSB mediado por NHEJ muitas vezes interrompa a estrutura de leitura aberta do gene, o reparo direcionado por homologia (HDR) pode ser usado para gerar alterações de nucleotídeo específicas que variam de uma única alteração de nucleotídeo a grandes inserções como a adição de um fluoróforo ou marcador. A fim de utilizar HDR para edição de genes, um modelo de reparo de DNA contendo a sequência desejada pode ser entregue no tipo de célula de interesse com o (s) gRNA (s) e Cas9 ou nickase Cas9. O modelo de reparo pode conter a edição desejada, bem como sequência homóloga adicional imediatamente a montante e a jusante do alvo (denominados braços de homologia esquerdo e direito). O comprimento de cada braço de homologia pode depender do tamanho da mudança que está sendo introduzida, com inserções maiores exigindo braços de homologia mais longos. O molde de reparo pode ser um oligonucleotídeo de fita simples, oligonucleotídeo de fita dupla ou um plasmídeo de DNA de fita dupla. A eficiência de HDR é geralmente baixa (<10% dos alelos modificados), mesmo em células que expressam Cas9, gRNA e um modelo de reparo exógeno. A eficiência do HDR pode ser aumentada sincronizando as células, uma vez que o HDR ocorre durante as fases S e G2 do ciclo celular. Genes quimicamente ou geneticamente inibidores envolvidos em NHEJ também podem aumentar a frequência de HDR.
[00273] Em algumas modalidades, Cas9 é uma Cas9 modificada. Uma determinada sequência de direcionamento de gRNA pode ter sítios adicionais em todo o genoma onde existe homologia parcial. Esses sítios são chamados fora de alvo e precisam ser considerados ao projetar um gRNA. Além de otimizar o projeto de gRNA, a especificidade CRISPR também pode ser aumentada por meio de modificações na Cas9. Cas9 gera quebras de fita dupla (DSBs) através da atividade combinada de dois domínios nuclease, RuvC e HNH. Nickase Cas9, um mutante D10A de SpCas9, retém um domínio nuclease e gera um corte de DNA em vez de um DSB. O sistema de nickase também pode ser combinado com edição de genes mediada por HDR para edições de genes específicos.
[00274] Em algumas modalidades, Cas9 é uma proteína Cas9 variante. Um polipeptídeo Cas9 variante tem uma sequência de aminoácidos que é diferente por um aminoácido (por exemplo, tem uma deleção, inserção, substituição, fusão) quando comparado com a sequência de aminoácidos de uma proteína Cas9 de tipo selvagem. Em alguns casos, o polipeptídeo Cas9 variante tem uma alteração de aminoácido (por exemplo, deleção, inserção ou substituição) que reduz a atividade de nuclease do polipeptídeo Cas9. Por exemplo, em alguns casos, o polipeptídeo Cas9 variante tem menos de 50%, menos de 40%, menos de 30%, menos de 20%, menos de 10%, menos de 5% ou menos de 1% da atividade nuclease da proteína Cas9 de tipo selvagem correspondente. Em algumas modalidades, a proteína Cas9 variante não tem atividade de nuclease substancial. Quando uma proteína Cas9 em questão é uma proteína Cas9 variante que não tem atividade de nuclease substancial, ela pode ser referida como "dCas9".
[00275] Em algumas modalidades, uma proteína Cas9 variante tem atividade de nuclease reduzida. Por exemplo, uma proteína Cas9 variante exibe menos do que cerca de 20%, menos do que cerca de 15%, menos do que cerca de 10%, menos do que cerca de 5%, menos do que cerca de 1%, ou menos do que cerca de 0,1%, da atividade de endonuclease de uma proteína Cas9 de tipo selvagem, por exemplo, uma proteína Cas9 de tipo selvagem.
[00276] Em algumas modalidades, uma proteína Cas9 variante pode clivar o filamento complementar de uma sequência alvo guia, mas tem capacidade reduzida de clivar o filamento não complementar de uma sequência alvo guia de fita dupla. Por exemplo, a proteína Cas9 variante pode ter uma mutação (substituição de aminoácido) que reduz a função do domínio RuvC. Como um exemplo não limitativo, em algumas modalidades, uma proteína Cas9 variante tem um D10A (aspartato para alanina na posição de aminoácido 10) e pode, portanto, clivar o filamento complementar de uma sequência alvo guia de fita dupla, mas tem capacidade reduzida para clivar o filamento não complementar de uma sequência alvo guia de fita dupla (resultando assim em uma quebra de fita simples (SSB) em vez de uma quebra de fita dupla (DSB) quando a proteína Cas9 variante cliva um ácido nucleico alvo de fita dupla) (vide, por exemplo, Jinek et al., Science. 17 de agosto de 2012; 337 (6096): 816-21).
[00277] Em algumas modalidades, uma proteína Cas9 variante pode clivar o filamento não complementar de uma sequência alvo guia de fita dupla, mas tem capacidade reduzida de clivar o filamento complementar da sequência alvo guia. Por exemplo, a proteína Cas9 variante pode ter uma mutação (substituição de aminoácido) que reduz a função do domínio HNH (motivos de domínio RuvC/HNH/RuvC). Como um exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante tem uma mutação H840A (histidina para alanina na posição de aminoácido 840) e pode, portanto, clivar o filamento não complementar da sequência alvo guia, mas tem capacidade reduzida de clivar o filamento complementar da sequência alvo guia (resultando assim em um SSB em vez de um DSB quando a proteína Cas9 variante cliva uma sequência alvo guia de fita dupla). Tal proteína Cas9 tem uma capacidade reduzida de clivar uma sequência alvo guia (por exemplo, uma sequência alvo guia de fita simples), mas retém a capacidade de se ligar a uma sequência alvo guia (por exemplo, uma sequência alvo guia de fita simples).
[00278] Em algumas modalidades, uma proteína Cas9 variante tem uma capacidade reduzida de clivar os filamentos complementares e não complementares de um DNA alvo de fita dupla. Como um exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante abriga as mutações D10A e H840A de modo que o polipeptídeo tenha uma capacidade reduzida de clivar os filamentos complementar e não complementar de um DNA alvo de fita dupla. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples).
[00279] Como outro exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante abriga mutações W476A e W1126A de modo que o polipeptídeo tenha uma capacidade reduzida de clivar um DNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples).
[00280] Como outro exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante abriga mutações P475A, W476A, N477A, D1125A, W1126A e D1127A de modo que o polipeptídeo tenha uma capacidade reduzida de clivar um DNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples).
[00281] Como outro exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante abriga H840A, W476A e W1126A, mutações de modo que o polipeptídeo tem uma capacidade reduzida de clivar um DNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples). Como outro exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante abriga H840A, D10A, W476A e W1126A, mutações de modo que o polipeptídeo tenha uma capacidade reduzida de clivar um DNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples). Em algumas modalidades, a variante Cas9 restaurou o resíduo catalítico de His na posição 840 no domínio Cas9 HNH (A840H).
[00282] Como outro exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante abriga mutações H840A, P475A, W476A, N477A, D1125A, W1126A e D1127A, de modo que o polipeptídeo tem uma capacidade reduzida de clivar um DNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples). Como outro exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante abriga mutações D10A, H840A, P475A, W476A, N477A, D1125A, W1126A e D1127A, de modo que o polipeptídeo tenha uma capacidade reduzida de clivar um DNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples). Em algumas modalidades, quando uma proteína Cas9 variante abriga mutações W476A e W1126A ou quando a proteína Cas9 variante abriga mutações P475A, W476A, N477A, D1125A, W1126A e D1127A, a proteína Cas9 variante não se liga de forma eficiente a uma sequência PAM. Assim, em alguns desses casos, quando tal proteína Cas9 variante é usada em um método de ligação, o método não requer uma sequência PAM. Em outras palavras, em algumas modalidades, quando tal proteína Cas9 variante é usada em um método de ligação, o método pode incluir um RNA guia, mas o método pode ser realizado na ausência de uma sequência PAM (e a especificidade de ligação é, portanto, fornecido pelo segmento de direcionamento do RNA guia). Outros resíduos podem ser mutados para atingir os efeitos acima (isto é, inativar uma ou as outras porções de nuclease). Como exemplos não limitativos, resíduos D10, G12, G17, E762, H840, N854, N863, H982, H983, A984, D986 e/ou A987, por exemplo, pode ser alterado (ou seja, substituído). Além disso, outras mutações além das substituições de alanina são adequadas.
[00283] Em algumas modalidades, uma proteína Cas9 variante que reduziu a atividade catalítica (por exemplo, quando uma proteína Cas9 tem um uma mutação D10, G12, G17, E762, H840, N854, N863, H982, H983, A984, D986 e/ou A987, por exemplo, D10A, G12A, G17A, E762A, H840A, N854A, N863A, H982A, H983A, A984A, e/ou D986A), a proteína Cas9 variante ainda pode se ligar ao DNA alvo de uma maneira específica do local (porque ainda é guiado para uma sequência de DNA alvo por um RNA guia), desde que retenha a capacidade de interagir com o RNA guia.
[00284] Em algumas modalidades, a proteína Cas variante pode ser spCas9, spCas9-VRQR, spCas9-VRER, xCas9 (sp), saCas9, saCas9- KKH, spCas9-MQKSER, spCas9-LRKIQK ou spCas9-LRVSQL.
[00285] Em algumas modalidades, um SpCas9 modificado incluindo substituições de aminoácidos D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E e T1337R (SpCas9-MQKFRAER) e tendo especificidade para o PAM 5'-NGC-3’ alterado foi usado.
[00286] Alternativas para Cas9 de S. pyogenes podem incluir endonucleases guiadas por RNA da família Cpf1 que apresentam atividade de clivagem em células de mamíferos. CRISPR da Prevotella e Francisella 1 (CRISPR/Cpf1) é uma tecnologia de edição de DNA análoga ao sistema CRISPR/Cas9. Cpf1 é uma endonuclease guiada por RNA de um sistema CRISPR/Cas de classe II. Este mecanismo imunológico adquirido é encontrado nas bactérias Prevotella e Francisella. Os genes Cpf1 estão associados ao locus CRISPR, codificando uma endonuclease que usa um RNA guia para encontrar e clivar o DNA viral. Cpf1 é uma endonuclease menor e mais simples do que Cas9, superando algumas das limitações do sistema CRISPR/Cas9. Ao contrário das nucleases Cas9, o resultado da clivagem de DNA mediada por Cpf1 é uma quebra de fita dupla com uma pequena saliência 3’. O padrão de clivagem escalonado de Cpf1 pode abrir a possibilidade de transferência de gene direcional, análogo à clonagem de enzima de restrição tradicional, que pode aumentar a eficiência da edição de gene. Como as variantes de Cas9 e ortólogos descritos acima, Cpf1 também pode expandir o número de sites que podem ser direcionados por CRISPR para regiões ricas em AT ou genomas ricos em AT que não possuem os sites NGG PAM favorecidos por SpCas9. O locus Cpf1 contém um domínio alfa/beta misto, um RuvC-I seguido por uma região helicoidal, um RuvC-II e um domínio semelhante a um dedo de zinco. A proteína Cpf1 tem um domínio endonuclease semelhante a RuvC que é semelhante ao domínio RuvC de Cas9. Além disso, Cpf1 não tem um domínio endonuclease HNH, e o N-terminal de Cpf1 não tem o lóbulo de reconhecimento alfa-helicoidal de Cas9. A arquitetura do domínio Cpf1 CRISPR-Cas mostra que o Cpf1 é funcionalmente único, sendo classificado como sistema CRISPR Classe 2, tipo V. Os loci Cpf1 codificam proteínas Cas1, Cas2 e Cas4 mais semelhantes aos tipos I e III do que nos sistemas do tipo II. Cpf1 funcional não precisa do RNA CRISPR de transativação (tracrRNA), portanto, apenas CRISPR (crRNA) é necessário. Isso beneficia a edição do genoma porque Cpf1 não é apenas menor que Cas9, mas também tem uma molécula de sgRNA menor (aproximadamente metade dos nucleotídeos de Cas9). O complexo Cpf1-crRNA cliva DNA ou RNA alvo por identificação de um protoespaçador motivo adjacente 5'-YTN-3’ em contraste com o PAM rico em G direcionado por Cas9. Após a identificação de PAM, Cpf1 introduz uma quebra de fita dupla de DNA tipo extremidade pegajosa com saliência de 4 ou 5 nucleotídeos.
Domínios Cas12 de Editores de Nucleobase
[00287] Normalmente, os sistemas CRISPR-Cas microbianos são divididos em sistemas de Classe 1 e Classe 2. Os sistemas de Classe 1 têm complexos efetores de várias subunidades, enquanto os sistemas de Classe 2 têm um único efetor de proteína. Por exemplo, Cas9 e Cpf1 são efetores de Classe 2, embora de tipos diferentes (Tipo II e Tipo V, respectivamente). Além de Cpf1, Classe 2, os sistemas CRISPR-Cas Tipo V também compreendem Cas12a/Cpfl, Cas12b/C2cl, Cas12c/ C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h e Cas12i). Vide, por exemplo, Shmakov et al., "Discovery and Functional Characterization of Diverse Class 2 CRISPR Cas Systems," Mol. Cell, 5 de novembro de 2015; 60 (3): 385-397; Makarova et al., "Classification and Nomenclature of CRISPR-Cas Systems: Where from Here?" CRISPR Journal, 2018, 1(5): 325-336; e Yan et al., "Functionally Diverse Type V CRISPR-Cas Systems," Science, Janeiro de 2019. 4; 363: 88-91; todo o conteúdo de cada um é aqui incorporado por referência. As proteínas Cas do tipo V contêm um domínio endonuclease RuvC (ou semelhante a RuvC). Embora a produção de RNA CRISPR maduro (crRNA) seja geralmente independente de tracrRNA, Cas12b/C2c1, por exemplo, requer tracrRNA para a produção de crRNA. Cas12b/C2c1 depende de crRNA e tracrRNA para clivagem de DNA.
[00288] As proteínas de ligação de DNA programáveis de ácido nucleico contempladas na presente invenção incluem proteínas Cas que são classificadas como Classe 2, Tipo V (proteínas Cas12). Exemplos não limitativos de proteínas Cas Classe 2, Tipo V incluem Cas12a/ Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h e Cas12i, homólogos dos mesmos ou versões modificadas dos mesmos. Tal como aqui utilizado, uma proteína Cas12 também pode ser referida como uma nuclease Cas12, um domínio Cas12 ou um domínio de proteína Cas12. Em algumas modalidades, as proteínas Cas12 da presente invenção compreendem uma sequência de aminoácidos interrompida por um domínio de proteína fundida internamente, como um domínio de desaminase.
[00289] Em algumas modalidades, o domínio Cas12 é um domínio Cas12 inativo de nuclease ou uma nickase Cas12. Em algumas modalidades, o domínio Cas12 é um domínio nuclease ativo. Por exemplo, o domínio Cas12 pode ser um domínio Cas12 que corta um filamento de um ácido nucleico duplexado (por exemplo, molécula de DNA duplexado). Em algumas modalidades, o domínio Cas12 compreende qualquer uma das sequências de aminoácidos conforme estabelecido neste documento. Em algumas modalidades, o domínio Cas12 compreende uma sequência de aminoácidos que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntico a qualquer uma das sequências de aminoácidos aqui estabelecidas. Em algumas modalidades, o domínio Cas12 compreende uma sequência de aminoácidos que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais mutações em comparação com qualquer uma das sequências de aminoácidos apresentadas aqui. Em algumas modalidades, o domínio Cas12 compreende uma sequência de aminoácidos que tem pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 30, pelo menos 40, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 150, pelo menos 200, pelo menos 250, pelo menos 300, pelo menos 350, pelo menos 400, pelo menos 500, pelo menos 600, pelo menos 700, pelo menos 800, pelo menos 900, pelo menos 1000, pelo menos 1100, ou pelo menos 1200 resíduos de aminoácidos contíguos idênticos em comparação com qualquer uma das sequências de aminoácidos aqui estabelecidas.
[00290] Em algumas modalidades, são fornecidas proteínas que compreendem fragmentos de Cas12. Por exemplo, em algumas modalidades, uma proteína compreende um de dois domínios Cas12: (1) o domínio de ligação de gRNA de Cas12; ou (2) o domínio de clivagem de DNA de Cas12. Em algumas modalidades, as proteínas que compreendem Cas12 ou fragmentos dos mesmos são referidas como "variantes de Cas12". Uma variante de Cas12 compartilha homologia com Cas12, ou um fragmento do mesmo. Por exemplo, uma variante Cas12 é pelo menos cerca de 70% idêntica, pelo menos cerca de 80% idêntica, pelo menos cerca de 90% idêntica, pelo menos cerca de 95% idêntica, pelo menos cerca de 96% idêntica, pelo menos cerca de 97% idêntica, em pelo menos cerca de 98% idêntico, pelo menos cerca de 99% idêntico, pelo menos cerca de 99,5% idêntico ou pelo menos cerca de 99,9% idêntico ao Cas12 de tipo selvagem. Em algumas modalidades, a variante Cas12 pode ter 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais alterações de aminoácidos em comparação com Cas12 de tipo selvagem. Em algumas modalidades, a variante Cas12 compreende um fragmento de Cas12 (por exemplo, um domínio de ligação de gRNA ou um domínio de clivagem de DNA), de modo que o fragmento seja pelo menos cerca de 70% idêntico, pelo menos cerca de 80% idêntico, pelo menos cerca de 90% idêntico, pelo menos cerca de 95% idêntico, pelo menos cerca de 96% idêntico, pelo menos cerca de 97% idêntico, pelo menos cerca de 98% idêntico, pelo menos cerca de 99% idêntico, pelo menos cerca de 99,5% idêntico ou pelo menos cerca de 99,9% idêntico ao fragmento correspondente de Cas12 de tipo selvagem. Em algumas modalidades, o fragmento é pelo menos 30%, pelo menos 35%, pelo menos 40%, pelo menos 45%, pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65%, pelo menos 70 %, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95% idêntico, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos pelo menos 99,5% do comprimento de aminoácido de um Cas12 de tipo selvagem correspondente. Em algumas modalidades, o fragmento tem pelo menos 100 aminoácidos de comprimento. Em algumas modalidades, o fragmento é de pelo menos 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250 ou pelo menos 1300 aminoácidos de comprimento.
[00291] Em algumas modalidades, Cas12 corresponde a, ou compreende em parte ou no todo, uma sequência de aminoácidos Cas12 com uma ou mais mutações que alteram a atividade nuclease Cas12. Tais mutações, a título de exemplo, incluem substituições de aminoácidos no domínio nuclease RuvC de Cas12. Em algumas modalidades, são fornecidas variantes ou homólogos de Cas12 que são pelo menos cerca de 70% idêntico, pelo menos cerca de 80% idêntico, pelo menos cerca de 90% idêntico, pelo menos cerca de 95% idêntico, pelo menos cerca de 98% idêntico, pelo menos cerca de 99% idêntico, pelo menos cerca de 99,5% idêntico, ou pelo menos cerca de 99,9% idêntico a um Cas12 de tipo selvagem. Em algumas modalidades, as variantes de Cas12 são fornecidas com sequências de aminoácidos que são mais curtas, ou mais longas, por cerca de 5 aminoácidos, por cerca de 10 aminoácidos, por cerca de 15 aminoácidos, por cerca de 20 aminoácidos, por cerca de 25 aminoácidos, por cerca de 30 aminoácidos, por cerca de 40 aminoácidos, por cerca de 50 aminoácidos, por cerca de 75 aminoácidos, por cerca de 100 aminoácidos ou mais.
[00292] Em algumas modalidades, as proteínas de fusão conforme fornecidas neste documento, compreendem a sequência de aminoácidos de comprimento completo de uma proteína Cas12, por exemplo, uma das sequências Cas12 aqui fornecidas. Em outras modalidades, no entanto, as proteínas de fusão, conforme fornecidas neste documento, não compreendem uma sequência Cas12 de comprimento completo, mas apenas um ou mais fragmentos das mesmas. Sequências de aminoácidos exemplares de domínios Cas12 adequados são fornecidas aqui, e sequências adequadas adicionais de domínios Cas12 e fragmentos serão aparentes para aqueles versados na técnica.
[00293] Geralmente, as proteínas Cas de classe 2, Tipo V têm um único domínio endonuclease RuvC funcional (vide, por exemplo, Chen et al., "A ligação do alvo CRISPR-Cas12a desencadeia atividade indiscriminada de DNase de fita simples", Science 360: 436-439 (2018)). Em alguns casos, a proteína Cas12 é uma proteína Cas12b variante. (Vide Strecker et al., Nature Communications, 2019, 10 (1): Art. No.: 212). Em uma modalidade, um polipeptídeo Cas12 variante tem uma sequência de aminoácidos que é diferente por 1, 2, 3, 4, 5 ou mais aminoácidos (por exemplo, tem uma deleção, inserção, substituição, fusão) em comparação com a sequência de aminoácidos de uma proteína Cas12 de tipo selvagem. Em alguns casos, o polipeptídeo Cas12 variante tem um aminoácido mudança de ácido (por exemplo, deleção, inserção ou substituição) que reduz a atividade do polipeptídeo Cas12. Por exemplo, em alguns casos, a variante Cas12 é um polipeptídeo Cas12b que tem menos de 50%, menos de 40%, menos de 30%, menos de 20%, menos de 10%, menos de 5% ou menos de 1 % da atividade nickase da proteína Cas12b de tipo selvagem correspondente. Em alguns casos, a proteína Cas12b variante não tem atividade nickase substancial.
[00294] Em alguns casos, uma proteína Cas12b variante reduziu a atividade nickase. Por exemplo, uma proteína Cas12b variante exibe menos do que cerca de 20%, menos do que cerca de 15%, menos do que cerca de 10%, menos do que cerca de 5%, menos do que cerca de 1%, ou menos do que cerca de 0,1%, da atividade nickase de uma proteína Cas12b de tipo selvagem.
[00295] Em algumas modalidades, a proteína Cas12 inclui endonucleases guiadas por RNA da família Cas12a/Cpf1 que exibe atividade em células de mamíferos. CRISPR da Prevotella e Francisella 1 (CRISPR/Cpf1) é uma tecnologia de edição de DNA análoga ao sistema CRISPR/Cas9. Cpf1 é uma endonuclease guiada por RNA de um sistema CRISPR/Cas de classe II. Este mecanismo imunológico adquirido é encontrado nas bactérias Prevotella e Francisella. Os genes Cpf1 estão associados ao locus CRISPR, codificando uma endonuclease que usa um RNA guia para encontrar e clivar o DNA viral. Cpf1 é uma endonuclease menor e mais simples do que Cas9, superando algumas das limitações do sistema CRISPR/Cas9. Ao contrário das nucleases Cas9, o resultado da clivagem de DNA mediada por Cpf1 é uma quebra de fita dupla com uma pequena saliência 3’. O padrão de clivagem escalonado de Cpf1 pode abrir a possibilidade de transferência de gene direcional, análogo à clonagem de enzima de restrição tradicional, que pode aumentar a eficiência da edição de gene. Como as variantes de Cas9 e ortólogos descritos acima, Cpf1 também pode expandir o número de sítios que podem ser direcionados por CRISPR para regiões ricas em AT ou genomas ricos em AT que não possuem os sites NGG PAM favorecidos por SpCas9. O locus Cpf1 contém um domínio alfa/beta misto, um RuvC-I seguido por uma região helicoidal, um RuvC-II e um domínio semelhante a um dedo de zinco. A proteína Cpf1 tem um domínio endonuclease semelhante a RuvC que é semelhante ao domínio RuvC de Cas9. Além disso, Cpf1, ao contrário de Cas9, não tem um domínio endonuclease HNH e o N-terminal de Cpf1 não tem o lóbulo de reconhecimento alfa-helicoidal de Cas9. A arquitetura do domínio Cpf1 CRISPR-Cas mostra que o Cpf1 é funcionalmente único, sendo classificado como sistema CRISPR Classe 2, tipo V. Os loci Cpf1 codificam proteínas Cas1, Cas2 e Cas4 são mais semelhantes aos tipos I e III do que os sistemas do tipo II. Cpf1 funcional não requer o RNA transativador CRISPR (tracrRNA), portanto, apenas CRISPR (crRNA) é necessário. Isso beneficia a edição do genoma porque Cpf1 não é apenas menor que Cas9, mas também tem uma molécula de sgRNA menor (aproximadamente metade dos nucleotídeos de Cas9). O complexo Cpf1-crRNA cliva DNA ou RNA alvo por identificação de um protoespaçador motivo adjacente 5'-YTN-3’ou 5'-TTTN-3’ em contraste com o PAM rico em G direcionado por Cas9. Após a identificação de PAM, Cpf1 introduz uma quebra de fita dupla de DNA tipo extremidade pegajosa com uma saliência de 4 ou 5 nucleotídeos.
[00296] Em alguns aspectos da presente invenção, um vetor codifica uma enzima CRISPR que é mutada em relação a uma enzima de tipo selvagem correspondente, de modo que a enzima CRISPR mutada não tem a capacidade de clivar uma ou ambos os filamentos de um polinucleotídeo alvo contendo uma sequência alvo pode ser usado. Cas12 pode referir-se a um polipeptídeo com pelo menos ou pelo menos cerca de 50%, 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98 %, 99% ou 100% de identidade de sequência e/ou homologia de sequência com um polipeptídeo Cas12 exemplar de tipo selvagem (por exemplo, Cas12 de Bacillus hisashii). Cas12 pode referir-se a um polipeptídeo com no máximo ou no máximo cerca de 50%, 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98 %, 99% ou 100% de identidade de sequência e/ou homologia de sequência com um polipeptídeo Cas12 exemplar de tipo selvagem (por exemplo, de Bacillus hisashii (BhCas12b), Bacillus sp. V3-13 (BvCas12b) e Bacillus thermoamylovorans (AaCas12b)). Cas12 pode referir-se ao tipo selvagem ou a uma forma modificada da proteína Cas12 que pode compreender uma alteração de aminoácido, como uma deleção, inserção, substituição, variante, mutação, fusão, quimera ou qualquer combinação dos mesmos.
Proteínas de ligação de DNA programáveis de ácido nucleico
[00297] Alguns aspectos da divulgação fornecem proteínas de fusão compreendendo domínios que atuam como proteínas de ligação de DNA programáveis de ácido nucleico, que podem ser usadas para guiar uma proteína, como um editor de base, para uma sequência de ácido nucleico específica (por exemplo, DNA ou RNA). Em modalidades particulares, uma proteína de fusão compreende um domínio de proteína de ligação de DNA programável de ácido nucleico e um domínio de desaminase. Exemplos não limitativos de proteínas de ligação de DNA programáveis de ácido nucleico incluem Cas9 (por exemplo, dCas9 e nCas9), Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h e Cas12i. Exemplos não limitativos de enzimas Cas incluem Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5d, Cas5t, Cas5h, Cas5a, Cas6, Cas7, Cas8, Cas8a, Cas8b, Cas8c, Cas9 (também conhecido como Csn1 ou Csx12), Cas10, Cas10d, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/ CasY, Cas12e/CasX, Cas12g, Cas12h, Cas12i, Csy1, Csy2, Csy3, Csy4, Cse1, Cse2, Cse3, Cse4, Cse5e, Csc1, Csc2, Csa5, Csn1, Csn2, Csm1, Csm3, Csm3, Csm3, Csm3, Csm3, Csm3, Csm3, Csm3 Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx1S, Csx11, Csf1, Csx10, Csx16, CsaX, Csx3, Csx1, Csx1S, Csx11, Csf1, Csf2, CsdO, Csd1, Csd2, Csd1, Csd2, Csd1, Csd2, Csd1, Csd2, Csd2, Csd1, Csd2, Csd1, Csx11, Csf1, Csf2, Csx11, Csf1, Csx11, Csf1, Csx11, Csf1, Csx11, Csx1, Csx17, Csf1, Csf2, Csx1 Cst2, Csh1, Csh2, Csa1, Csa2, Csa3, Csa4, Csa5, proteínas efetoras Cas Tipo II, proteínas efetoras Cas Tipo V, proteínas efetoras Cas Tipo VI, CARF, DinG, homólogos dos mesmos, ou versões modificadas ou projetadas dos mesmos. Outras proteínas de ligação de DNA programáveis de ácido nucleico também estão dentro do escopo desta divulgação, embora possam não ser listadas especificamente nesta divulgação. Vide, por exemplo, Makarova et al. "Classification and Nomenclature of CRISPR-Cas Systems: Where from Here?" CRISPR J. 2018 Oct;1:325-336. doi: 10.1089/crispr. 2018.0033; Yan et al., "Functionally diverse type V CRISPR-Cas systems" Science. 2019 Jan 4;363(6422):88-91. doi: 10.1126/science.aav 7271, todo o conteúdo de cada um é aqui incorporado por referência.
[00298] Um exemplo de uma proteína de ligação de DNA programável de ácido nucleico que tem especificidade de PAM diferente de Cas9 são as repetições palindrômicas curtas com espaçamento regular interespaçadas agrupadas de Prevotella e Francisella 1 (Cpf1). Semelhante à Cas9, Cpf1 também é um efetor CRISPR de classe 2. Foi demonstrado que Cpf1 medeia interferência de DNA robusta com características distintas de Cas9. Cpf1 é uma única endonuclease guiada por RNA sem tracrRNA e utiliza um motivo adjacente ao protoespaçador rico em T (TTN, TTTN ou YTN). Além disso, Cpf1 cliva o DNA por meio de uma quebra de fita dupla de DNA escalonada. Das 16 proteínas da família Cpf1, duas enzimas de Acidaminococcus e Lachnospiraceae demonstraram ter atividade eficiente de edição de genoma em células humanas. As proteínas Cpf1 são conhecidas na técnica e foram descritas anteriormente, por exemplo, Yamano et al., "Crystal structure of Cpf1 in complex with guide RNA and target DNA." Cell (165) 2016, p. 949-962; todo o conteúdo do qual é aqui incorporado por referência.
[00299] Úteis nas presentes composições e métodos são variantes nuclease Cpf1 (dCpf1) inativas que podem ser usadas como um domínio de proteína de ligação de DNA programável por sequência de nucleotídeos guia. A proteína Cpf1 tem um domínio endonuclease tipo RuvC que é semelhante ao domínio RuvC de Cas9, mas não tem um domínio endonuclease HNH, e o N-terminal de Cpf1 não tem o lóbulo de reconhecimento alfa-helicoidal de Cas9. Foi demonstrado em Zetsche et al., Cell, 163, 759-771, 2015 (que é incorporado aqui por referência) que, o domínio tipo RuvC de Cpf1 é responsável pela clivagem de ambos os filamentos de DNA e inativação do domínio tipo RuvC inativa a atividade nuclease Cpf1. Por exemplo, mutações correspondentes a D917A, E1006A ou D1255A em Cpf1 de Francisella novicida inativam a atividade nuclease Cpf1. Em algumas modalidades, dCpf1 da presente divulgação compreende mutações correspondentes a D917A, E1006A, D1255A, D917A/E1006A, D917A/D1255A, E1006A/ D1255A ou D917A/E1006A/D1255A. Deve ser entendido que quaisquer mutações, por exemplo, mutações de substituição, deleções ou inserções que inativam o domínio RuvC de Cpf1, podem ser usadas de acordo com a presente divulgação.
[00300] Em algumas modalidades, a proteína de ligação de DNA programável de ácido nucleico (napDNAbp) de qualquer uma das proteínas de fusão aqui fornecidas pode ser uma proteína Cpf1. Em algumas modalidades, a proteína Cpf1 é uma Nickase Cpf1 (nCpf1). Em algumas modalidades, a proteína Cpf1 é uma nuclease Cpf1 inativa (dCpf1). Em algumas modalidades, Cpf1, nCpf1 ou dCpf1 compreendem uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntica a uma sequência Cpf1 aqui divulgada. Em algumas modalidades, dCpf1 compreende uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou facilmente 99,5% idêntica a uma sequência Cpf1 aqui divulgada e compreende mutações correspondentes a D917A, E1006A, D1255A, D917A/E1006A, D917A/D1255A, E1006A/D1255A ou D917A/E1006A/D1255A. Deve ser apreciado que Cpf1 de outras espécies bacterianas também pode ser usado de acordo com a presente divulgação.
[00301] Cpf1 de Francisella novicida de tipo selvagem (D917, E1006 e D1255 estão em negrito e sublinhado): MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKK AKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDF KSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKD NGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPT SIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDID YKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTK RKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDD SDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFK NDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAK KTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIA QNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLK IFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPY SDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNN KIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSED ILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWK DFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAEL FYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFF FHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIK EMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQK LEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGII YYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKG YFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVY PTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMR NSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLK GLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[00302] Cpf1 de Francisella novicida D917A (A917, E1006, e D1255 estão em negrito e sublinhado): MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKK AKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDF KSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKD NGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPT SIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDID YKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTK RKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDD SDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFK NDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAK KTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIA QNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLK IFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPY SDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNN KIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSED ILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWK DFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAEL FYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFF FHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIARGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIK EMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQK LEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGII YYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKG YFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVY PTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMR NSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLK GLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[00303] Cpf1 de Francisella novicida E1006A (D917, A1006, e D1255 estão em negrito e sublinhado): MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKK AKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDF KSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKD NGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPT SIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDID YKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTK RKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDD SDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFK NDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAK KTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIA QNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLK IFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPY SDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNN KIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSED ILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWK DFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAEL FYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFF FHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIK EMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQK LEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGII YYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKG YFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVY PTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMR NSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLK GLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[00304] Cpf1 de Francisella novicida D1255A (D917, E1006, e A1255 estão em negrito e sublinhado) MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKK AKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDF KSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKD NGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPT SIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDID YKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTK RKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDD SDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFK NDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAK KTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIA QNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLK IFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPY SDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNN KIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSED ILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWK DFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAEL FYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFF FHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIK EMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQK LEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGII YYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKG YFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVY PTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMR NSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDAAANGAYHIGLK GLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[00305] Cpf1 de Francisella novicida D917A/E1006A (A917, A1006, e D1255 estão em negrito e sublinhado): MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKK AKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDF KSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKD NGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPT SIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDID YKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTK RKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDD SDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFK NDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAK KTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIA QNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLK IFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPY SDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNN KIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSED ILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWK DFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAEL FYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFF FHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIARGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIK EMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQK LEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGII YYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKG YFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVY PTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMR NSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLK GLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[00306] Cpf1 de Francisella novicida D917A/D1255A (A917, E1006, e A1255 estã em negrito e sublinhado): MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKK AKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDF KSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKD NGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPT SIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDID YKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTK RKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDD SDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFK NDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAK KTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIA QNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLK IFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPY SDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNN KIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSED ILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWK DFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAEL FYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFF FHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIARGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIK EMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQK LEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGII YYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKG YFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVY PTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMR NSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDAAANGAYHIGLK GLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[00307] Cpf1 de Francisella novicida E1006A/D1255A (D917, A1006, e A1255 estão em negrito e sublinhado): MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKK AKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDF KSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKD NGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPT SIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDID YKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTK RKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDD SDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFK NDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAK KTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIA QNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLK IFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPY SDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNN KIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSED ILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWK DFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAEL FYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFF FHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIK EMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQK LEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGII YYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKG YFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVY PTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMR NSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDAAANGAYHIGLK GLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[00308] Cpf1 de Francisella novicida D917A/E1006A/D1255A (A917, A1006, e A1255 estão em negrito esublinhado): MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKK AKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDF KSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKD NGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPT SIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDID YKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTK RKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDD SDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFK NDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAK KTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIA QNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLK IFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPY SDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNN KIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSED ILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWK DFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKL YLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAEL FYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFF FHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIARGERHLAYYTLV DGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIK EMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQK LEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGII YYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKG YFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVY PTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMR NSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDAAANGAYHIGLK GLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
[00309] Em algumas modalidades, um dos domínios Cas9 presentes na proteína de fusão pode ser substituído por um domínio de proteína de ligação de DNA programável de sequência de nucleotídeos guia que não tem requisitos para uma sequência de PAM.
[00310] Em algumas modalidades, o domínio Cas9 é um domínio Cas9 de Staphylococcus aureus (SaCas9). Em algumas modalidades, o domínio SaCas9 é uma nuclease SaCas9 ativa, uma nuclease SaCas9 inativa (SaCas9d) ou uma SaNickase Cas9 (SaCas9n). Em algumas modalidades, SaCas9 compreende uma mutação N579A ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas.
[00311] Em algumas modalidades, o domínio SaCas9, o domínio SaCas9d ou o domínio SaCas9n podem se ligar a uma sequência de ácido nucleico tendo um PAM não canônico. Em algumas modalidades, o domínio SaCas9, o domínio SaCas9d ou o domínio SaCas9n podem se ligar a uma sequência de ácido nucleico tendo uma sequência NNGRRT ou NNGRRT PAM. Em algumas modalidades, o domínio SaCas9 compreende um ou mais de um E781X, um N967X e uma mutação R1014X ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas, em que X é qualquer aminoácido. Em algumas modalidades, o domínio SaCas9 compreende um ou mais de uma mutação E781K, N967K e R1014H, ou uma ou mais mutações correspondentes em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio SaCas9 compreende uma mutação E781K, N967K ou R1014H ou mutações correspondentes em qualquer uma das sequências de aminoácidos aqui fornecidas.
[00312] Sequência SaCas9 exemplar: KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSK RGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLS QKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKA LEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYH QLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCT YFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENV FKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITA RKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKG YTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPT TLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKM INEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLE AIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRT PFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFS VQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFL RRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQ MFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPN RELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLM YHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGP VIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVY KFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLI KINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIAS KTQSIKKYSTDILGNLYEVKSKKHPQIIKKG
[00313] O resíduo N579 acima, que está sublinhado e em negrito, pode ser mutado (por exemplo, para um A579) para produzir uma nickase SaCas9.
[00314] Sequência de SaCas9n exemplar: KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSK RGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLS QKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKA LEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYH QLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCT YFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENV FKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITA RKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKG YTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPT TLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKM INEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLE AIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEEASKKGNRT PFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFS VQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFL RRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQ MFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPN RELINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLM YHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGP VIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVY KFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYNNDLI KINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPRIIKTIAS KTQSIKKYSTDILGNLYEVKSKKHPQIIKKG
[00315] O resíduo A579 acima, que pode ser mutado de N579 para render uma SaNickase Cas9, está sublinhado e em negrito.
[00316] Cas9 de SaKKH Exemplar: KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSK RGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLS QKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKA LEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYH QLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCT YFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENV FKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITA RKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKG YTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPT TLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKM INEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLE AIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEEASKKGNRT PFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFS VQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFL RRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQ MFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPN R K LINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLM YHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGP VIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVY KFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFY K NDLI KINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPP HIIKTIAS KTQSIKKYSTDILGNLYEVKSKKHPQIIKKG
[00317] O resíduo A579 acima, que pode sofrer mutação de N579 para produzir uma nickase SaCas9, está sublinhado e em negrito. Os resíduos K781, K967 e H1014 acima, que podem ser mutados de E781, N967 e R1014 para produzir uma Cas9 de SaKKH, estão sublinhados e em itálico.
[00318] Em algumas modalidades, o napDNAbp é um permutante circular. Nas sequências a seguir, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação e a sequência sublinhada indica uma sequência de localização nuclear bipartida.
[00319] CP5 (com MSP "NGC" PID e "D10A" nickase): EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDK GRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARK KDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLAS AKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQH KHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIH LFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRI DLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSV GWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATR LKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEED KKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLAL AHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGV DAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFK SNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYK EIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNRE DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKIL TFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQS FIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKP AFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVE DRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIE ERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTI LDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIAN LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELD KAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKS KLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESE FVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV*
[00320] Em algumas modalidades, a proteína de ligação de DNA programável de ácido nucleico (napDNAbp) é um único efetor de um sistema CRISPR-Cas microbiano. Efetores únicos de sistemas CRISPR- Cas microbianos incluem, sem limitação, Cas9, Cpf1, Cas12b/ C2c1 e Cas12c/C2c3. Normalmente, os sistemas CRISPR-Cas microbianos são divididos em sistemas de Classe 1 e Classe 2. Os sistemas de Classe 1 têm complexos efetores de várias subunidades, enquanto os sistemas de Classe 2 têm um único efetor de proteína. Por exemplo, Cas9 e Cpf1 são efetores de Classe 2. Além de Cas9 e Cpf1, três sistemas distintos de Classe 2 CRISPR-Cas (Cas12b/C2c1 e Cas12c/ C2c3) foram descritos por Shmakov et al., "Discovery and Functional Characterization of Diverse Class 2 CRISPR Cas Systems", Mol. Cell, 5 de novembro de 2015; 60(3): 385-397, cujo conteúdo total é aqui incorporado por referência. Os efetores de dois dos sistemas, Cas12b/ C2c1 e Cas12c/C2c3, contêm domínios de endonuclease do tipo RuvC relacionados a Cpf1. Um terceiro sistema contém um efetor com dois domínios HEPN RNase predicados. A produção de RNA CRISPR maduro é independente de tracrRNA, ao contrário da produção de RNA CRISPR por Cas12b/C2c1. Cas12b/C2c1 depende de ambos CRISPR RNA e tracrRNA para clivagem de DNA.
[00321] A estrutura cristalina de Aliciclobaccillus acidoterrastris Cas12b/C2c1 (AacC2c1) foi relatada em complexo com um RNA guia quimérico de uma única molécula (sgRNA). Vide, por exemplo, Liu et al., "C2c1-sgRNA Complex Structure Reveals RNA-Guided DNA Cleavage Mechanism", Mol. Cell, 2017 Jan. 19; 65(2):310-322, cujos conteúdos inteiros são aqui incorporados por referência. A estrutura cristalina também foi relatada em C2c1 de Aliciclobacillus acidoterrestris ligado a DNAs alvo como complexos ternários. Vide, por exemplo, Yang et al., "PAM-dependente Target DNA Recognition and Cleavage by C2C1 CRISPR-Cas endonuclease", Cell, 15 de dezembro de 2016; 167 (7): 1814-1828, cujos conteúdos inteiros são aqui incorporados por referência. Conformações cataliticamente competentes de AacC2c1, com ambos filamentos de DNA alvo e não alvo, foram capturadas independentemente posicionadas dentro de um único bolso catalítico de RuvC, com clivagem mediada por Cas12b/C2c1, resultando em uma quebra escalonada de sete nucleotídeos do DNA alvo. As comparações estruturais entre os complexos ternários Cas12b/C2c1 e contrapartes Cas9 e Cpf1 previamente identificados demonstram a diversidade de mecanismos usados pelos sistemas CRISPR-Cas9.
[00322] Dentro algumas modalidades, a proteína de ligação de DNA programável de ácido nucleico (napDNAbp) de qualquer uma das proteínas de fusão aqui fornecidas pode ser uma proteína Cas12b/C2c1 ou Cas12c/C2c3. Em algumas modalidades, o napDNAbp é uma proteína Cas12b/C2c1. Em algumas modalidades, o napDNAbp é uma proteína Cas12c/C2c3. Em algumas modalidades, o napDNAbp compreende uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou facilmente 99,5% idêntica a uma proteína Cas12b/C2c1 ou Cas12c/C2c3 de ocorrência natural. Em algumas modalidades, o napDNAbp é uma proteína Cas12b/C2c1 ou Cas12c/C2c3 de ocorrência natural. Em algumas modalidades, o napDNAbp compreende uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou facilmente 99,5% idêntico a qualquer uma das sequências de napDNAbp aqui fornecidas. Deve ser apreciado que Cas12b/C2c1 ou Cas12c/C2c3 de outras espécies bacterianas também podem ser usados de acordo com a presente divulgação.
[00323] Uma sequência de aminoácido Cas12b/C2c1 ((uniprot.org/ uniprot/T0D7A2#2) sp|T0D7A2|C2C1_ALIAG endonuclease C2c1 associada a CRISPR OS = Alicyclobacillus acido-terrestris (cepa ATCC 49025/DSM 3922/CIP 106132/NCIMB 13137/GD3B) GN=c2c1 PE=1 SV=1) é como segue: MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQEN LYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSD DELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIA KAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADF GLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMS WESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDM KEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDA EIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSI LRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGER RHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALY FRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVR VQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDG KLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPF FFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQ LAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFEN ELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRS GERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIR AEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGK WVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELI NQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPE PFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQI HADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRT ADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEAD EAREKSVVLMRDPSGIINRGNWTRQKEFWSMVNQRIEGYLVKQIRSR VPLQDSACENTGDI
[00324] Sequência de Referência NCBI BhCas12b (Bacillus hisashii): WP_095142515 MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIA YYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCN SFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPN SQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKI LGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQA LERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKE RQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEV FKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEID KKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEK LKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKG KHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIY FNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKL KSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGT ELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVL HFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKD WVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRT RKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMAN TIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENS KLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRC SVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISL SKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVY IPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSE LVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGK LERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK
[00325] Em algumas modalidades, o Cas12b é BvCas12B. Em algumas modalidades, o Cas12b compreende substituições S893R, K846R, e E837G, conforme enumerado na sequência de aminoácido exemplar BvCas12b provida abiaxo.
[00326] Sequência de Referência NCBI BvCas12b (Bacillus sp. V313): WP_101661451.1: MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQE AIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIP SSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEE GNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIE WLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKT ESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIR GWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFL ANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPL WIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIP LAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKY IKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSD FSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTS ASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKN NKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEI VQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPY VGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTP GEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEE KDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSI PRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLK AGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSD NNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPK SQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLD GFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVN NIIKSCLKKKILSNKVEL
Polinucleotídeos guia
[00327] Em uma modalidade, o polinucleotídeo guia é um RNA guia. Um complexo RNA/Cas pode ajudar a "guiar" a proteína Cas para um DNA alvo. Cas9/crRNA/tracrRNA cliva endonucleoliticamente o alvo de dsDNA linear ou circular complementar ao espaçador. O filamento alvo não complementar ao crRNA é primeiro cortado endonucleoliticamente e, em seguida, aparado 3’-5’ éxonucleoliticamente. Na natureza, a ligação e a clivagem do DNA normalmente requerem proteínas e ambos os RNAs. No entanto, RNAs de guia único ("sgRNA" ou simplesmente "gNRA") podem ser projetados de modo a incorporar aspectos tanto do crRNA quanto do tracrRNA em uma única espécie de RNA. Vide, por exemplo, Jinek M. et al., Science 337: 816-821 (2012), cujo conteúdo inteiro é aqui incorporado por referência. Cas9 reconhece um motivo curto nas sequências de repetição CRISPR (o PAM ou motivo adjacente do protoespaçador) para ajudar a distinguir o self versus o não self. As sequências e estruturas de nuclease Cas9 são bem conhecidas pelos versados na técnica (vide, por exemplo, "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Ferretti, J.J. et al., Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Deltcheva E. et al., Nature 471:602-607(2011); e "Programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." Jinek M.et al, Science 337:816-821(2012), todo o conteúdo de cada um dos quais é aqui incorporado por referência). Ortólogos Cas9 foram descritos em várias espécies, incluindo, mas não se limitando a, S. pyogenes e S. thermophilus. Nucleases e sequências de Cas9 adicionais adequadas podem ser evidentes para aqueles versados na técnica com base nesta divulgação, e tais nucleases e sequências de Cas9 incluem sequências de Cas9 dos organismos e loci divulgados em Chylinski, Rhun, and Charpentier, "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems" (2013) RNA Biology 10:5, 726-737 todo o conteúdo do qual é incorporado aqui por referência. Em algumas modalidades, uma nuclease Cas9 tem um domínio de clivagem de DNA inativo (por exemplo, um inativado), isto é, a Cas9 é uma nickase.
[00328] Em algumas modalidades, o polinucleotídeo guia é pelo menos um único RNA guia ("sgRNA" ou "gNRA"). Em algumas modalidades, o polinucleotídeo guia é pelo menos um tracrRNA. Em algumas modalidades, o polinucleotídeo guia não requer a sequência PAM para guiar o domínio de ligação de DNA programável por polinucleotídeo (por exemplo, Cas9 ou Cpf1) para a sequência nucleotídica alvo.
[00329] O domínio de ligação de nucleotídeo programável de polinucleotídeo (por exemplo, um domínio derivado de CRISPR) dos editores de base aqui divulgados pode reconhecer uma sequência de polinucleotídeo alvo por associação com um polinucleotídeo guia. Um polinucleotídeo guia (por exemplo, gRNA) é tipicamente de fita simples e pode ser programado para ligar especificamente um sítio (ou seja, por meio de emparelhamento de base complementar) a uma sequência alvo de um polinucleotídeo, direcionando assim um editor de base que está em conjunto com o ácido nucleico guia para a sequência alvo. Um polinucleotídeo guia pode ser DNA. Um polinucleotídeo guia pode ser RNA. Em algumas modalidades, o polinucleotídeo guia compreende nucleotídeos naturais (por exemplo, adenosina). Em algumas modalidades, o polinucleotídeo guia compreende nucleotídeos não naturais (ou não naturais) (por exemplo, ácido nucleico de peptídeo ou análogos de nucleotídeo). Em algumas modalidades, a região de direcionamento de uma sequência de ácido nucleico guia pode ser de pelo menos 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 ou 30 nucleotídeos em comprimento. Uma região de direcionamento de um ácido nucleico guia pode ter entre 1030 nucleotídeos de comprimento, ou entre 15-25 nucleotídeos de comprimento, ou entre 15-20 nucleotídeos de comprimento.
[00330] Em algumas modalidades, um polinucleotídeo guia compreende dois ou mais polinucleotídeos individuais, que podem interagir um com o outro por meio de, por exemplo, emparelhamento de base complementar (por exemplo, um polinucleotídeo guia duplo). Por exemplo, um polinucleotídeo guia pode compreender um RNA CRISPR (crRNA) e um RNA CRISPR de transativação (tracrRNA). Por exemplo, um polinucleotídeo guia pode compreender um ou mais RNA CRISPR de transativação (tracrRNA).
[00331] Em sistemas CRISPR tipo II, o direcionamento de um ácido nucleico por uma proteína CRISPR (por exemplo, Cas9) normalmente requer emparelhamento de base complementar entre uma primeira molécula de RNA (crRNA) que compreende uma sequência que reconhece a sequência alvo e uma segunda molécula de RNA (trRNA) que compreende repetir as sequências que formam uma região de arcabouço que estabiliza o complexo guia RNA-proteína CRISPR. Tais sistemas de RNA guia duplo podem ser empregados como um polinucleotídeo guia para direcionar os editores de base aqui divulgados para uma sequência de polinucleotídeo alvo.
[00332] Em algumas modalidades, o editor de base fornecido neste documento utiliza um único polinucleotídeo guia (por exemplo, gRNA). Em algumas modalidades, o editor de base fornecido neste documento utiliza um polinucleotídeo guia duplo (por exemplo, gRNAs duplos). Em algumas modalidades, o editor de base fornecido neste documento utiliza um ou mais polinucleotídeos guia (por exemplo, múltiplos gRNA). Em algumas modalidades, um único polinucleotídeo guia é utilizado para diferentes editores de base aqui descritos. Por exemplo, um único polinucleotídeo guia pode ser utilizado para um editor de base de adenosina ou para um editor de base de adenosina e um editor de base de citidina, por exemplo, conforme descrito em PCT/US19/ 44935.
[00333] Em outras modalidades, um polinucleotídeo guia pode compreender a porção de direcionamento de polinucleotídeo do ácido nucleico e a porção de arcabouço do ácido nucleico em uma única molécula (isto é, um ácido nucleico guia de molécula única). Por exemplo, um polinucleotídeo guia de molécula única pode ser um único RNA guia (sgRNA ou gRNA). Aqui, o termo sequência de polinucleotídeo guia contempla qualquer ácido nucleico de molécula única, dupla ou múltipla capaz de interagir com e direcionar um editor de base para uma sequência de polinucleotídeo alvo.
[00334] Normalmente, um polinucleotídeo guia (por exemplo, complexo crRNA/trRNA ou um gRNA) compreende um "segmento de polinucleotídeo-alvo" que inclui uma sequência capaz de reconhecer e se ligar a uma sequência de polinucleotídeo alvo e um "segmento de ligação de proteína" que estabiliza o polinucleotídeo guia dentro de um componente de domínio de ligação de nucleotídeo programável de polinucleotídeo de um editor de base. Em algumas modalidades, o segmento de direcionamento de polinucleotídeo do polinucleotídeo guia reconhece e se liga a um polinucleotídeo de DNA, facilitando assim a edição de uma base no DNA. Em outros casos, o segmento de direcionamento de polinucleotídeo do polinucleotídeo guia reconhece e se liga a um polinucleotídeo de RNA, facilitando assim a edição de uma base no RNA. Aqui, um "segmento" refere-se a uma seção ou região de uma molécula, por exemplo, um trecho contíguo de nucleotídeos no polinucleotídeo guia. Um segmento também pode referir-se a uma região/seção de um complexo de modo que um segmento pode compreender regiões de mais de uma molécula. Por exemplo, quando um polinucleotídeo guia compreende várias moléculas de ácido nucleico, o segmento de ligação à proteína pode incluir todas ou uma porção de várias moléculas separadas que são, por exemplo, hibridizadas ao longo de uma região de complementaridade. Em algumas modalidades, uma proteína segmento de ligação de um RNA de direcionamento de DNA que compreende duas moléculas separadas pode compreender (i) pares de bases 40-75 de uma primeira molécula de RNA que tem 100 pares de bases de comprimento; e (ii) pares de bases 10-25 de uma segunda molécula RNA isto é, 50 pares de bases de comprimento. A definição de "segmento", a menos que definido de outra forma especificamente em um contexto particular, não está limitada a um número específico de pares de bases totais, não está limitada a qualquer número particular de pares de bases de uma determinada molécula de RNA, não está limitada a um determinado número de moléculas separadas dentro de um complexo e pode incluir regiões de moléculas de RNA que são de qualquer comprimento completo e podem incluir regiões com complementaridade a outras moléculas.
[00335] Um RNA guia ou um polinucleotídeo guia pode compreender dois ou mais RNAs, por exemplo, RNA CRISPR (crRNA) e crRNA transativador (tracrRNA). Um RNA guia ou um polinucleotídeo guia pode às vezes compreender um RNA de cadeia única ou RNA guia único (sgRNA) formado pela fusão de uma porção (por exemplo, uma porção funcional) de crRNA e tracrRNA. Um RNA guia ou um polinucleotídeo guia também pode ser um RNA duplo compreendendo um crRNA e um tracrRNA. Além disso, um crRNA pode hibridizar com um DNA alvo.
[00336] Conforme discutido acima, um RNA guia ou um polinucleotídeo guia pode ser um produto de expressão. Por exemplo, um DNA que codifica um RNA guia pode ser um vetor compreendendo uma sequência que codifica para o RNA guia. Um RNA guia ou um polinucleotídeo guia pode ser transferido para uma célula por transfecção da célula com um RNA guia ou DNA plasmídeo isolado compreendendo uma sequência que codifica para o RNA guia e um promotor. Um RNA guia ou um polinucleotídeo guia também pode ser transferido para uma célula de outra maneira, como usando a entrega de genes mediada por vírus.
[00337] Um RNA guia ou um polinucleotídeo guia pode ser isolado. Por exemplo, um RNA guia pode ser transfectado na forma de um RNA isolado em uma célula ou organismo. Um RNA guia pode ser preparado por transcrição in vitro usando qualquer sistema de transcrição in vitro conhecido na técnica. Um RNA guia pode ser transferido para uma célula na forma de RNA isolado em vez de na forma de plasmídeo compreendendo a sequência de codificação para um RNA guia.
[00338] Um RNA guia ou um polinucleotídeo guia pode compreender três regiões: uma primeira região na extremidade 5’ que pode ser complementar a um sítio alvo em uma sequência cromossômica, uma segunda região interna que pode formar uma estrutura de haste em alça e uma terceira região 3’ região que pode ser de fita simples. Uma primeira região de cada RNA guia também pode ser diferente, de modo que cada RNA guia guie uma proteína de fusão para um sítio alvo específico. Além disso, a segunda e a terceira regiões de cada RNA guia podem ser idênticas em todos os RNAs guia.
[00339] Uma primeira região de um RNA guia ou um polinucleotídeo guia pode ser complementar à sequência em um sítio alvo em um cromossomo sequência de modo que a primeira região do RNA guia pode emparelhar com o sítio alvo. Em algumas modalidades, uma primeira região de um RNA guia pode compreender de ou cerca de 10 nucleotídeos a 25 nucleotídeos (isto é, de 10 nucleotídeos a nucleotídeos; ou de cerca de 10 nucleotídeos a cerca de 25 nucleotídeos; ou de 10 nucleotídeos a cerca de 25 nucleotídeos; ou de cerca de 10 nucleotídeos a 25 nucleotídeos) ou mais. Por exemplo, uma região de emparelhamento de bases entre uma primeira região de um RNA guia e um sítio alvo em uma sequência cromossômica pode ser ou pode ser cerca de 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 24, 25 ou mais nucleotídeos de comprimento. Às vezes, uma primeira região de um RNA guia pode ter ou pode ter cerca de 19, 20 ou 21 nucleotídeos de comprimento.
[00340] Um RNA guia ou um polinucleotídeo guia também pode compreender uma segunda região que forma uma estrutura secundária. Por exemplo, uma estrutura secundária formada por um RNA guia pode compreender uma haste (ou grampo) e uma alça. O comprimento de uma alça e de uma haste pode variar. Por exemplo, uma alça pode variar de ou de cerca de 3 a 10 nucleotídeos de comprimento, e uma haste pode variar de ou de cerca de 6 a 20 pares de bases de comprimento. Uma haste pode compreender uma ou mais protuberâncias de 1 a 10 ou cerca de 10 nucleotídeos. O comprimento completo de uma segunda região pode variar de ou cerca de 16 a 60 nucleotídeos de comprimento. Por exemplo, uma alça pode ter ou pode ter cerca de 4 nucleotídeos de comprimento e uma haste pode ter ou pode ter cerca de 12 pares de bases.
[00341] Um RNA guia ou um polinucleotídeo guia também pode compreender uma terceira região na extremidade 3’ que pode ser essencialmente de fita simples. Por exemplo, uma terceira região às vezes não é complementar a qualquer sequência cromossômica em uma célula de interesse e às vezes não é complementar ao resto de um RNA guia. Além disso, o comprimento de uma terceira região pode variar. Uma terceira região pode ter mais ou mais do que cerca de 4 nucleotídeos de comprimento. Por exemplo, o comprimento de uma terceira região pode variar de ou cerca de 5 a 60 nucleotídeos de comprimento.
[00342] Um RNA guia ou um polinucleotídeo guia pode ter como alvo qualquer éxon ou íntron de um gene alvo. Em algumas modalidades, um guia pode ter como alvo o éxon 1 ou 2 de um gene, em outros casos; um guia pode ter como alvo o éxon 3 ou 4 de um gene. Uma composição pode compreender vários RNAs guia que têm como alvo o mesmo éxon ou, em algumas modalidades, vários RNAs guia que podem ter como alvo diferentes éxons. Um éxon e um íntron de um gene podem ser direcionados.
[00343] Um RNA guia ou um polinucleotídeo guia pode ter como alvo uma sequência de ácido nucleico de ou de cerca de 20 nucleotídeos. Um ácido nucleico alvo pode ser menor ou menor que cerca de 20 nucleotídeos. Um ácido nucleico alvo pode ter pelo menos ou pelo menos cerca de 5, 10, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30 ou qualquer lugar entre 1-100 nucleotídeos de comprimento. Um ácido nucleico alvo pode ser no máximo ou no máximo cerca de 5, 10, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 40, 50 ou qualquer lugar entre 1-100 nucleotídeos de comprimento. Uma sequência de ácido nucleico alvo pode ser ou pode ter cerca de 20 bases imediatamente a 5’ do primeiro nucleotídeo do PAM. Um RNA guia pode ter como alvo uma sequência de ácido nucleico. Um ácido nucleico alvo pode ser pelo menos ou pelo menos cerca de 1-10, 1-20, 1-30, 1-40, 1-50, 1-60, 1-70, 1-80, 1-90 ou 1 -100 nucleotídeos.
[00344] Um polinucleotídeo guia, por exemplo, um RNA guia, pode referir-se a um ácido nucleico que pode hibridizar com outro ácido nucleico, por exemplo, o ácido nucleico alvo ou protoespaçador em um genoma de uma célula. Um polinucleotídeo guia pode ser RNA. Um polinucleotídeo guia pode ser DNA. O polinucleotídeo guia pode ser programado ou projetado para se ligar a uma sequência de ácido nucleico especificamente. Um polinucleotídeo guia pode compreender uma cadeia polinucleotídica e pode ser denominado um polinucleotídeo guia único. Um polinucleotídeo guia pode compreender duas cadeias polinucleotídicas e pode ser denominado polinucleotídeo guia duplo. Um RNA guia pode ser introduzido em uma célula ou embrião como uma molécula de RNA. Por exemplo, uma molécula de RNA pode ser transcrita in vitro e/ou pode ser sintetizada quimicamente. Um RNA pode ser transcrito a partir de uma molécula de DNA sintética, por exemplo, um fragmento do gene gBlocks®. Um RNA guia pode então ser introduzido em uma célula ou embrião como uma molécula de RNA. Um RNA guia também pode ser introduzido em uma célula ou embrião na forma de uma molécula de ácido nucleico não RNA, por exemplo, molécula de DNA. Por exemplo, um DNA que codifica um RNA guia pode ser operacionalmente ligado à sequência de controle do promotor para a expressão do RNA guia em uma célula ou embrião de interesse. Uma sequência de codificação de RNA pode ser operacionalmente ligada a uma sequência de promotor que é reconhecida pela RNA polimerase III (Pol III). Os vetores de plasmídeo que podem ser usados para expressar o RNA guia incluem, mas não estão limitados a, vetores px330 e vetores px333. Em algumas modalidades, um vetor de plasmídeo (por exemplo, vetor px333) pode compreender pelo menos duas sequências de DNA codificadoras de RNA guia.
[00345] Métodos para selecionar, projetar e validar polinucleotídeos guia, por exemplo, RNAs guia e sequências de direcionamento são descritos neste documento e conhecidos pelos versados na técnica. Por exemplo, para minimizar o impacto de potencial promiscuidade de substrato de um domínio desaminase no sistema de editor de nucleobases (por exemplo, um domínio AID), o número de resíduos que poderiam ser acidentalmente direcionados para desaminação (por exemplo, resíduos C fora do alvo que poderiam potencialmente residir em ssDNA dentro do locus do ácido nucleico alvo) pode ser minimizado. Além disso, as ferramentas de software podem ser usadas para otimizar os gRNAs correspondentes a uma sequência de ácido nucleico alvo, por exemplo, para minimizar a atividade fora do alvo total em todo o genoma. Por exemplo, para cada escolha de domínio de segmentação possível usando Cas9 de S. pyogenes, todas as sequências fora do alvo (PAMs selecionados anteriores, por exemplo, NAG ou NGG) podem ser identificadas em todo o genoma que contêm até certo número (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10) de pares de bases incompatíveis. As primeiras regiões de gRNAs complementares a um sítio alvo podem ser identificadas e todas as primeiras regiões (por exemplo, crRNAs) podem ser classificadas de acordo com sua pontuação total prevista fora do alvo; os domínios de direcionamento com melhor classificação representam aqueles que provavelmente terão a maior atividade dentro do alvo e menos fora do alvo. Os gRNAs de direcionamento candidatos podem ser avaliados funcionalmente usando métodos conhecidos na técnica e/ou conforme estabelecido neste documento.
[00346] Como um exemplo não limitativo, as sequências de hibridização de DNA alvo em crRNAs de um RNA guia para uso com Cas9s podem ser identificadas usando um algoritmo de busca de sequência de DNA. O projeto de gRNA pode ser realizado usando software de projeto de gRNA personalizado com base na ferramenta pública cas-offinder, conforme descrito em Bae S., Park J., & Kim J.-S. Cas-OFFinder: A fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases. Bioinformatics 30, 1473-1475 (2014). Este software pontua guias após calcular sua propensão fora do alvo em todo o genoma. Normalmente, as correspondências que variam de correspondências perfeitas a 7 incompatibilidades são consideradas para guias com comprimento de 17 a 24. Uma vez que os sites fora do alvo são determinados computacionalmente, uma pontuação agregada é calculada para cada guia e resumida em uma saída tabular usando uma interface de web. Além de identificar potenciais sítios alvo adjacentes às sequências PAM, o software também identifica todas as sequências PAM adjacentes que diferem em 1, 2, 3 ou mais de 3 nucleotídeos dos sítios alvo selecionados. Sequências de DNA genômico para uma sequência de ácido nucleico alvo, por exemplo, um gene alvo pode ser obtido e elementos repetidos podem ser rastreados usando ferramentas disponíveis publicamente, por exemplo, o programa RepeatMasker. O RepeatMasker procura sequências de DNA de entrada para elementos repetidos e regiões de baixa complexidade. A saída é uma anotação detalhada das repetições presentes em uma determinada sequência de consulta.
[00347] Após a identificação, as primeiras regiões de RNAs guia, por exemplo, crRNAs, podem ser classificadas em camadas com base em sua distância ao sítio alvo, sua ortogonalidade e presença de nucleotídeos 5’ para correspondências próximas com sequências PAM relevantes (por exemplo, um 5‘ G com base na identificação de correspondências próximas no genoma humano contendo um PAM relevante, por exemplo, NGG PAM para S. pyogenes, NNGRRT ou NNGRRV PAM para S. aureus). Conforme usado neste documento, ortogonalidade refere-se ao número de sequências no genoma humano que contêm um número mínimo de incompatibilidades com a sequência alvo. Um "alto nível de ortogonalidade" ou "boa ortogonalidade" pode, por exemplo, referir-se a domínios de direcionamento 20-mer que não têm sequências idênticas no genoma humano além do alvo pretendido, nem quaisquer sequências que contenham uma ou duas incompatibilidades no alvo sequência. Domínios de direcionamento com boa ortogonalidade podem ser selecionados para minimizar a clivagem de DNA fora do alvo.
[00348] Em algumas modalidades, um sistema repórter pode ser usado para detectar a atividade de edição de base e testar os polinucleotídeos-guia candidatos. Em algumas modalidades, um sistema repórter pode compreender um ensaio baseado em gene repórter, onde a atividade de edição de base leva à expressão do gene repórter. Por exemplo, um sistema repórter pode incluir um gene repórter compreendendo um códon de início desativado, por exemplo, uma mutação no filamento molde de 3’-TAC-5’ para 3’-CAC-5'. Após a desaminação com sucesso do C alvo, o mRNA correspondente será transcrito como 5'-AUG-3’em vez de 5'-GUG-3’, permitindo a tradução do gene repórter. Genes repórter adequados serão evidentes para os versados na técnica. Exemplos não limitativos de genes repórter incluem gene que codifica a proteína fluorescente verde (GFP), proteína fluorescente vermelha (RFP), luciferase, fosfatase alcalina secretada (SEAP) ou qualquer outro gene cuja expressão seja detectável e aparente para aqueles versados na técnica. O sistema repórter pode ser usado para testar muitos gRNAs diferentes, por exemplo, a fim de determinar qual (is) resíduo (s) em relação à sequência de DNA alvo a respectiva desaminase terá como alvo. Os sgRNAs que têm como alvo o filamento não modelo também podem ser testados a fim de avaliar os efeitos fora do alvo de uma proteína de edição de base específica, por exemplo, uma proteína de fusão Cas9 desaminase. Em algumas modalidades, tais gRNAs podem ser concebidos de modo que o códon de início mutado não seja emparelhado em base com o gRNA. Os polinucleotídeos guia podem compreender ribonucleotídeos padrão, ribonucleotídeos modificados (por exemplo, pseudouridina), isômeros de ribonucleotídeos e/ou análogos de ribonucleotídeos. Em algumas modalidades, o polinucleotídeo guia pode compreender pelo menos um marcador detectável. O marcador detectável pode ser um fluoróforo (por exemplo, FAM, TMR, Cy3, Cy5, Texas Red, Oregon Green, Alexa Fluors, Halo tags ou corante fluorescente adequado), um marcador de detecção (por exemplo, biotina, digoxigenina e semelhantes), pontos quânticos ou partículas de ouro.
[00349] Os polinucleotídeos guia podem ser sintetizados quimicamente, sintetizados enzimaticamente ou uma combinação dos mesmos. Por exemplo, o RNA guia pode ser sintetizado usando métodos de síntese de fase sólida à base de fosforamidita padrão. Alternativamente, o RNA guia pode ser sintetizado in vitro ligando operacionalmente o DNA que codifica o RNA guia a uma sequência de controle do promotor que é reconhecida por uma polimerase de RNA de fago. Exemplos de sequências promotoras de fago adequadas incluem sequências promotoras T7, T3, SP6 ou variações das mesmas. Em modalidades nas quais o RNA guia compreende duas moléculas separadas (por exemplo, crRNA e tracrRNA), o crRNA pode ser sintetizado quimicamente e o tracrRNA pode ser sintetizado enzimaticamente.
[00350] Em algumas modalidades, um sistema de editor de base pode compreender vários polinucleotídeos guia, por exemplo, gRNAs. Por exemplo, os gRNAs podem ter como alvo um ou mais loci alvo (por exemplo, pelo menos 1 gRNA, pelo menos 2 gRNA, pelo menos 5 gRNA, pelo menos 10 gRNA, pelo menos 20 gRNA, pelo menos 30 g RNA, pelo menos 50 gRNA) compreendido em um sistema de editor de base. As múltiplas sequências de gRNA podem ser arranjadas em tandem e são preferivelmente separadas por uma repetição direta.
[00351] Uma sequência de DNA que codifica um RNA guia ou um polinucleotídeo guia também pode ser parte de um vetor. Além disso, um vetor pode compreender sequências de controle de expressão adicionais (por exemplo, sequências potenciadoras, sequências Kozak, sequências de poliadenilação, sequências de terminação da transcrição, etc.), sequências de marcadores selecionáveis (por exemplo, GFP ou genes de resistência a antibióticos, como puromicina), origens de replicação, e similar. Uma molécula de DNA que codifica um RNA guia também pode ser linear. Uma molécula de DNA que codifica um RNA guia ou um polinucleotídeo guia também pode ser circular.
[00352] Em algumas modalidades, um ou mais componentes de um sistema de editor de base podem ser codificados por sequências de DNA. Essas sequências de DNA podem ser introduzidas em um sistema de expressão, por exemplo, uma célula, em conjunto ou separadamente. Por exemplo, sequências de DNA que codificam um domínio de ligação de nucleotídeo programável de polinucleotídeo e um RNA guia podem ser introduzidos em uma célula, cada sequência de DNA pode ser parte de uma molécula separada (por exemplo, um vetor contendo a sequência de codificação do domínio de ligação de nucleotídeo programável de polinucleotídeo e um segundo vetor contendo a sequência de codificação do RNA guia) ou ambos podem ser parte de uma mesma molécula (por exemplo, um vetor contendo a sequência de codificação (e reguladora) para o domínio de ligação de nucleotídeo programável do polinucleotídeo e o RNA guia).
[00353] Um polinucleotídeo guia pode compreender uma ou mais modificações para fornecer um ácido nucleico com um recurso novo ou aprimorado. Um polinucleotídeo guia pode compreender um marcador de afinidade de ácido nucleico. Um polinucleotídeo guia pode compreender nucleotídeo sintético, análogo de nucleotídeo sintético, derivados de nucleotídeo e/ou nucleotídeos modificados.
[00354] Em algumas modalidades, um gRNA ou um polinucleotídeo guia pode compreender modificações. Uma modificação pode ser feita em qualquer localização de um gRNA ou um polinucleotídeo guia. Mais de uma modificação pode ser feita em um único gRNA ou um polinucleotídeo guia. Um gRNA ou um polinucleotídeo guia pode sofrer controle de qualidade após uma modificação. Em algumas modalidades, o controle de qualidade pode incluir PAGE, HPLC, MS ou qualquer combinação dos mesmos.
[00355] Uma modificação de um gRNA ou um polinucleotídeo guia pode ser uma substituição, inserção, deleção, modificação química, modificação física, estabilização, purificação ou qualquer combinação dos mesmos.
[00356] Um gRNA ou um polinucleotídeo guia também pode ser modificado por 5'adenilato, tampão 5’ trifosfato de guanosina, tampão 5'N7-metilguanosina-trifosfato, tampão 5'trifosfato, 3’fosfato, 3’tiofosfa- to, 5'fosfato, 5' tiofosfato, dímero de timidina Cis-Syn, trímeros, espaçador C12, espaçador C3, espaçador C6, dEspaçador, espaçador PC, rEspaçador, Espaçador 18, modificações do espaçador 9,3’-3’, modificações 5'-5', abásico, acridina, azobenzeno, biotina, biotina BB, biotina TEG, colesteril TEG, destiobiotina TEG, DNP TEG, DNP-X, DOTA, dT-Biotina, biotina dupla, biotina PC, psoraleno C2, psoraleno C6, TINA, 3’DABCIL, redutor de buraco negro 1, redutor de buraco negro 2, DABCIL SE, dT-DABCIL, Corante IR QC-1, QSY-21, QSY-35, QSY-7, QSY-9, ligante de carboxila, ligantes de tiol, purina de análogo de 2'-desoxirribonucleosídeo, 2’- pirimidina de análogo de desoxirribonucleosídeo, análogo de ribonucleosídeo, análogo de 2'-O- metil ribonucleosídeo, análogos de açúcar modificados, bases oscilantes/universais, marcador de corante fluorescente, 2'-fluoro RNA, 2'-O-metil RNA, metilfosfonato, fosfodiéster DNA, fosfodiéster RNA, fosfotioato DNA, fosforotioato RNA, UNA, pseudouridina-5'-trifosfato, 5'-metilcitidina-5'-trifosfato, ou qualquer combinação dos mesmos.
[00357] Em algumas modalidades, uma modificação é permanente. Em outros casos, uma modificação é transitória. Em algumas modalidades, várias modificações são feitas em um gRNA ou um polinucleotídeo guia. A modificação de um gRNA ou de um polinucleotídeo guia pode alterar as propriedades físico-químicas de um nucleotídeo, como sua conformação, polaridade, hidrofobicidade, reatividade química, interações de emparelhamento de base ou qualquer combinação das mesmas.
[00358] A sequência PAM pode ser qualquer sequência PAM conhecida na técnica. As sequências de PAM adequadas incluem, mas não estão limitadas a, NGG, NGA, NGC, NGN, NGT, NGCG, NGAG, NGAN, NGNG, NGCN, NGCG, NGTN, NNGRRT, NNNRRT, NNGRR (N), TTTV, TYCV, TYCV, TATV, NNNNGATT, NNAGAAW ou NAAAAC. Y é uma pirimidina; N é qualquer base de nucleotídeo; W é A ou T.
[00359] Uma modificação também pode ser um substituto do fosforotioato. Em algumas modalidades, uma ligação fosfodiéster natural pode ser suscetível à rápida degradação por nucleases celulares e; uma modificação da ligação internucleotídeo usando substitutos da ligação fosforotioato (PS) pode ser mais estável em relação à hidrólise por degradação celular. Uma modificação pode aumentar a estabilidade em um gRNA ou um polinucleotídeo guia. Uma modificação também pode aumentar a atividade biológica. Em algumas modalidades, um RNA gRNA aprimorado com fosforotioato pode inibir RNase A, RNase T1, nucleases de soro de bezerro ou quaisquer combinações dos mesmos. Essas propriedades podem permitir o uso de gRNAs de PS-RNA para serem usados em aplicações onde a exposição a nucleases é de alta probabilidade in vivo ou in vitro. Por exemplo, ligações de fosforotioato (PS) podem ser introduzidas entre os últimos 3-5 nucleotídeos na extremidade 5’ ou " de um gRNA que pode inibir a degradação da éxonuclease. Em algumas modalidades, ligações de fosforotioato podem ser adicionadas ao longo de todo um gRNA para reduzir o ataque por endonucleases.
Motivo Adjacente Protoespaçador
[00360] O termo "motivo adjacente de protoespaçador (PAM)" ou motivo do tipo PAM refere-se a uma sequência de DNA de 2-6 pares de bases imediatamente após a sequência de DNA direcionada pela nuclease Cas9 no sistema imunológico adaptativo bacteriano CRISPR. Em algumas modalidades, o PAM pode ser um 5’ PAM (ou seja, localizado a montante da extremidade 5' do protoespaçador). Em outras modalidades, o PAM pode ser um PAM 3’ (isto é, localizado a jusante da extremidade 5' do protoespaçador).
[00361] A sequência PAM é essencial para a ligação ao alvo, mas a sequência exata depende de um tipo de proteína Cas.
[00362] Um editor de base fornecido neste documento pode compreender um domínio derivado da proteína CRISPR que é capaz de se ligar a uma sequência de nucleotídeos que contém uma sequência de motivo adjacente de protoespaçador canônico ou não canônico (PAM). Um sítio PAM é uma sequência de nucleotídeos próxima a uma sequência de polinucleotídeo alvo. Alguns aspectos da divulgação fornecem editores de base compreendendo todas ou uma parte das proteínas CRISPR que têm diferentes especificidades de PAM. Por exemplo, normalmente as proteínas Cas9, como Cas9 de S. pyogenes (spCas9), requerem uma sequência NGG PAM canônica para se ligar a uma região de ácido nucleico particular, onde o "N" em "NGG" é adenina (A), timina (T), guanina (G) ou citosina (C), e o G é guanina. Um PAM pode ser específico da proteína CRISPR e pode ser diferente entre diferentes editores de base compreendendo diferentes domínios derivados da proteína CRISPR. Um PAM pode ser 5’ ou 3’ de uma sequência alvo. Um PAM pode estar a montante ou a jusante de uma sequência alvo. Um PAM pode ter 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ou mais nucleotídeos de comprimento. Frequentemente, um PAM tem entre 2-6 nucleotídeos de comprimento. Várias variantes de PAM são descritas na Tabela 1 abaixo.Tabela 1. Proteínas Cas9 e sequências PAM correspondentes
[00363] Em algumas modalidades, o PAM é NGC. Em algumas modalidades, o NGC PAM é reconhecido por uma variante de Cas9. Em algumas modalidades, a variante NGC PAM inclui uma ou mais substituições de aminoácidos selecionadas de D1135M, S1136Q, G1218K, E1219F, A1322R, D1332A, R1335E e T1337R (denominados coletivamente "MQKFRAER").
[00364] Em algumas modalidades, o PAM é NGT. Em algumas modalidades, o NGT PAM é reconhecido por uma variante de Cas9. Em algumas modalidades, a variante NGT PAM é gerada por meio de mutações direcionadas em um ou mais resíduos 1335, 1337, 1135, 1136, 1218 e/ou 1219. Em algumas modalidades, a variante NGT PAM é criada através de mutações direcionadas em um ou mais resíduos 1219, 1335, 1337, 1218. Em algumas modalidades, a variante NGT PAM é criada por meio de mutações direcionadas em um ou mais resíduos 1135, 1136, 1218, 1219 e 1335. Em algumas modalidades, a variante NGT PAM é selecionada a partir de conjunto de mutações direcionadas fornecidas na Tabela 2 e Tabela 3 abaixo. Tabela 2: Mutações de variantes NGT PAM nos resíduos 1219, 1335, 1337, 1218 Tabela 3: Mutações de variantes NGT PAM nos resíduos 1135, 1136, 1218, 1219, e 1335.
[00365] Em algumas modalidades, a variante NGT PAM é selecionada da variante 5, 7, 28, 31 ou 36 nas Tabelas 2 e 3. Em algumas modalidades, as variantes melhoraram o reconhecimento NGT PAM.
[00366] Em algumas modalidades, as variantes NGT PAM têm mutações nos resíduos 1219, 1335, 1337 e/ou 1218. Em algumas modalidades, a variante NGT PAM é selecionada com mutações para reconhecimento aprimorado das variantes fornecidas na Tabela 4 abaixo. Tabela 4: Mutações de variantes NGT PAM nos resíduos 1219, 1335, 1337 e 1218
[00367] Em algumas modalidades, editores de base com especificidade para NGT PAM podem ser gerados conforme fornecido na Tabela 5A abaixo. Tabela 5A. Variantes NGT PAM
[00368] Em algumas modalidades, a variante NGTN é a variante 1. Em algumas modalidades, a variante NGTN é a variante 2. Em algumas modalidades, a variante NGTN é a variante 3. Em algumas modalidades, a variante NGTN é a variante 4. Em algumas modalidades, a variante NGTN é a variante 5. Em algumas modalidades, a variante NGTN é a variante 6.
[00369] Em algumas modalidades, o domínio Cas9 é um domínio Cas9 de Streptococcus pyogenes (SpCas9). Em algumas modalidades, o domínio SpCas9 é uma nuclease SpCas9 ativa, uma nuclease SpCas9 inativa (SpCas9d) ou uma niquase SpCas9 (SpCas9n). Em algumas modalidades, SpCas9 compreende uma mutação D10X ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas, em que X é qualquer aminoácido, exceto D. Em algumas modalidades, SpCas9 compreende uma mutação D10A ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio SpCas9, o domínio SpCas9d ou o domínio SpCas9n podem se ligar a uma sequência de ácido nucleico tendo um PAM não canônico. Em algumas modalidades, o domínio SpCas9, o domínio SpCas9d ou o domínio SpCas9n podem se ligar a uma sequência de ácido nucleico tendo uma sequência NGG, NGA ou NGCG PAM.
[00370] Em algumas modalidades, o domínio Cas9 é um domínio Cas9 de Streptococcus pyogenes (SpCas9). Em algumas modalidades, o domínio SpCas9 é uma nuclease SpCas9 ativa, uma nuclease SpCas9 inativa (SpCas9d) ou uma niquase SpCas9 (SpCas9n). Em algumas modalidades, SpCas9 compreende uma mutação D9X ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas, em que X é qualquer aminoácido, exceto D. Em algumas modalidades, SpCas9 compreende uma mutação D9A ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio SpCas9, o domínio SpCas9d ou o domínio SpCas9n podem se ligar a uma sequência de ácido nucleico tendo um PAM não canônico. Em algumas modalidades, o domínio SpCas9, o domínio SpCas9d ou o domínio SpCas9n podem se ligar a uma sequência de ácido nucleico tendo uma sequência NGG, NGA ou NGCG PAM. Em algumas modalidades, o domínio SpCas9 compreende um ou mais de uma mutação D1135X, R1335X e T1337X ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas, em que X é qualquer aminoácido. Em algumas modalidades, o domínio SpCas9 compreende um ou mais de uma mutação D1135E, R1335Q e T1337R ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio SpCas9 compreende uma mutação D1135E, R1335Q e T1337R ou mutações correspondentes em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio SpCas9 compreende um ou mais de uma mutação D1135X, um R1335X e T1337X ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas, em que X é qualquer aminoácido. Em algumas modalidades, o domínio SpCas9 compreende um ou mais de uma mutação D1135V, R1335Q e T1337R ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio SpCas9 compreende uma mutação D1135V, R1335Q e T1337R ou mutações correspondentes em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio SpCas9 compreende um ou mais de uma mutação D1135X, G1218X, R1335X e T1337X, ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas, em que X é qualquer aminoácido. Em algumas modalidades, o domínio SpCas9 compreende um ou mais de uma mutação D1135V, G1218R, R1335Q e T1337R ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio SpCas9 compreende uma mutação D1135V, G1218R, R1335Q e T1337R ou mutações correspondentes em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, a Cas9 é uma variante de Cas9 com especificidade para uma sequência PAM alterada. Em algumas modalidades, as variantes de Cas9 adicionais e sequências PAM são descritas em Continuous evolution of SpCas9 variants compatible with non-G PAMs. Nat Biotechnol (2020). https://doi.Org/10.1038/s41587- 020-0412-8, cuja totalidade é aqui incorporada por referência. Em algumas modalidades, uma variante de Cas9 não tem requisitos de PAM específicos. Em algumas modalidades, uma variante de Cas9, por exemplo, uma variante de SpCas9 tem especificidade para um NRNH PAM, em que R é A ou G e H é A, C ou T. Em algumas modalidades, a variante de SpCas9 tem especificidade para uma sequência PAM AAA, TAA, CAA, GAA, TAT, GAT ou CAC. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1134, 1135, 1137, 1139, 1151, 1180, 1188, 1211, 1218, 1219, 1221, 1249, 1256, 1264, 1290, 1318, 1317, 1320, 1321, 1323, 1332, 1333, 1335, 1337 ou 1339 conforme enumerado na SEQ ID NO: 1 ou uma posição correspondente da mesma. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1135, 1218, 1219, 1221, 1249, 1320, 1321, 1323, 1332, 1333, 1335 ou 1337 conforme enumerado em SEQ ID NO: 1 ou um posição correspondente do mesmo. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1134, 1135, 1137, 1139, 1151, 1180, 1188, 1211, 1219, 1221, 1256, 1264, 1290, 1318, 1317, 1320, 1323, 1333 conforme enumerado na SEQ ID NO: 1 ou uma posição correspondente da mesma. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1131, 1135, 1150, 1156, 1180, 1191, 1218, 1219, 1221, 1227, 1249, 1253, 1286, 1293, 1320, 1321, 1332, 1335, 1339 conforme enumerado na SEQ ID NO: 1 ou uma posição correspondente da mesma. Em algumas modalidades, a variante de SpCas9 compreende uma substituição de aminoácido na posição 1114, 1127, 1135, 1180, 1207, 1219, 1234, 1286, 1301, 1332, 1335, 1337, 1338, 1349 conforme enumerado em SEQ ID NO: 1 ou uma posição correspondente do mesmo. Substituições de aminoácidos exemplares e especificidade de PAM de variantes de SpCas9 são mostradas nas Tabelas 5B, 5C, 5D e 5E abaixo.
[00371] Em algumas modalidades, os domínios Cas9 de qualquer uma das proteínas de fusão aqui fornecidas compreendem uma sequência de aminoácidos que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos pelo menos 99,5% idêntico a um polipeptídeo Cas9 aqui descrito. Em algumas modalidades, os domínios Cas9 de qualquer uma das proteínas de fusão aqui fornecidas compreendem a sequência de aminoácidos de qualquer polipeptídeo Cas9 aqui descrito. Em algumas modalidades, os domínios Cas9 de qualquer uma das proteínas de fusão aqui fornecidas consistem na sequência de aminoácidos de qualquer polipeptídeo Cas9 aqui descrito.
[00372] Em alguns exemplos, um PAM reconhecido por um domínio derivado da proteína CRISPR de um editor de base divulgado neste documento pode ser fornecido a uma célula em um oligonucleotídeo separado para uma inserção (por exemplo, uma inserção de AAV) que codifica o editor de base. Em tais modalidades, fornecer PAM em um oligonucleotídeo separado pode permitir a clivagem de uma sequência alvo que de outra forma não seria capaz de ser clivada, porque nenhum PAM adjacente está presente no mesmo polinucleotídeo que a sequência alvo.
[00373] Em uma modalidade, Cas9 de S. pyogenes (SpCas9) pode ser usado como uma endonuclease CRISPR para engenharia de genoma. No entanto, outros podem ser usados. Em algumas modalidades, uma endonuclease diferente pode ser usada para direcionar certos alvos genômicos. Em algumas modalidades, variantes derivadas de SpCas9 sintéticas com sequências PAM não NGG podem ser usadas. Além disso, outros ortólogos Cas9 de várias espécies foram identificados e esses "não SpCas9s" podem ligar uma variedade de sequências PAM que também podem ser úteis para a presente divulgação. Por exemplo, o tamanho relativamente grande de SpCas9 (sequência de codificação de aproximadamente 4 kb) pode levar a plasmídeos portadores do cDNA de SpCas9 que não podem ser eficientemente expressos em uma célula. Por outro lado, a sequência de codificação para Cas9 de Staphylococcus aureus (SaCas9) é aproximadamente 1 quilobase mais curta do que SpCas9, possivelmente permitindo que seja eficientemente expressa em uma célula. Semelhante à SpCas9, a endonuclease SaCas9 é capaz de modificar genes alvo em células de mamíferos in vitro e em camundongos in vivo. Em algumas modalidades, uma proteína Cas pode ter como alvo uma sequência PAM diferente. Em algumas modalidades, um gene alvo pode ser adjacente a uma Cas9 PAM, 5'- NGG, por exemplo. Em outras modalidades, outros ortólogos Cas9 podem ter diferentes requisitos de PAM. Por exemplo, outros PAMs como os de S. thermophilus (5'-NNAGAA para CRISPR1 e 5'-NGGNG para CRISPR3) e Neisseria meningiditis (5'-NNNNGATT) também podem ser encontrados adjacentes a um gene alvo.
[00374] Em algumas modalidades, para um sistema de S. pyogenes, uma sequência de gene alvo pode preceder (ou seja, ser 5’ para) um PAM 5'-NGG, e uma sequência de RNA guia de 20 nt pode emparelhar com um filamento oposto para mediar uma clivagem de Cas9 adjacente a um PAM. Em algumas modalidades, um corte adjacente pode ser de ou pode ser de cerca de 3 pares de bases a montante de um PAM. Em algumas modalidades, um corte adjacente pode ser de ou pode ser de cerca de 10 pares de bases a montante de um PAM. Em algumas modalidades, um corte adjacente pode ser de ou pode ser de cerca de 0-20 pares de bases a montante de um PAM. Por exemplo, um corte adjacente pode ser próximo a, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 ou 30 pares de bases a montante de um PAM. Um corte adjacente também pode estar a jusante de um PAM por 1 a 30 pares de bases. As sequências de proteínas SpCas9 exemplares capazes de ligar uma sequência PAM seguem:
[00375] A sequência de aminoácidos de um SpCas9 de ligação a PAM exemplar é a seguinte: MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD
[00376] A sequência de aminoácido de uma SpCas9n de ligação a PAM exemplar é como segue: MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD
[00377] A sequência de aminoácido de uma Cas9 de SpEQR de ligação a PAM exemplar é como segue MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIG ALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF FHRLEESVLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDS TDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQ LFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIA LSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFL AAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFESPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQ SITGLYETRIDLSQLGGD
[00378] Na sequência acima, os resíduos E1134, Q1334 e R1336, que podem ser mutados de D1134, R1335 e T1336 para produzir uma Cas9 de SpEQR, estão sublinhados e em negrito.
[00379] A sequência de aminoácidos de uma Cas9 de SpVQR de ligação a PAM exemplar é a seguinte: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIG ALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF FHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQ SITGLYETRIDLSQLGGD
[00380] Na sequência acima, os resíduos V1134, Q1334 e R1336, que podem ser mutados de D1134, R1335 e T1336 para produzir uma Cas9 de SpVQR, estão sublinhados e em negrito.
[00381] A sequência de aminoácidos de uma Cas9 de SpVRER de ligação a PAM exemplar é a seguinte: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIG ALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSF FHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKEYRSTKEVLDATLIHQ SITGLYETRIDLSQLGGD.
[00382] Na sequência acima, os resíduos V1134, R1217, Q1334 e R1336, que podem ser mutados de D1134, G1217, R1335 e T1336 para produzir uma Cas9 de SpVRER, estão sublinhados e em negrito.
[00383] Em algumas modalidades, as variantes de SpCas9 construídas geneticamente são capazes de reconhecer sequências de motivo adjacente de protoespaçador (PAM) flanqueadas por um 3‘ H (PAM não G) (vide Tabelas A-D e FIG. 49). Em algumas modalidades, as variantes de SpCas9 reconhecem NRNH PAMs (onde R é A ou G e H é A, C ou T). Em algumas modalidades, o PAM não G é NRRH, NRTH ou NRCH. Estas variantes foram desenvolvidas através de evolução não contínua assistida por fago (PANCE), por exemplo, conforme descrito em Miller, S.M., et al. Continuous evolution of SpCas9 variants compatible with non-G PAMs, Nat. Biotechnol. (2020), (//doi.org/ 10.1038/s41587-020-0412-8), cujos conteúdos são aqui incorporados por referência em sua totalidade.
[00384] Em algumas modalidades, o domínio Cas9 é um domínio Cas9 recombinante. Em algumas modalidades, o domínio Cas9 recombinante é um domínio SpyMacCas9. Em algumas modalidades, o domínio SpyMacCas9 é uma nuclease SpyMacCas9 ativa, uma nuclease SpyMacCas9 inativa (SpyMacCas9d) ou uma nickase SpyMacCas9 (SpyMacCas9n). Em algumas modalidades, o domínio SaCas9, o domínio SaCas9d ou o domínio SaCas9n podem se ligar a uma sequência de ácido nucleico tendo um PAM não canônico. Em algumas modalidades, o domínio SpyMacCas9, o domínio SpCas9d ou o domínio SpCas9n podem se ligar a uma sequência de ácido nucleico tendo uma sequência NAA PAM.
[00385] A sequência de um exemplar Cas9 A homólogo de Spy Cas9 em Streptococcus macacae com especificidade 5'-NAAN-3’PAM nativa é conhecida na técnica e descrita, por exemplo, por Jakimo et al., (Www.biorxiv.org/content/biorxiv/early/2018/09/27/429654.full.pdf) e é fornecida abaixo.
[00386] MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDR HSIKKNLIGALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNE MAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYH LRKKLADSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFI QLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRN GLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIG DQYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDL TLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILE KMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDF YPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWN FEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELT KVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIE CFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTL TLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGI RDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQG HSLHEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMAREN QTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLY YLQNGRDMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDK NRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGL SELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVIT LKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLE SEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN GEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQT VGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQKPTTAYP VLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYT LVDIGDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDY LQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIENVYSNKKNSASIEELA ESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQS ITGLYETRVDLSKIGED.Em algumas modalidades, uma proteína Cas9 variante abriga mutações H840A, P475A, W476A, N477A, D1125A, W1126A e D1218A de modo que o polipeptídeo tenha uma capacidade reduzida de clivar um DNA ou RNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples). Como outro exemplo não limitativo, em algumas modalidades, a proteína Cas9 variante abriga mutações D10A, H840A, P475A, W476A, N477A, D1125A, W1126A e D1218A, de modo que o polipeptídeo tem uma capacidade reduzida de clivar um DNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de fita simples), mas retém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de fita simples). Em algumas modalidades, quando uma proteína Cas9 variante abriga mutações W476A e W1126A ou quando a proteína Cas9 variante abriga mutações P475A, W476A, N477A, D1125A, W1126A e D1218A, a proteína Cas9 variante não se liga de maneira eficiente a uma sequência PAM. Assim, em alguns desses casos, quando tal proteína Cas9 variante é usada em um método de ligação, o método não requer uma sequência PAM. Em outras palavras, em algumas modalidades, quando tal proteína Cas9 variante é usada em um método de ligação, o método pode incluir um RNA guia, mas o método pode ser realizado na ausência de uma sequência PAM (e a especificidade de ligação é portanto, fornecida pelo segmento de direcionamento do RNA guia). Outros resíduos podem ser mutados para atingir os efeitos acima (isto é, inativar uma ou outras porções de nuclease). Como exemplos não limitativos, os resíduos D10, G12, G17, E762, H840, N854, N863, H982, H983, A984, D986 e/ou A987 podem ser alterados (ou seja, substituídos). Além disso, outras mutações além das substituições de alanina são adequadas.
[00387] Em algumas modalidades, um domínio derivado da proteína CRISPR de um editor de base pode compreender a totalidade ou uma parte de uma proteína Cas9 com uma sequência PAM canônica (NGG). Em outras modalidades, um domínio derivado de Cas9 de um editor de base pode empregar uma sequência PAM não canônica. Tais sequências foram descritas na técnica e seriam evidentes para o versado na técnica. Por exemplo, domínios Cas9 que se ligam a sequências PAM não canônicas foram descritos em Kleinstiver, B. P., et al., "Engineered CRISPR-Cas9 nucleases with altered PAM specificities" Nature 523, 481-485 (2015); e Kleinstiver, B. P., et al., "Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition" Nature Biotechnology 33, 1293-1298 (2015); todo o conteúdo de cada um é aqui incorporado por referência.
Domínios Cas9 com Exclusividade PAM Reduzida
[00388] Normalmente, as proteínas Cas9, como Cas9 de S. pyogenes (spCas9), requerem uma sequência NGG PAM canônica para ligar uma região de ácido nucleico particular, onde o "N" em "NGG" é adenosina (A), timidina (T), ou citosina (C), e o G é guanosina. Isso pode limitar a capacidade de editar as bases desejadas em um genoma. Em algumas modalidades, as proteínas de fusão de edição de base fornecidas neste documento podem precisar ser colocadas em um local preciso, por exemplo, uma região que compreende uma base alvo que está a montante do PAM. Vide, por exemplo, Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016), cujos conteúdos inteiros são aqui incorporados por referência. Por conseguinte, em algumas modalidades, qualquer uma das proteínas de fusão aqui fornecidas pode conter um domínio Cas9 que é capaz de se ligar a uma sequência de nucleotídeos que não contém uma sequência PAM canônica (por exemplo, NGG). Os domínios Cas9 que se ligam a sequências PAM não canônicas foram descritos na técnica e seriam evidentes para o versado na técnica. Por exemplo, domínios Cas9 que se ligam a sequências PAM não canônicas foram descritos em Kleinstiver, B. P., et al., "Engineered CRISPR-Cas9 nucleases with altered PAM specificities" Nature 523, 481-485 (2015); e Kleinstiver, B. P., et al., "Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition" Nature Biotechnology 33, 1293-1298 (2015); todo o conteúdo de cada um é aqui incorporado por referência.
Domínios Cas9 de alta fidelidade
[00389] Alguns aspectos da divulgação fornecem domínios Cas9 de alta fidelidade. Em algumas modalidades, os domínios Cas9 de alta fidelidade são domínios Cas9 contruídos geneticamente compreendendo uma ou mais mutações que diminuem as interações eletrostáticas entre o domínio Cas9 e uma estrutura principal de açúcar-fosfato de um DNA, em comparação com um domínio Cas9 de tipo selvagem correspondente. Sem desejar ser limitado por qualquer teoria em particular, os domínios Cas9 de alta fidelidade que diminuíram as interações eletrostáticas com uma estrutura principal de açúcar-fosfato do DNA podem ter menos efeitos fora do alvo. Em algumas modalidades, um domínio Cas9 (por exemplo, um domínio Cas9 de tipo selvagem) compreende uma ou mais mutações que diminuem a associação entre o domínio Cas9 e uma estrutura principal de açúcar-fosfato de um DNA. Em algumas modalidades, um domínio Cas9 compreende uma ou mais mutações que diminuem a associação entre o domínio Cas9 e uma estrutura principal de açúcar-fosfato de um DNA em pelo menos 1%, pelo menos 2%, pelo menos 3%, pelo menos 4%, pelo menos 5%, pelo menos 10%, pelo menos 15%, pelo menos 20%, pelo menos 25%, pelo menos 30%, pelo menos 35%, pelo menos 40%, pelo menos 45%, pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65% ou pelo menos 70%.
[00390] Em algumas modalidades, qualquer uma das proteínas de fusão Cas9 fornecidas neste documento compreende um ou mais dentre uma mutação N497X, R661X, Q695X e/ou Q926X, ou uma mutação correspondente em qualquer uma das sequências de aminoácidos fornecidas neste documento, em que X é qualquer aminoácido. Em algumas modalidades, qualquer uma das proteínas de fusão Cas9 aqui fornecidas compreende um ou mais de uma mutação N497A, R661A, Q695A e/ou Q926A ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas. Em algumas modalidades, o domínio Cas9 compreende uma mutação D10A ou uma mutação correspondente em qualquer uma das sequências de aminoácidos aqui fornecidas. Domínios Cas9 com alta fidelidade são conhecidos na técnica e serão evidentes para o versado na técnica. Por exemplo, domínios Cas9 com alta fidelidade foram descritos em Kleinstiver, B.P., et al. "High-fidelity CRISPR-Cas9 nucleases with no detectable genome-wide off-target effects." Nature 529, 490-495 (2016); e Slaymaker, I.M., et al. "Rationally engineered Cas9 nucleases with improved specificity." Science 351, 84-88 (2015); todo o conteúdo de cada um é incorporado aqui por referência.
[00391] Em algumas modalidades, a Cas9 modificada é uma enzima Cas9 de alta fidelidade. Em algumas modalidades, a enzima Cas9 de alta fidelidade é SpCas9 (K855A), eSpCas9 (1.1), SpCas9-HF1 ou variante de Cas9 hiperprecisa (HypaCas9). A Cas9 eSpCas9(1.1) modificada contém substituições de alanina que enfraquecem as interações entre o sulco HNH/RuvC e a fita de DNA não alvo, evitando a separação da fita e corte em sítios fora do alvo. Da mesma forma, SpCas9-HF1 diminui a edição fora do alvo por meio de substituições de alanina que interrompem as interações de Cas9 com a estrutura de fosfato de DNA. HypaCas9 contém mutações (SpCas9 N692A/M694A/Q695A/H698A) no domínio REC3 que aumenta a revisão de Cas9 e a discriminação de alvo. Todas as três enzimas de alta fidelidade geram menos edição fora do alvo do que o tipo selvagem Cas9. Uma Cas9 exemplar de alta fidelidade é fornecida abaixo.
[00392] Mutações de domínio Cas9 de alta fidelidade em relação a Cas9 são mostradas em negrito e sublinhado: DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFF HRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDST DKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIAL SLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLA AKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQ QLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNR EKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKG ASAQSFIERMTAFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEG MRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGALSRKLINGIRDKQSGK TILDFLKSDGFANRNFMALIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRAITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD
Proteínas de fusão compreendendo uma sequência de localização nuclear (NLS)
[00393] Em algumas modalidades, as proteínas de fusão fornecidas neste documento adicionalmente compreendem uma ou mais (por exemplo, 2, 3, 4, 5) sequências de direcionamento nuclear, por exemplo, uma sequência de localização nuclear (NLS). Em uma modalidade, uma NLS bipartida é usada. Em algumas modalidades, uma NLS compreende uma sequência de aminoácidos que facilita a importação de uma proteína, que compreende uma NLS, para o núcleo da célula (por exemplo, por transporte nuclear). Em algumas modalidades, qualquer uma das proteínas de fusão aqui fornecidas adicionalmente compreende uma sequência de localização nuclear (NLS). Em algumas modalidades, a NLS é fundida ao N-terminal da proteína de fusão. Em algumas modalidades, a NLS é fundida ao C- terminal da proteína de fusão. Em algumas modalidades, a NLS é fundida ao N-terminal do domínio Cas9. Em algumas modalidades, a NLS é fundida ao C-terminal de um domínio nCas9 ou dCas9. Em algumas modalidades, a NLS é fundida ao N-terminal da desaminase. Em algumas modalidades, a NLS é fundida ao C-terminal da desaminase. Em algumas modalidades, a NLS é fundida à proteína de fusão por meio de um ou mais ligantes. Em algumas modalidades, a NLS é fundida à proteína de fusão sem um ligante. Em algumas modalidades, a NLS compreende uma sequência de aminoácidos de qualquer uma das sequências de NLS fornecidas ou referenciadas aqui. Sequências de localização nuclear adicionais são conhecidas na técnica e seriam evidentes para o versado na técnica. Por exemplo, as sequências NLS são descritas em Plank et al., PCT/EP2000/011690, cujos conteúdos são aqui incorporados por referência para a sua divulgação de sequências de localização nuclear exemplares. Em algumas modalidades, uma NLS compreende a sequência de ácido amino PKKKRKVEGADKRTADGSEFESPKKKRKV, KRTADGSEFESPKKKRKV, KRPAATKKAGQAKKKK, KKTELQTTNAENKTKKL, KRGINDRNFWRGENGRKTR, RKSGKIAAIVVKRPRKPKKKRKV, ou MDSLLMNRRKFLYQFKNVRWAKGRRETYLC.
[00394] Em algumas modalidades, a NLS está presente em um ligante ou a NLS é flanqueada por ligantes, por exemplo, os ligantes aqui descritos. Em algumas modalidades, a NLS N-terminal ou C- terminal é uma NLS bipartida. Uma NLS bipartida compreende dois agrupamentos de aminoácidos básicos, que são separados por uma sequência espaçadora relativamente curta (portanto, bipartida - 2 partes, enquanto NLSs monopartidas não são). A NLS da nucleoplasmina, KR[PAATKKAGQA]KKKK, é o protótipo do sinal bipartido ubíquo: dois agrupamentos de aminoácidos básicos, separados por um espaçador de cerca de 10 aminoácidos. A sequência de uma NLS bipartida exemplar segue: PKKKRKVEGADKRTADGSEFESPKKKRKV
[00395] Em algumas modalidades, as proteínas de fusão da invenção não compreendem uma sequência de ligação. Em algumas modalidades, as sequências de ligante entre um ou mais dos domínios ou proteínas estão presentes.
[00396] Deve ser apreciado que as proteínas de fusão da presente divulgação podem compreender uma ou mais características adicionais. Por exemplo, em algumas modalidades, a proteína de fusão pode compreender inibidores, sequências de localização citoplasmática, sequências de exportação, como sequências de exportação nuclear ou outras sequências de localização, bem como marcadores de sequência que são úteis para solubilização, purificação ou detecção da fusão proteínas. Os marcadores de proteína adequados fornecidos aqui incluem, mas não estão limitados a, marcadores de proteína transportadora de biotina carboxilase (BCCP), marcadores de myc, marcadores de calmodulina, marcadores de FLAG, marcadores de hemaglutinina (HA), marcadores de poli- histidina, também referidos como marcadores de histidina ou marcadores His, marcadores de proteína de ligação de maltose (MBP), marcadores nus, marcadores de glutationa-S (GST), marcadores de proteína fluorescente verde (GFP), marcadores de tioredoxina, marcadores S, Softags (por exemplo, Softag 1, Softag 3), strep-tags, marcadores de biotina ligase, marcadores FlAsH, marcadores V5 e marcadores SBP. Sequências adequadas adicionais serão evidentes para os versados na técnica. Em algumas modalidades, a proteína de fusão compreende um ou mais marcadores His.
[00397] Um vetor que codifica uma enzima CRISPR compreendendo uma ou mais sequências de localização nuclear (NLSs) pode ser usado. Por exemplo, pode haver ou haver cerca de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 NLSs usados. Uma enzima CRISPR pode compreender as NLSs em ou perto do terminal de munição, cerca ou mais do que cerca de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 NLSs no ou perto do terminal carbóxi, ou qualquer combinação destes (por exemplo, uma ou mais NLS no terminal de munição e uma ou mais NLS no terminal carbóxi). Quando mais de uma NLS está presente, cada uma pode ser selecionada independentemente das outras, de modo que uma única NLS possa estar presente em mais de uma cópia e/ou em combinação com uma ou mais outras NLSs presentes em uma ou mais cópias.
[00398] As enzimas CRISPR usadas nos métodos podem compreender cerca de 6 NLSs. Uma NLS é considerada próxima ao N- terminal ou C quando o aminoácido mais próximo à NLS está dentro de cerca de 50 aminoácidos ao longo de uma cadeia polipeptídica do N-terminal ou C, por exemplo, dentro de 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40 ou 50 aminoácidos.
Domínio de Edição de Nucleobase
[00399] São descritos neste documento editores de base compreendendo uma proteína de fusão que inclui um domínio de ligação de nucleotídeo programável de polinucleotídeo e um domínio de edição de nucleobase (por exemplo, um domínio de desaminase). O editor de base pode ser programado para editar uma ou mais bases em uma sequência de polinucleotídeo alvo, interagindo com um polinucleotídeo guia capaz de reconhecer a sequência alvo. Uma vez que a sequência alvo foi reconhecida, o editor de base é ancorado no polinucleotídeo onde a edição deve ocorrer, e os componentes do domínio de desaminase do editor de base podem então editar uma base de alvo.
[00400] Em algumas modalidades, o domínio de edição de nucleobase inclui um domínio de desaminase. Como particularmente descrito aqui, o domínio desaminase inclui uma adenosina desaminase. Em algumas modalidades, os termos "adenina desaminase" e "adenosina desaminase" podem ser usados indistintamente. Os detalhes das proteínas de edição de nucleobase são descritos nos Pedidos Internacionais PCT Nos. PCT/2017/045381 (WO2018/027078) e PCT/US2016/058344 (WO2017/070632), cada um dos quais é incorporado aqui por referência em sua totalidade. Vide também Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A^T to G< in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); e Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017), o todo conteúdos dos quais são aqui incorporados por referência.
Edição de A a G
[00401] Em algumas modalidades, um editor de base aqui descrito pode compreender um domínio de desaminase que inclui uma adenosina desaminase. Tal domínio de adenosina desaminase de um editor de base pode facilitar a edição de uma nucleobase de adenina (A) em uma nucleobase de guanina (G) por desaminação de A para formar inosina (I), que exibe propriedades de emparelhamento de base de G. A adenosina desaminase é capaz de desaminação (isto é, remoção de um grupo amina) adenina de um resíduo de desoxiadenosina no ácido desoxirribonucléico (DNA).
[00402] Em algumas modalidades, os editores de nucleobases fornecidos neste documento podem ser feitos pela fusão de um ou mais domínios de proteína, gerando assim uma proteína de fusão. Em certas modalidades, as proteínas de fusão fornecidas aqui compreendem uma ou mais características que melhoram a atividade de edição de base (por exemplo, eficiência, seletividade e especificidade) das proteínas de fusão. Por exemplo, as proteínas de fusão fornecidas neste documento podem compreender um domínio Cas9 que tem atividade nuclease reduzida. Em algumas modalidades, as proteínas de fusão aqui fornecidas podem ter um domínio Cas9 que não tem atividade nuclease (dCas9) ou um domínio Cas9 que corta uma fita de uma molécula de DNA duplexada, referida como uma nickase Cas9 (nCas9). Sem desejar ser limitado por qualquer teoria particular, a presença do resíduo catalítico (por exemplo, H840) mantém a atividade da Cas9 para clivar a fita não editada (por exemplo, não desaminada) contendo um T oposto ao alvo A. Mutação do resíduo catalítico (por exemplo, D10 a A10) de Cas9 evita a clivagem da fita editada contendo o resíduo A direcionado. Tais variantes de Cas9 são capazes de gerar uma quebra de DNA de fita simples (corte) em um sítio específico com base na sequência alvo definida por gRNA, levando ao reparo da fita não editada, resultando em última análise em uma mudança de T para C na fita editada. Em algumas modalidades, um editor de base de A para G adicionalmente compreende um inibidor de reparo de excisão de base de inosina, por exemplo, um domínio de inibidor de uracil glicosilase (UGI) ou uma nuclease específica de inosina cataliticamente inativa. Sem desejar ser limitado por qualquer teoria particular, o domínio UGI ou nuclease específica de inosina cataliticamente inativa pode inibir ou prevenir o reparo de excisão de base de um resíduo de adenosina desaminado (por exemplo, inosina), o que pode melhorar a atividade ou eficiência do editor de base.
[00403] Um editor de base compreendendo uma adenosina desaminase pode atuar em qualquer polinucleotídeo, incluindo DNA, RNA e híbridos de DNA-RNA. Em certas modalidades, um editor de base compreendendo uma adenosina desaminase pode desaminar um alvo A de um polinucleotídeo compreendendo RNA. Por exemplo, o editor de base pode compreender um domínio de adenosina desaminase capaz de desaminar um alvo A de um polinucleotídeo de RNA e/ou um polinucleotídeo híbrido de DNA-RNA. Em uma modalidade, uma adenosina desaminase incorporada em um editor de base compreende a totalidade ou uma porção da adenosina desaminase agindo no RNA (ADAR, por exemplo, ADAR1 ou ADAR2). Em outra modalidade, uma adenosina desaminase incorporada em um editor de base compreende a totalidade ou uma parte da adenosina desaminase que age sobre o tRNA (ADAT). Um editor de base compreendendo um domínio de adenosina desaminase também pode ser capaz de desaminar uma nucleobase A de um polinucleotídeo de DNA. Em uma modalidade, um domínio de adenosina desaminase de um editor de base compreende a totalidade ou uma parte de um ADAT compreendendo uma ou mais mutações que permitem que o ADAT desamina um alvo A no DNA. Por exemplo, o editor de base pode compreender a totalidade ou parte de um ADAT de Escherichia coli (EcTadA) compreendendo uma ou mais das seguintes mutações: D108N, A106V, D147Y, E155V, L84F, H123Y, I156F, ou uma mutação correspondente em outro adenosina desaminase.
[00404] A adenosina desaminase pode ser derivada de qualquer organismo adequado (por exemplo, E. coli). Em algumas modalidades, a adenina desaminase é uma adenosina desaminase de ocorrência natural que inclui uma ou mais mutações correspondentes a qualquer uma das mutações aqui fornecidas (por exemplo, mutações em ecTadA). O resíduo correspondente em qualquer proteína homóloga pode ser identificado, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos. As mutações em qualquer adenosina desaminase de ocorrência natural (por exemplo, tendo homologia com ecTadA) que corresponde a qualquer uma das mutações aqui descritas (por exemplo, qualquer uma das mutações identificadas em ecTadA) podem ser geradas em conformidade.
Adenosina desaminases
[00405] Em algumas modalidades, um editor de base aqui descrito pode compreender um domínio de desaminase que inclui uma adenosina desaminase. Tal domínio de adenosina desaminase de um editor de base pode facilitar a edição de uma nucleobase de adenina (A) em uma nucleobase de guanina (G) por desaminação de A para formar inosina (I), que exibe propriedades de emparelhamento de base de G. A adenosina desaminase é capaz de desaminação (isto é, remoção de um grupo amina) adenina de um resíduo de desoxiadenosina no ácido desoxirribonucléico (DNA).
[00406] Em algumas modalidades, as adenosinas desaminases fornecidas neste documento são capazes de desaminar a adenina. Em algumas modalidades, as adenosinas desaminases fornecidas neste documento são capazes de desaminar a adenina em um resíduo de desoxiadenosina de DNA. Em algumas modalidades, a adenina desaminase é uma adenosina desaminase de ocorrência natural que inclui uma ou mais mutações correspondentes a qualquer uma das mutações aqui fornecidas (por exemplo, mutações em ecTadA). Um versado na técnica será capaz de identificar o resíduo correspondente em qualquer proteína homóloga, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos. Por conseguinte, um versado na técnica seria capaz de gerar mutações em qualquer adenosina desaminase de ocorrência natural (por exemplo, tendo homologia com ecTadA) que corresponde a qualquer uma das mutações aqui descritas, por exemplo, qualquer uma das mutações identificadas em ecTadA. Em algumas modalidades, a adenosina desaminase é de um procariota. Em algumas modalidades, a adenosina desaminase é de uma bactéria. Em algumas modalidades, a adenosina desaminase é de Escherichia coli, Staphylococcus aureus, Salmonella typhi, Shewanella putrefaciens, Haemophilus influenzae, Caulobacter crescentus ou Bacillus subtilis. Em algumas modalidades, a adenosina desaminase é de E. coli.
[00407] A invenção fornece variantes de adenosina desaminase que têm eficiência aumentada (> 50-60%) e especificidade. Em particular, as variantes de adenosina desaminase aqui descritas são mais propensas a editar uma base desejada dentro de um polinucleotídeo e são menos propensas a editar bases que não se destinam a ser alteradas (ou seja, "observadores").
[00408] Em modalidades particulares, o TadA é qualquer um dos TadA descritos em PCT/US2017/045381 (WO 2018/027078), que é incorporado neste documento por referência em sua totalidade.
[00409] Em algumas modalidades, os editores de nucleobases da invenção são variantes de adenosina desaminase compreendendo uma alteração na seguinte sequência: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRQVFNAQKKAQSSTD (também denominada TadA*7.10)
[00410] Em modalidades particulares, as proteínas de fusão compreendem uma única (por exemplo, fornecida como um monômero) variante de TadA*8. Em algumas modalidades, o TadA*8 está ligado a uma nickase Cas9. Em algumas modalidades, as proteínas de fusão da invenção compreendem como um heterodímero de um TadA de tipo selvagem (TadA(wt)) ligado a uma variante de TadA*8. Em outras modalidades, as proteínas de fusão da invenção compreendem como um heterodímero de um TadA*7.10 ligado a uma variante de TadA*8. Em algumas modalidades, o editor de base é ABE8 compreendendo um monômero da variante TadA*8. Em algumas modalidades, o editor de base é ABE8 compreendendo um heterodímero de uma variante de TadA*8 e um TadA(wt). Em algumas modalidades, o editor de base é ABE8 compreendendo um heterodímero de uma variante de TadA*8 e TadA*7.10. Em algumas modalidades, o editor de base é ABE8 compreendendo um heterodímero de uma variante de TadA*8. Em algumas modalidades, a variante TadA*8 é selecionada da Tabela 7. Em algumas modalidades, o ABE8 é selecionado da Tabela 7. Seguem as sequências relevantes: TadA de tipo selvagem (TadA(wt)) ou "a sequência de referência de TadA" MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGW NRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAG AMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILAD ECAALLSDFFRMRRQEIKAQKKAQSSTD TadA*7.10: MSEVEFSHEYW MRHALTLAKR ARDEREVPVG AVLVLNNRVI
[00411] Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, em pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntico a qualquer uma das sequências de aminoácidos estabelecidas em qualquer uma das adenosinas desaminases fornecidas neste documento. Deve ser apreciado que as adenosinas desaminases fornecidas neste documento podem incluir uma ou mais mutações (por exemplo, qualquer uma das mutações fornecidas neste documento). A divulgação fornece quaisquer domínios de desaminase com uma certa porcentagem de identidade mais qualquer uma das mutações ou combinações das mesmas aqui descritas. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais mutações em comparação com uma sequência de referência ou qualquer uma das adenosinas desaminases aqui fornecidas. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que tem pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 25, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 110, pelo menos 120, pelo menos 130, pelo menos 140, pelo menos 150, pelo menos 160 ou pelo menos pelo menos 170 resíduos de aminoácidos contíguos idênticos em comparação com qualquer uma das sequências de aminoácidos conhecidas na técnica ou aqui descritas.
[00412] Em algumas modalidades, a TadA desaminase é uma TadA desaminase de E. coli de comprimento completo. Por exemplo, em certas modalidades, a adenosina desaminase compreende a sequência de aminoácidos: MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLV HNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYV TLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNH RVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD.
[00413] Deve ser apreciado, no entanto, que adenosinas desaminases adicionais úteis no presente pedido seriam evidentes para o versado na técnica e estão dentro do escopo desta divulgação. Por exemplo, a adenosina desaminase pode ser um homólogo da adenosina desaminase que atua no tRNA (ADAT). Sem limitação, as sequências de aminoácidos de homólogos AD AT exemplares incluem o seguinte: TadA de Staphylococcus aureus: MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRE TLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMS RIPRVVYGADDPKGGCSGS LMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN TadA de Bacillus subtilis: MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQR SIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVE KVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLS AFFRELRKKKKAARKNLSE TadA de Salmonella typhimurium (S. typhimurium): MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLV HNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYV TLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNH RVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV TadA de Shewanella putrefaciens (S. putrefaciens): MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQ HDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRI ARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQL SRFFKRRRDEKKALKLAQRAQQGIE TadA de Haemophilus influenzae F3031 (H. influenzae): MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGE GWNLSIVQSDPTAHAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCA GAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEE CSQKLSTFFQKRREEKKIEKALLKSLSDK TadA de Caulobacter crescentus (C. crescentus): MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIAT AGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMC AGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGV LADESADLLRGFFRARRKAKI TadA de Geobacter sulfurreducens (G. sulfurreducens): MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRG HNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMC MGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVC QEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
[00414] Uma modalidade de TadA de E. Coli (ecTadA) inclui o seguinte: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRQVFNAQKKAQSSTD
[00415] Em algumas modalidades, a adenosina desaminase é de um procariota. Em algumas modalidades, a adenosina desaminase é de uma bactéria. Em algumas modalidades, a adenosina desaminase é de Escherichia coli, Staphylococcus aureus, Salmonella typhi, Shewanella putrefaciens, Haemophilus influenzae, Caulobacter crescentus ou Bacillus subtilis. Em algumas modalidades, a adenosina desaminase é de E. coli.
[00416] Em uma modalidade, uma proteína de fusão da invenção compreende um TadA de tipo selvagem ligado a TadA7.10, que está ligado a nickase Cas9. Em modalidades particulares, as proteínas de fusão compreendem um único domínio TadA7.10 (por exemplo, fornecido como um monômero). Em outras modalidades, o editor ABE7.10 compreende TadA7.10 e TadA(wt), que são capazes de formar heterodímeros.
[00417] Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, em pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntico a qualquer uma das sequências de aminoácidos estabelecidas em qualquer uma das adenosinas desaminases fornecidas neste documento. Deve ser apreciado que as adenosinas desaminases fornecidas neste documento podem incluir uma ou mais mutações (por exemplo, qualquer uma das mutações fornecidas neste documento). A divulgação fornece quaisquer domínios de desaminase com uma certa porcentagem de identidade mais qualquer uma das mutações ou combinações das mesmas aqui descritas. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais mutações em comparação com uma sequência de referência ou qualquer uma das adenosinas desaminases aqui fornecidas. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que tem pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 25, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 110, pelo menos 120, pelo menos 130, pelo menos 140, pelo menos 150, pelo menos 160 ou pelo menos pelo menos 170 resíduos de aminoácidos contíguos idênticos em comparação com qualquer uma das sequências de aminoácidos conhecidas na técnica ou aqui descritas.
[00418] Deve ser apreciado que qualquer uma das mutações aqui fornecidas (por exemplo, com base na sequência de referência de TadA) pode ser introduzida em outras adenosina desaminases, como TadA de E. coli (ecTadA), S. aureus TadA (saTadA) ou outra adenosinas desaminases (por exemplo, adenosinas desaminases bacterianas). Será evidente para o versado na técnica que desaminases adicionais podem ser alinhadas de forma semelhante para identificar resíduos de aminoácidos homólogos que podem ser mutados como aqui fornecido. Assim, qualquer uma das mutações identificadas na sequência de referência de TadA pode ser feita em outras adenosinas desaminases (por exemplo, ecTada) que possuem resíduos de aminoácidos homólogos. Também deve ser apreciado que qualquer uma das mutações fornecidas neste documento pode ser feita individualmente ou em qualquer combinação na sequência de referência de TadA ou outra adenosina desaminase.
[00419] Em algumas modalidades, a adenosina desaminase compreende uma mutação D108X na sequência de referência de TadA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação D108G, D108N, D108V, D108A ou D108Y, ou uma mutação correspondente em outra adenosina desaminase.
[00420] Em algumas modalidades, a adenosina desaminase compreende uma mutação A106X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação A106V na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, TadA ou ecTadA de tipo selvagem).
[00421] Em algumas modalidades, a adenosina desaminase compreende uma mutação E155X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde a presença de X indica qualquer aminoácido diferente do aminoácido correspondente no tipo selvagem adenosina desaminase. Em algumas modalidades, a adenosina desaminase compreende uma mutação E155D, E155G ou E155V na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00422] Em algumas modalidades, a adenosina desaminase compreende uma mutação D147X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase do tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende um D147Y, mutação na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00423] Em algumas modalidades, a adenosina desaminase compreende um A106X, E155X ou D147X, mutação na sequência de referência de TadA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente em a adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação E155D, E155G ou E155V. Em algumas modalidades, a adenosina desaminase compreende um D147Y.
[00424] Por exemplo, uma adenosina desaminase pode conter uma mutação D108N, A106V, E155V e/ou D147Y na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, uma adenosina desaminase compreende o seguinte grupo de mutações (grupos de mutações são separados por um ";") na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA): D108N e A106V; D108N e E155V; D108N e D147Y; A106V e E155V; A106V e D147Y; E155V e D147Y; D108N, A106V e E155V; D108N, A106V e D147Y; D108N, E155V e D147Y; A106V, E155V e D 147Y; e D108N, A106V, E155V e D147Y. Deve ser apreciado, no entanto, que qualquer combinação de mutações correspondentes aqui fornecidas pode ser feita em uma adenosina desaminase (por exemplo, ecTadA).
[00425] Em algumas modalidades, a adenosina desaminase compreende um ou mais de um H8X, T17X, L18X, W23X, L34X, W45X, R51X, A56X, E59X, E85X, M94X, I95X, V102X, F104X, A106X, R107X, D108X, K110, N127X, A138X, F149X, M151X, R153X, Q154X, I156X e/ou mutação K157X na sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende um ou mais dentre H8Y, T17S, L18E, W23L, L34S, W45L, R51H, A56E, ou A56S, E59G, E85K, ou E85G, M94L, I95L, V102A, F104L, A106V, R107C, ou R107H, ou R107P, D108G ou D108N, ou D108V, ou D108A, ou D108Y, K110I, M118K, N127S, A138V, F149Y, M151V, R153C, Q154L, I156D, e/ou referência de mutação K157R, e/ou K157R ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00426] Em algumas modalidades, a adenosina desaminase compreende um ou mais de uma mutação H8X, D108X e/ou N127X na sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido. Em algumas modalidades, a adenosina desaminase compreende um ou mais de uma mutação H8Y, D108N e/ou N127S na sequência de referência de TadA ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00427] Em algumas modalidades, a adenosina desaminase compreende uma ou mais de mutação H8X, R26X, M61X, L68X, M70X, A106X, D108X, A109X, N127X, D147X, R152X, Q154X, E155X, K161X, Q163X, e/ou T166A na sequência de referência, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma ou mais de mutação H8Y, R26W, M61I, L68Q, M70V, A106T, D108N, A109T, N127S, D147Y, R152C, Q154H ou Q154R, E155G ou E155V ou E155D, K166Q, na sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00428] Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco ou seis mutações selecionadas a partir do grupo que consiste em H8X, D108X, N127X, D147X, R152X e Q154X na sequência de referência de TadA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco, seis, sete ou oito mutações selecionadas a partir do grupo que consiste em H8X, M61X, M70X, D108X, N127X, Q154X, E155X e Q163X na sequência de referência de TadA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas a partir do grupo que consiste em H8X, D108X, N127X, E155X e T166X na sequência de referência de TadA ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem.
[00429] Em algumas modalidades, a adenosina desaminase compreende uma, dois, três, quatro, cinco ou seis mutações selecionadas a partir do grupo que consiste em H8X, A106X, D108X, mutação ou mutações em outra adenosina desaminase, onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco, seis, sete ou oito mutações selecionadas a partir do grupo que consiste em H8X, R26X, L68X, D108X, N127X, D147X e E155X, ou uma mutação correspondente ou mutações em outra adenosina desaminase, onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas a partir do grupo que consiste em H8X, D108X, A109X, N127X e E155X na sequência de referência de TadA ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem.
[00430] Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco ou seis mutações selecionadas a partir do grupo que consiste em H8Y, D108N, N127S, D147Y, R152C e Q154H na sequência de referência de TadA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco, seis, sete ou oito mutações selecionadas a partir do grupo que consiste em H8Y, M61I, M70V, D108N, N127S, Q154R, E155G e Q163H na sequência de referência de TadA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas a partir do grupo que consiste em H8Y, D108N, N127S, E155V e T166P na sequência de referência de TadA ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco ou seis mutações selecionadas a partir do grupo que consiste em H8Y, A106T, D108N, N127S, E155D e K161Q na sequência de referência de TadA ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco, seis, sete ou oito mutações selecionadas a partir do grupo que consiste em H8Y, R26W, L68Q, D108N, N127S, D147Y e E155V na sequência de referência de TadA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas a partir do grupo que consiste em H8Y, D108N, A109T, N127S e E155G na sequência de referência de TadA ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00431] Qualquer uma das mutações aqui fornecidas e quaisquer mutações adicionais (por exemplo, com base na sequência de aminoácidos ecTadA) podem ser introduzidas em qualquer outra adenosina desaminases. Qualquer uma das mutações fornecidas neste documento pode ser feita individualmente ou em qualquer combinação na sequência de referência de TadA ou outra adenosina desaminase (por exemplo, ecTadA).
[00432] Os detalhes das proteínas de edição de nucleobases de A a G são descritos no Pedido PCT Internacional No. PCT/2017/045381 (WO2018/027078) e Gaudelli, N.M., et al., "Programmable base editing of A^T to G< in genomic DNA without DNA cleavage" Nature, 551, 464-471 (2017), todo o conteúdo do qual é incorporado por meio deste por referência.
[00433] Em algumas modalidades, a adenosina desaminase compreende uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma mutação D108N, D108G ou D108V na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma mutação A106V e D108N na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende mutações R107C e D108N na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma mutação H8Y, D108N, N127S, D147Y e Q154H na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma mutação H8Y, D108N, N127S, D147Y e E155V na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma mutação D108N, D147Y e E155V na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma mutação H8Y, D108N e N127S na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma mutação A106V, D108N, D147Y e E155V na sequência de referência de TadA ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00434] Em algumas modalidades, a adenosina desaminase compreende um ou mais de uma mutação S2X, H8X, I49X, L84X, H123X, N127X, I156X e/ou K160X na sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adenosina desaminase, onde a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende um ou mais de S2A, H8Y, I49F, L84F, H123Y, N127S, I156F e/ou mutação K160S na sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00435] Em algumas modalidades, a adenosina desaminase compreende uma adenosina desaminase de mutação L84X, em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação L84F na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00436] Em algumas modalidades, a adenosina desaminase compreende uma mutação H123X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação H123Y na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00437] Em algumas modalidades, a adenosina desaminase compreende uma mutação I156X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação I156F na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00438] Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco, seis ou sete mutações selecionadas a partir do grupo que consiste em L84X, A106X, D108X, H123X, D147X, E155X e I156X na sequência de referência de TadA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco ou seis mutações selecionadas a partir do grupo que consiste em S2X, I49X, A106X, D108X, D147X e E155X na sequência de referência de TadA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas a partir do grupo que consiste em H8X, A106X, D108X, N127X e K160X na sequência de referência de TadA ou uma mutação ou mutações correspondentes em outra adenosina deam inase (por exemplo, ecTadA), onde X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem.
[00439] Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco, seis ou sete mutações selecionadas a partir do grupo que consiste em L84F, A106V, D108N, H123Y, D147Y, E155V e I156F na sequência de referência de TadA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco ou seis mutações selecionadas a partir do grupo que consiste em S2A, I49F, A106V, D108N, D147Y e E155V na sequência de referência de TadA.
[00440] Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas a partir do grupo que consiste em H8Y, A106T, D108N, N127S e K160S na sequência de referência de TadA ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00441] Em algumas modalidades, a adenosina desaminase compreende um ou mais de uma mutação E25X, R26X, R107X, A142X e/ou A143X na sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende um ou mais dentre E25M, E25D, E25A, E25R, E25V, E25S, E25Y, R26G, R26N, R26Q, R26C, R26L, R26K, R107P, R107K, R107A, R107N, R107HW, R107N, R107HW, R107S, A142N, A142D, A142G, A143D, A143G, A143E, A143L, A143W, A143M, A143S, A143Q e/ou mutação A143R na sequência de referência de TadA ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, Em algumas modalidades, a adenosina desaminase compreende uma ou mais das mutações aqui descritas correspondentes à sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00442] Em algumas modalidades, a adenosina desaminase compreende uma mutação E25X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação E25M, E25D, E25A, E25R, E25V, E25S ou E25Y na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00443] Em algumas modalidades, a adenosina desaminase compreende uma mutação R26X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende R26G, R26N, R26Q, R26C, R26L ou mutação R26K na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00444] Em algumas modalidades, a adenosina desaminase compreende uma mutação R107X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação R107P, R107K, R107A, R107N, R107W, R107H ou R107S na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00445] Em algumas modalidades, a adenosina desaminase compreende uma mutação A142X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende um A142N, A142D, A142G, mutação na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00446] Em algumas modalidades, a adenosina desaminase compreende uma mutação A143X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação A143D, A143G, A143E, A143L, A143W, A143M, A143S, A143Q e/ou A143R na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00447] Em algumas modalidades, a adenosina desaminase compreende um ou mais de uma mutação H36X, N37X, P48X, I49X, R51X, M70X, N72X, D77X, E134X, S146X, Q154X, K157X e/ou K161X na sequência de referência de TadA, ou um ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), onde a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma ou mais mutação de H36L, N37T, N37S, P48T, P48L, I49V, R51H, R51L, M70L, N72S, D77G, E134G, S146R, S146C, Q154H, K157N e/ou K161T na sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[00448] Em algumas modalidades, a adenosina desaminase compreende uma mutação H36X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação H36L na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00449] Em algumas modalidades, a adenosina desaminase compreende uma mutação N37X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação N37T ou N37S na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00450] Em algumas modalidades, a adenosina desaminase compreende uma mutação P48X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação P48T ou P48L na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00451] Em algumas modalidades, a adenosina desaminase compreende uma mutação R51X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase, onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação R51H ou R51L na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00452] Em algumas modalidades, a adenosina desaminase compreende uma mutação S146X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação S146R ou S146C na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00453] Em algumas modalidades, a adenosina desaminase compreende uma mutação K157X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação K157N na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00454] Em algumas modalidades, a adenosina desaminase compreende uma mutação P48X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação P48S, P48T ou P48A na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00455] Em algumas modalidades, a adenosina desaminase compreende uma mutação A142X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação A142N na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00456] Em algumas modalidades, a adenosina desaminase compreende uma mutação W23X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação W23R ou W23L na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00457] Em algumas modalidades, a adenosina desaminase compreende uma mutação R152X na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), onde X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação R152P ou R52H na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[00458] Em uma modalidade, a adenosina desaminase pode compreender as mutações H36L, R51L, L84F, A106V, D108N, H123Y, S146C, D147Y, E155V, I156F e K157N. Em algumas modalidades, a adenosina desaminase compreende a seguinte combinação de mutações em relação à sequência de referência de TadA, onde cada mutação de uma combinação é separada por um "_" e cada combinação de mutações está entre parênteses: (A106V_D108N), (R107C_D108N), (H8Y_D108N_N127S_D147Y_Q154H), (H8Y_D108N_N127S_D147Y_E155V), (D108N_D147Y_E155V), (H8Y_D108N_N127S), (H8Y_D108N_N127S_D147Y_Q154H), (A106V_D108N_D147Y_E155V), (D108Q_D147Y_E155V), (D108M_D147Y_E155V), (D108L_D147Y_E155V), (D108K_D147Y_E155V), (D108I_D147Y_E155V), (D108F_D147Y_E155V), (A106V_D108N_D147Y), (A106V_D108M_D147Y_E155V), (E59A_A106V_D108N_D147Y_E155V), (E59A cat dead_A106V_D108N_D147Y_E155V), (L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y), (L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (D103A_D104N), (G22P_D103A_D104N), (D103A_D104N_S138A), (R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y _E155V_I156F), (E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_ D147Y_E155V _I156F), (E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_ D147Y_E155V_ I156F), (R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_ D147Y_E155V _I156F), (R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_ I156F), (L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F), (R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_ D147Y_E155V _I156F), (R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y _E155V_I156F), (A106V_D108N_A142N_D147Y_E155V), (R26G_A106V_D108N_A142N_D147Y_E155V), (E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V), (R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V), (E25D_R26G_A106V_D108N_A142N_D147Y_E155V), (A106V_R107K_D108N_A142N_D147Y_E155V), (A106V_D108N_A142N_A143G_D147Y_E155V), (A106V_D108N_A142N_A143L_D147Y_E155V), (H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I1 56F _K157N), (N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155 V_I156F), (N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T), (H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F), (N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F), (H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I1 56F), (H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N), (H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F), (L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T), (N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I1 56F), (R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N), (D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I1 56F_K160E), (H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I1 56F), (Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I 156F), (E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L), (L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F), (N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F), (P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F), (W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I1 56F_Q159L), (L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E 155V_I156F_K157N), (N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K 161T), (L84F_A106V_D108N_D147Y_E155V_I156F), (R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K 157N_K161T), (L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T), (L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_ K160E_K161T), (L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_ K160E), (R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F), (L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F), (P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (P48S_A142N), (P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I1 56F_L157N), (P48T_I49V_A142N), (H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E1 55V_I156F_K157N), (H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D1 47Y_E155V_I156F (H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147 Y_E155V_I156F _K157N), (H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146 C_D147Y_E155V_ I156F _K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E1 55V_I156F_K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D1 47Y_E155V_I156F _K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D1 47Y_E155V_I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D14 7Y_E155V_I156F _K157N), (W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D1 47Y_E155V_I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D14 7Y_E155V_I156F _K161T), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R1 52H_E155V_I156F _K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R1 52P_E155V_I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D14 7Y_R152P_E155V _I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S14 6C_D147Y_E155V _I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S14 6C_D147Y_R152P _E155V_I156F_K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D14 7Y_E155V_I156F _K161T), (W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D1 47Y_R152P_E155V _I156F _K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D1 47Y_R152P_E155V _I156F _K157N).
[00459] Em certas modalidades, as proteínas de fusão aqui fornecidas compreendem uma ou mais características que melhoram a atividade de edição de base das proteínas de fusão. Por exemplo, qualquer uma das proteínas de fusão fornecidas neste documento pode compreender um domínio Cas9 que tem atividade nuclease reduzida. Em algumas modalidades, qualquer uma das proteínas de fusão aqui fornecidas pode ter um domínio Cas9 que não tem atividade nuclease (dCas9) ou um domínio Cas9 que corta uma fita de uma molécula de DNA duplexada, referida como uma nickase Cas9 (nCas9).
[00460] Em algumas modalidades, a adenosina desaminase é TadA*7.10. Em algumas modalidades, TadA*7.10 compreende pelo menos uma alteração. Em modalidades particulares, TadA*7.10 compreende uma ou mais das seguintes alterações ou alterações adicionais em TadA*7.10: Y147T, Y147R, Q154S, Y123H, V82S, T166R e Q154R. A alteração Y123H também é referida aqui como H123H (a alteração H123Y em TadA*7.10 revertida para Y123H (wt)). Em outras modalidades, o TadA*7.10 compreende uma combinação de alterações selecionadas a partir do grupo de: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R. Em modalidades particulares, uma variante de adenosina desaminase compreende uma deleção do C-terminal começando no resíduo 149, 150, 151, 152, 153, 154, 155, 156 e 157.
[00461] Em outras modalidades, um editor de base da invenção é um monômero que compreende uma variante de adenosina desaminase (por exemplo, TadA*8) que compreende uma ou mais das seguintes alterações: Y147T, Y147R, Q154S, Y123H, V82S, T166R e/ou Q154R, em relação a TadA7.10 ou a sequência de referência de TadA. Em outras modalidades, a variante da adenosina desaminase (TadA*8) é um monômero que compreende uma combinação de alterações selecionadas a partir do grupo de: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R. Em outras modalidades, um editor de base é um heterodímero que compreende uma adenosina desaminase de tipo selvagem e uma variante de adenosina desaminase (por exemplo, TadA*8) compreendendo uma ou mais das seguintes alterações Y147T, Y147R, Q154S, Y123H, V82S, T166R, e/ou Q154R, em relação a TadA7.10 ou a sequência de referência de TadA. Em outras modalidades, o editor de base é um heterodímero que compreende um domínio TadA*7.10 e um domínio variante da adenosina desaminase (por exemplo, TadA*8) que compreende uma combinação de alterações selecionadas a partir do grupo de: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R,.
[00462] Em uma modalidade, uma adenosina desaminase é um TadA*8 que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCTFFRMPRQVFNAQKKAQSSTD
[00463] Em algumas modalidades, o TadA*8 é truncado. Em algumas modalidades, o TadA*8 truncado está faltando 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 17, 18, 19 ou 20 resíduos de aminoácidos N-terminais em relação ao TadA*8 de comprimento completo. Em algumas modalidades, o TadA*8 truncado está faltando 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 17, 18, 19 ou 20 resíduos de aminoácidos do C-terminal em relação ao TadA*8 de comprimento completo. Em algumas modalidades, a variante da adenosina desaminase é um TadA*8 de comprimento completo.
[00464] Em algumas modalidades, o TadA*8 é TadA*8.1, TadA*8.2, TadA*8.3, TadA*8.4, TadA*8.5, TadA*8.6, TadA*8.7, TadA*8.8, TadA*8.9, TadA*8.10, TadA*8,11, TadA*8,12, TadA*8,13, TadA*8,14, TadA*8,15, TadA*8,16, TadA*8,17, TadA*8,18, TadA*8,19, TadA*8,20, TadA*8,21, TadA*8,22, TadA*8,23, TadA*8.24.
[00465] Em uma modalidade, uma proteína de fusão da invenção compreende um TadA de tipo selvagem que está ligado a uma variante de adenosina desaminase aqui descrita (por exemplo, TadA*8), que está ligada a nickase Cas9. Em modalidades particulares, as proteínas de fusão compreendem um único domínio TadA*8 (por exemplo, fornecido como um monômero). Em outras modalidades, o editor de base compreende TadA*8 e TadA(wt), que são capazes de formar heterodímeros. Seguem sequências exemplares:
[00466] TadA(wt), "a sequência de referência de TadA": MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGW NRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAG AMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILAD ECAALLSDFFRMRRQEIKAQKKAQSSTD
[00467] TadA*7.10: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRQVFNAQKKAQSSTD
[00468] TadA*8: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCTFFRMPRQVFNAQKKAQSSTD.
[00469] Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, em pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntica a qualquer uma das sequências de aminoácidos estabelecidas em qualquer uma das adenosinas desaminases fornecidas neste documento. Deve ser apreciado que as adenosinas desaminases fornecidas neste documento podem incluir uma ou mais mutações (por exemplo, qualquer uma das mutações fornecidas neste documento). A divulgação fornece quaisquer domínios de desaminase com uma certa porcentagem de identidade mais qualquer uma das mutações ou combinações das mesmas aqui descritas. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais mutações em comparação com uma sequência de referência ou qualquer uma das adenosinas desaminases aqui fornecidas. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácidos que tem pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 25, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 110, pelo menos 120, pelo menos 130, pelo menos 140, pelo menos 150, pelo menos 160 ou pelo menos pelo menos 170 resíduos de aminoácidos contíguos idênticos em comparação com qualquer uma das sequências de aminoácidos conhecidas na técnica ou aqui descritas. Em modalidades particulares, um TadA*8 compreende uma ou mais mutações em qualquer uma das seguintes posições mostradas em negrito. Em outras modalidades, um TadA*8 compreende uma ou mais mutações em qualquer uma das posições mostradas com sublinhado: MSEVEFSHEY WMRHALTLAK RARDEREVPV GAVLVLNNRV IGEGWNRAIG LHDPTAHAEI MALRQGGLVM QNYRLIDATL YVTFEPCVMC AGAMIHSRIG RVVFGVRNAK TGAAGSLMDV LHYPGMNHRV EITEGILADE CAALLCTFFR MPRQVFNAQK KAQSSTD
[00470] Por exemplo, o TadA*8 compreende alterações na posição de aminoácido 82 e/ou 166 (por exemplo, V82S, T166R) sozinho ou em combinação com qualquer um ou mais dos seguintes Y147T, Y147R, Q154S, Y123H e/ou Q154R, em relação a TadA7.10 ou wtTadA, ou uma sequência correspondente dos mesmos. Em modalidades particulares, uma combinação de alterações é selecionada a partir do grupo de: Y147T + Q154R; Y147T + Q154S; Y147R + Q154S; V82S + Q154S; V82S + Y147R; V82S + Q154R; V82S + Y123H; I76Y + V82S; V82S + Y123H + Y147T; V82S + Y123H + Y147R; V82S + Y123H + Q154R; Y147R + Q154R + Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y123H + Y147R + Q154R + I76Y; V82S + Y123H + Y147R + Q154R; e I76Y + V82S + Y123H + Y147R + Q154R.
[00471] Em algumas modalidades, a adenosina desaminase é TadA*8, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase: MSEVEFSHEY WMRHALTLAK RARDEREVPV GAVLVLNNRV IGEGWNRAIG LHDPTAHAEI MALRQGGLVM QNYRLIDATL YVTFEPCVMC AGAMIHSRIG RVVFGVRNAK TGAAGSLMDV LHYPGMNHRV EITEGILADE CAALLCTFFR MPRQVFNAQK KAQSSTD
[00472] Em algumas modalidades, o TadA*8 é truncado. Em algumas modalidades, o TadA*8 truncado está faltando 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 17, 18, 19 ou 20 resíduos de aminoácidos N-terminais em relação ao TadA*8 de comprimento completo. Em algumas modalidades, o TadA*8 truncado está faltando 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 6, 17, 18, 19 ou 20 resíduos de aminoácidos do C-terminal em relação ao TadA*8 de comprimento completo. Em algumas modalidades, a variante da adenosina desaminase é um TadA*8 de comprimento completo.
[00473] Em uma modalidade, uma proteína de fusão da invenção compreende um TadA de tipo selvagem que está ligado a uma variante de adenosina desaminase aqui descrita (por exemplo, TadA*8), que está ligada a nickase Cas9. Em modalidades particulares, as proteínas de fusão compreendem um único domínio TadA*8 (por exemplo, fornecido como um monômero). Em outras modalidades, o editor de base compreende TadA*8 e TadA(wt), que são capazes de formar heterodímeros.
Domínios Adicionais
[00474] Um editor de base aqui descrito pode incluir qualquer domínio que ajude a facilitar a edição, modificação ou alteração de uma nucleobase de um polinucleotídeo. Em algumas modalidades, um editor de base compreende um domínio de ligação de nucleotídeo programável de polinucleotídeo (por exemplo, Cas9), um domínio de edição de nucleobase (por exemplo, domínio de desaminase) e um ou mais domínios adicionais. Em algumas modalidades, o domínio adicional pode facilitar funções enzimáticas ou catalíticas do editor de base, funções de ligação do editor de base ou ser inibidores da maquinaria celular (por exemplo, enzimas) que podem interferir com o resultado de edição de base desejado. Em algumas modalidades, um editor de base pode compreender uma nuclease, uma nickase, uma recombinase, uma desaminase, uma metiltransferase, uma metilase, uma acetilase, uma acetiltransferase, um ativador transcricional ou um domínio repressor transcricional.
[00475] Em algumas modalidades, um editor de base pode compreender um domínio de inibidor de uracil glicosilase (UGI). Em algumas modalidades, a resposta de reparo de DNA celular à presença de DNA heteroduplex U: G pode ser responsável por uma diminuição na eficiência de edição de nucleobase nas células. Em tais modalidades, a glicosilase de uracil DNA (UDG) pode catalisar a remoção de U do DNA em células, o que pode iniciar o reparo de excisão de base (BER), resultando principalmente na reversão do par U: G para um par C: G. Em tais modalidades, o BER pode ser inibido em editores de base compreendendo um ou mais domínios que ligam a fita simples, bloqueiam a base editada, inibem UGI, inibem BER, protegem a base editada e/ou promovem o reparo da fita não editada. Assim, esta divulgação contempla uma proteína de fusão de editor de base compreendendo um domínio UGI.
[00476] Em algumas modalidades, um editor de base compreende como um domínio a totalidade ou uma parte de uma proteína de ligação de quebra de fita dupla (DSB). Por exemplo, uma proteína de ligação a DSB pode incluir uma proteína Gam do bacteriófago Mu que pode se ligar às extremidades das DSBs e pode protegê-las da degradação. Vide Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017), o todo cujo conteúdo é aqui incorporado por referência.
[00477] Além disso, em algumas modalidades, uma proteína Gam pode ser fundida a um N-terminal de um editor de base. Em algumas modalidades, uma proteína Gam pode ser fundida a um C-terminal de um editor de base. A proteína Gam do bacteriófago Mu pode se ligar às extremidades das quebras de fita dupla (DSBs) e protegê-las da degradação. Em algumas modalidades, o uso de Gam para ligar as extremidades livres de DSB pode reduzir a formação de indel durante o processo de edição de base. Em algumas modalidades, a proteína Gam de 174 resíduos é fundida ao N-terminal dos editores de base. Vide. Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017). Em algumas modalidades, uma mutação ou mutações podem alterar o comprimento de um domínio de editor de base em relação a um domínio de tipo selvagem. Por exemplo, uma deleção de pelo menos um aminoácido em pelo menos um domínio pode reduzir o comprimento do editor de base. Em outro caso, uma mutação ou mutações não alteram o comprimento de um domínio em relação a um domínio de tipo selvagem. Por exemplo, substituição (s) em qualquer domínio altera/não altera o comprimento do editor de base.
[00478] Em algumas modalidades, um editor de base pode compreender como um domínio a totalidade ou uma parte de uma polimerase de ácido nucleico (NAP). Por exemplo, um editor de base pode compreender a totalidade ou parte de uma NAP eucariótica. Em algumas modalidades, uma NAP ou porção da mesma incorporada em um editor de base é uma DNA polimerase. Em algumas modalidades, uma NAP ou porção da mesma incorporada em um editor de base tem atividade de polimerase de transição. Em algumas modalidades, uma NAP ou porção da mesma incorporada em um editor de base é uma DNA polimerase de transcrição. Em algumas modalidades, uma NAP ou porção da mesma incorporada em um editor de base é um complexo Rev7, Rev1, polimerase iota, polimerase kappa ou polimerase eta. Em algumas modalidades, uma NAP ou porção da mesma incorporada em um editor de base é um componente alfa, beta, gama, delta, épsilon, gama, eta, iota, kappa, lambda, mu ou nu da polimerase eucariótica. Em algumas modalidades, uma NAP ou porção da mesma incorporada em um editor de base compreende uma sequência de aminoácidos que é pelo menos 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, ou 99,5% idêntica a uma polimerase de ácido nucléico (por exemplo, uma DNA polimerase de translesão).
SISTEMA DE EDITOR DE BASE
[00479] O uso do sistema de editor de base fornecido aqui compreende as etapas de: (a) contatar uma sequência de nucleotídeo alvo de um polinucleotídeo (por exemplo, DNA ou RNA de fita dupla ou simples) de um indivíduo com um sistema de editor de base compreendendo um editor de nucleobase (por exemplo, um editor de base de adenosina) e um ácido polinucleico guia (por exemplo, gRNA), em que a sequência de nucleotídeos alvo compreende um par de nucleobases direcionadas; (b) induzir a separação da cadeia da referida região alvo; (c) converter uma primeira nucleobase do referido par de nucleobases alvo em uma única fita da região alvo em uma segunda nucleobase; e (d) não cortar mais do que uma fita da referida região alvo, onde uma terceira nucleobase complementar à primeira base da nucleobase é substituída por uma quarta nucleobase complementar à segunda nucleobase. Deve ser apreciado que em algumas modalidades, a etapa (b) é omitida. Em algumas modalidades, o referido par de nucleobases direcionados é uma pluralidade de pares de nucleobases em um ou mais genes. Em algumas modalidades, o sistema de editor de base fornecido neste documento é capaz de edição multiplex de uma pluralidade de pares de nucleobases em um ou mais genes. Em algumas modalidades, a pluralidade de pares de nucleobases está localizada no mesmo gene. Em algumas modalidades, a pluralidade de pares de nucleobases está localizada em um ou mais genes, em que pelo menos um gene está localizado em um locus diferente.
[00480] Em algumas modalidades, a fita simples eliminada (fita cortada) é hibridizada com o ácido nucleico guia. Em algumas modalidades, a fita simples eliminada é oposta à fita que compreende a primeira nucleobase. Em algumas modalidades, o editor de base compreende um domínio Cas9. Em algumas modalidades, a primeira base é adenina e a segunda base não é G, C, A ou T. Em algumas modalidades, a segunda base é inosina.
[00481] O sistema de edição de base, conforme fornecido neste documento, fornece uma nova abordagem para a edição do genoma que usa uma proteína de fusão contendo uma Cas9 de Streptococcus pyogenes cataliticamente defeituosa, uma adenosina desaminase e um inibidor de reparo de excisão de base para induzir um único nucleotídeo programável (C ^ T ou A ^ G) mudanças no DNA sem gerar quebras de DNA de fita dupla, sem exigir um molde de DNA doador e sem induzir um excesso de inserções e deleções estocásticas.
[00482] São fornecidos aqui sistemas, composições e métodos para editar uma nucleobase usando um sistema de editor de base. Em algumas modalidades, o sistema de editor de base compreende (1) um editor de base (BE) que compreende um domínio de ligação de nucleotídeo programável de polinucleotídeo e um domínio de edição de nucleobase (por exemplo, um domínio de desaminase) para editar a nucleobase; e (2) um polinucleotídeo guia (por exemplo, RNA guia) em conjunto com o domínio de ligação de nucleotídeo programável do polinucleotídeo. Em algumas modalidades, o sistema de editor de base compreende um editor de base de adenosina (ABE). Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio de ligação de DNA programável de polinucleotídeo. Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio de ligação de RNA programável de polinucleotídeo. Em algumas modalidades, o domínio de edição de nucleobase é um domínio de desaminase. Em algumas modalidades, um domínio desaminase pode ser uma adenina desaminase ou uma adenosina desaminase. Em algumas modalidades, o editor de base de adenosina pode desaminar a adenina no DNA. Em algumas modalidades, ABE compreende uma variante de TadA evoluída.
[00483] Os detalhes das proteínas de edição de nucleobase são descritos nos Pedidos Internacionais PCT Nos. PCT/2017/045381 (WO2018/027078) e PCT/US2016/058344 (WO2017/070632), cada um dos quais é incorporado aqui por referência em sua totalidade. Vide também Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A^T to G^C in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); e Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017), o todo conteúdos dos quais são aqui incorporados por referência.
[00484] Em algumas modalidades, um único polinucleotídeo guia pode ser utilizado para direcionar uma desaminase para uma sequência de ácido nucleico alvo. Em algumas modalidades, um único par de polinucleotídeos guia pode ser utilizado para direcionar diferentes desaminases para uma sequência de ácido nucleico alvo.
[00485] Os componentes de nucleobase e o componente de ligação de nucleotídeo programável de polinucleotídeo de um sistema de editor de base podem ser associados um ao outro de forma covalente ou não covalente. Por exemplo, em algumas modalidades, o domínio desaminase pode ser direcionado para uma sequência de nucleotídeos alvo por um domínio de ligação de nucleotídeos programável de polinucleotídeo. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser fundido ou ligado a um domínio de desaminase. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ter como alvo um domínio de desaminase para uma sequência de nucleotídeo alvo por interação não covalente ou associação com o domínio de desaminase. Por exemplo, em algumas modalidades, o componente de edição de nucleobase, por exemplo, o componente de desaminase pode compreender uma porção ou domínio heterólogo adicional que é capaz de interagir, se associar ou formar um complexo com uma porção ou domínio heterólogo adicional que é parte de um domínio de ligação de nucleotídeo programável de polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a, interagir com, se associar com, ou formar um complexo com um polipeptídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir, se associar ou formar um complexo com um polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um polinucleotídeo guia. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. A porção heteróloga adicional pode ser um domínio de proteína. Em algumas modalidades, a porção heteróloga adicional pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de proteína de revestimento SfMu Com, um motivo alfa estérila, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telomerase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[00486] Um sistema de editor de base pode adicionalmente compreender um componente de polinucleotídeo guia. Deve ser apreciado que os componentes do sistema de editor de base podem ser associados entre si por meio de ligações covalentes, interações não covalentes ou qualquer combinação de associações e interações das mesmas. Em algumas modalidades, um domínio desaminase pode ser direcionado a uma sequência de nucleotídeos alvo por um polinucleotídeo guia. Por exemplo, em algumas modalidades, o componente de edição de nucleobase do sistema de editor de base, por exemplo, o componente desaminase, pode compreender uma porção ou domínio heterólogo adicional (por exemplo, domínio de ligação de polinucleotídeo, como uma proteína de ligação de RNA ou de DNA) que é capaz de interagir com, se associar ou ser capaz de formar um complexo com uma porção ou segmento (por exemplo, um motivo de polinucleotídeo) de um polinucleotídeo guia. Em algumas modalidades, a porção ou domínio heterólogo adicional (por exemplo, domínio de ligação de polinucleotídeo, como uma proteína de ligação de RNA ou de DNA) pode ser fundido ou ligado ao domínio de desaminase. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir com, se associar ou formar um complexo com um polipeptídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir, se associar ou formar um complexo com um polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um polinucleotídeo guia. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. A porção heteróloga adicional pode ser um domínio de proteína. Em algumas modalidades, a porção heteróloga adicional pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de proteína de revestimento SfMu Com, um motivo alfa estérila, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telomerase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[00487] Em algumas modalidades, um sistema de editor de base pode adicionalmente compreender um componente inibidor de reparo de excisão de base (BER). Deve ser apreciado que os componentes do sistema de editor de base podem ser associados entre si por meio de ligações covalentes, interações não covalentes ou qualquer combinação de associações e interações das mesmas. O inibidor do componente BER pode compreender um inibidor de reparo de excisão de base. Em algumas modalidades, o inibidor de reparo de excisão de base pode ser um inibidor de uracil glicosilase de DNA (UGI). Em algumas modalidades, o inibidor de reparo de excisão de base pode ser um inibidor de reparo de excisão de base de inosina. Em algumas modalidades, o inibidor de reparo de excisão de base pode ser direcionado para a sequência de nucleotídeos alvo pelo domínio de ligação de nucleotídeos programável de polinucleotídeo. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser fundido ou ligado a um inibidor de reparo de excisão de base. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser fundido ou ligado a um domínio de desaminase e um inibidor de reparo de excisão de base. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ter como alvo um inibidor de reparo de excisão de base para uma sequência de nucleotídeo alvo por interação não covalente ou associação com o inibidor de reparo de excisão de base. Por exemplo, em algumas modalidades, o inibidor do componente de reparo de excisão de base pode compreender uma porção ou domínio heterólogo adicional que é capaz de interagir, se associar com, ou ser capaz de formar um complexo com uma porção ou domínio heterólogo adicional que faz parte de um domínio de ligação de nucleotídeo programável de polinucleotídeo. Em algumas modalidades, o inibidor de reparo de excisão de base pode ser direcionado para a sequência de nucleotídeos alvo pelo polinucleotídeo guia. Por exemplo, em algumas modalidades, o inibidor de reparo de excisão de base pode compreender uma porção ou domínio heterólogo adicional (por exemplo, domínio de ligação de polinucleotídeo tal como um RNA ou proteína de ligação de DNA) que é capaz de interagir, se associar ou formar um complexo com uma porção ou segmento (por exemplo, um motivo de polinucleotídeo) de um polinucleotídeo guia. Em algumas modalidades, a porção ou domínio heterólogo adicional do polinucleotídeo guia (por exemplo, domínio de ligação de polinucleotídeo, como uma proteína de ligação de RNA ou de DNA) pode ser fundido ou ligado ao inibidor de reparo de excisão de base. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar, interagir, se associar ou formar um complexo com um polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um polinucleotídeo guia. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo. A porção heteróloga adicional pode ser um domínio de proteína. Em algumas modalidades, a porção heteróloga adicional pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de proteína de revestimento SfMu Com, um motivo alfa estérila, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telomerase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[00488] Em algumas modalidades, o editor de base inibe o reparo de excisão de base (BER) da fita editada. Em algumas modalidades, o editor de base protege ou liga a fita não editada. Em algumas modalidades, o editor de base compreende atividade UGI. Em algumas modalidades, o editor de base compreende uma nuclease específica de inosina cataliticamente inativa. Em algumas modalidades, o editor de base compreende atividade nickase. Em algumas modalidades, a edição pretendida do par de bases está a montante de um sítio PAM. Em algumas modalidades, a edição pretendida do par de bases é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a montante do sítio PAM. Em algumas modalidades, a edição pretendida do par de bases está a jusante de um sítio PAM. Em algumas modalidades, o par de bases editado pretendido é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a jusante do sítio PAM.
[00489] Em algumas modalidades, o método não requer um sítio PAM canônico (por exemplo, NGG). Em algumas modalidades, o editor de nucleobases compreende um ligante ou um espaçador. Em algumas modalidades, o ligante ou espaçador tem 1-25 aminoácidos de comprimento. Em algumas modalidades, o ligante ou espaçador tem 5-20 aminoácidos de comprimento. Em algumas modalidades, o ligante ou espaçador tem 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 aminoácidos de comprimento.
[00490] Em algumas modalidades, as proteínas de fusão de edição de base fornecidas neste documento precisam ser posicionadas em um local preciso, por exemplo, onde uma base alvo é colocada dentro de uma região definida (por exemplo, uma "janela de desaminação"). Em algumas modalidades, um alvo pode estar dentro de uma região de 4 bases. Em algumas modalidades, tal região alvo definida pode ser de aproximadamente 15 bases a montante do PAM. Vide Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A< to G< in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); e Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017), o todo conteúdo dos quais são aqui incorporados por referência.
[00491] Em algumas modalidades, a região alvo compreende uma janela alvo, em que a janela alvo compreende o par de nucleobases alvo. Em algumas modalidades, a janela alvo compreende de 1 a 10 nucleotídeos. Em algumas modalidades, a janela alvo é de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos em comprimento. Em algumas modalidades, a edição pretendida do par de bases está dentro da janela alvo. Em algumas modalidades, a janela alvo compreende a edição pretendida do par de bases. Em algumas modalidades, o método é realizado usando qualquer um dos editores de base fornecidos neste documento. Em algumas modalidades, uma janela alvo é uma janela de desaminação. Uma janela de desaminação pode ser a região definida na qual um editor de base atua sobre e desamina um nucleotídeo alvo. Em algumas modalidades, a janela de desaminação está dentro de 2, 3, 4, 5, 6, 7, 8, 9 ou 10 regiões de base. Em algumas modalidades, a janela de desaminação é 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 ou 25 bases a montante do PAM.
[00492] Os editores de base da presente divulgação podem compreender qualquer domínio, característica ou sequência de aminoácidos que facilite a edição de uma sequência de polinucleotídeo alvo. Por exemplo, em algumas modalidades, o editor de base compreende uma sequência de localização nuclear (NLS). Em algumas modalidades, uma NLS do editor de base está localizado entre um domínio de desaminase e um polinucleotídeo de domínio de ligação de nucleotídeo programável. Em algumas modalidades, uma NLS do editor de base está localizada no C-terminal de um domínio de ligação de nucleotídeo programável de polinucleotídeo.
[00493] Outras características exemplares que podem estar presentes em um editor de base, conforme divulgado neste documento, são sequências de localização, tais como sequências de localização citoplasmática, sequências de exportação, tais como sequências de exportação nuclear ou outras sequências de localização, bem como marcadores de sequência que são úteis para solubilização, purificação, ou detecção das proteínas de fusão. Os marcadores de proteína adequados fornecidos aqui incluem, mas não estão limitados a, marcadores de proteína transportadora de biotina carboxilase (BCCP), marcadores de myc, marcadores de calmodulina, marcadores de FLAG, marcadores de hemaglutinina (HA), marcadores de poli-histidina, também referidos como marcadores de histidina ou marcadores His, marcadores de proteína de ligação de maltose (MBP), marcadores nus, marcadores de glutationa-S-transferase (GST), marcadores de proteína fluorescente verde (GFP), marcadores de tioredoxina, marcadores S, Softags (por exemplo, Softag 1, Softag 3), marcadores strep, marcadores de biotina ligase, marcadores FlAsH, marcadores V5 e marcadores SBP. Sequências adequadas adicionais serão evidentes para os versados na técnica. Em algumas modalidades, a proteína de fusão compreende uma ou mais marcadores His.
[00494] Exemplos não limitativos de domínios de proteína que podem ser incluídos na proteína de fusão incluem domínios de desaminase (por exemplo, adenosina desaminase), um domínio de inibidor de uracil glicosilase (UGI), marcadores de epítopo e sequências de gene repórter.
[00495] Exemplos não limitativos de marcadores de epítopo incluem marcadores de histidina (His), marcadores V5, marcadores FLAG, marcadores de hemaglutinina (HA) de influenza, marcadores Myc, marcadores VSV-G e marcadores de tioredoxina (Trx). Exemplos de genes repórter incluem, mas não estão limitados a, glutationa-5- transferase (GST), peroxidase de rábano silvestre (HRP), cloranfenicol acetiltransferase (CAT) beta-galactosidase, beta-glucuronidase, luciferase, proteína fluorescente verde (GFP), HcRed, DsRed, proteína fluorescente ciano (CFP), proteína fluorescente amarela (YFP) e proteínas autofluorescentes incluindo proteína fluorescente azul (BFP). Sequências de proteínas adicionais podem incluir sequências de aminoácidos que ligam moléculas de DNA ou ligam outras moléculas celulares, incluindo, mas não se limitando a, proteína de ligação de maltose (MBP), marcador S, fusões de domínio de ligação de DNA Lex A (DBD), fusões de domínio de ligação de DNA GAL4 e fusões de proteína BP16 do vírus herpes simplex (HSV).
[00496] Em algumas modalidades, o editor de base de adenosina (ABE) pode desaminar a adenina no DNA. Em algumas modalidades, ABE é gerado substituindo o componente APOBEC1 de BE3 por TadA de E. coli natural ou construído geneticamente, ADAR2 humano, ADA de camundongo ou ADAT2 humano. Em algumas modalidades, ABE compreende uma variante de TadA evoluída. Em algumas modalidades, o ABE é ABE 1.2 (TadA*-XTEN-nCas9-NLS). Em algumas modalidades, TadA* compreende mutações A106V e D108N.
[00497] Em algumas modalidades, o ABE é um ABE de segunda geração. Em algumas modalidades, o ABE é ABE2.1, que compreende mutações adicionais D147Y e E155V em TadA* (TadA*2.1). Em algumas modalidades, o ABE é ABE2.2, ABE2.1 fundido com a versão cataliticamente inativada da alquil adenina DNA glicosilase humana (AAG com mutação E125Q). Em algumas modalidades, o ABE é ABE2.3, ABE2.1 fundido com a versão cataliticamente inativada de Endo V de E. coli (inativada com a mutação D35A). Em algumas modalidades, o ABE é ABE2.6 que tem um ligante duas vezes mais longo (32 aminoácidos, (SGGS) 2-XTEN- (SGGS)2) que o ligante em ABE2.1. Em algumas modalidades, o ABE é ABE2.7, que é ABE2.1 preso com um monômero TadA de tipo selvagem adicional. Em algumas modalidades, o ABE é ABE2.8, que é ABE2.1 preso com um monômero TadA*2.1 adicional. Em algumas modalidades, o ABE é ABE2.9, que é uma fusão direta de TadA evoluído (TadA*2.1) com o N-terminal de ABE2.1. Em algumas modalidades, o ABE é ABE2.10, que é uma fusão direta de TadA de tipo selvagem com o N-terminal de ABE2.1. Em algumas modalidades, o ABE é ABE2.11, que é ABE2.9 com uma mutação E59A de inativação no N-terminal do monômero TadA*. Em algumas modalidades, o ABE é ABE2.12, que é ABE2.9 com uma mutação E59A de inativação no monômero TadA* interno.
[00498] Em algumas modalidades, o ABE é um ABE de terceira geração. Em algumas modalidades, o ABE é ABE3.1, que é ABE2.3 com três mutações TadA adicionais (L84F, H123Y e I156F).
[00499] Em algumas modalidades, o ABE é um ABE de quarta geração. Em algumas modalidades, o ABE é ABE4.3, que é ABE3.1 com uma mutação TadA adicional A142N (TadA*4.3).
[00500] Em algumas modalidades, o ABE é um ABE de quinta geração. Em algumas modalidades, o ABE é ABE5.1, que é gerado importando um conjunto de consenso de mutações de clones sobreviventes (H36L, R51L, S146C e K157N) para ABE3.1. Em algumas modalidades, o ABE é ABE5.3, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a um TadA* interno evoluído. Em algumas modalidades, o ABE é ABE5.2, ABE5.4, ABE5.5, ABE5.6, ABE5.7, ABE5.8, ABE5.9, ABE5.10, ABE5.11, ABE5.12, ABE5.13, ou ABE5.14, conforme mostrado na Tabela 6 abaixo. Em algumas modalidades, o ABE é um ABE de sexta geração. Em algumas modalidades, o e ABE é ABE6.1, ABE6.2, ABE6.3, ABE6.4, ABE6.5 ou ABE6.6, conforme mostrado na Tabela 6 abaixo. Em algumas modalidades, o ABE é um ABE de sétima geração. Em algumas modalidades, o ABE é ABE7.1, ABE7.2, ABE7.3, ABE7.4, ABE7.5, ABE7.6, ABE7.7, ABE7.8, ABE 7.9 ou ABE7.10, conforme mostrado em Tabela 6 abaixo.
[00501] Em algumas modalidades, o editor de base é um ABE de oitava geração (ABE8). Em algumas modalidades, o ABE8 contém uma variante TadA*8. Em algumas modalidades, o ABE8 tem um construto monomérico contendo uma variante TadA*8 ("ABE8.x-m"). Em algumas modalidades, o ABE8 é ABE8.1-m, que tem um construto monomérico contendo TadA*7.10 com uma mutação Y147T (TadA*8.1). Em algumas modalidades, o ABE8 é ABE8.2-m, que tem um construto monomérico contendo TadA*7.10 com uma mutação Y147R (TadA*8.2). Em algumas modalidades, o ABE8 é ABE8.3-m, que tem um construto monomérico contendo TadA*7.10 com uma mutação Q154S (TadA*8.3). Em algumas modalidades, o ABE8 é ABE8.4-m, que tem um construto monomérico contendo TadA*7.10 com uma mutação Y123H (TadA*8.4). Em algumas modalidades, o ABE8 é ABE8.5-m, que tem um construto monomérico contendo TadA*7.10 com uma mutação V82S (TadA*8.5). Em algumas modalidades, o ABE8 é ABE8.6-m, que tem um construto monomérico contendo TadA*7.10 com uma mutação T166R (TadA*8.6). Em algumas modalidades, o ABE8 é ABE8.7-m, que tem um construto monomérico contendo TadA*7.10 com uma mutação Q154R (TadA*8.7). Em algumas modalidades, o ABE8 é ABE8.8-m, que tem um construto monomérico contendo TadA*7.10 com mutações Y147R, Q154R e Y123H (TadA*8.8). Em algumas modalidades, o ABE8 é ABE8.9-m, que tem um construto monomérico contendo TadA*7.10 com mutações Y147R, Q154R e I76Y (TadA*8.9). Em algumas modalidades, o ABE8 é ABE8.10-m, que tem um construto monomérico contendo TadA*7.10 com mutações Y147R, Q154R e T166R (TadA*8.10). Em algumas modalidades, o ABE8 é ABE8.11-m, que tem um construto monomérico contendo TadA*7.10 com mutações Y147T e Q154R (TadA*8.11). Em algumas modalidades, o ABE8 é ABE8.12-m, que tem um construto monomérico contendo TadA*7.10 com mutações Y147T e Q154S (TadA*8.12). Em algumas modalidades, o ABE8 é ABE8.13-m, que tem um construto monomérico contendo TadA*7.10 com Y123H (Y123H revertido de H123Y), mutações Y147R, Q154R e I76Y (TadA*8.13). Em algumas modalidades, o ABE8 é ABE8.14-m, que tem um construto monomérico contendo TadA*7.10 com mutações I76Y e V82S (TadA*8.14). Em algumas modalidades, o ABE8 é ABE8.15-m, que tem um construto monomérico contendo TadA*7.10 com mutações V82S e Y147R (TadA*8.15). Em algumas modalidades, o ABE8 é ABE8.16-m, que tem um construto monomérico contendo TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Y147R (TadA*8.16). Em algumas modalidades, o ABE8 é ABE8.17-m, que tem um construto monomérico contendo TadA*7.10 com mutações V82S e Q154R (TadA*8.17). Em algumas modalidades, o ABE8 é ABE8.18-m, que tem um construto monomérico contendo TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Q154R (TadA*8.18). Em algumas modalidades, o ABE8 é ABE8.19-m, que tem um construto monomérico contendo TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y), mutações Y147R e Q154R (TadA*8.19). Em algumas modalidades, o ABE8 é ABE8.20-m, que tem um construto monomérico contendo TadA*7.10 com I76Y, V82S, Y123H (Y123H revertido de H123Y), mutações Y147R e Q154R (TadA*8.20). Em algumas modalidades, o ABE8 é ABE8.21-m, que tem um construto monomérico contendo TadA*7.10 com mutações Y147R e Q154S (TadA*8.21). Em algumas modalidades, o ABE8 é ABE8.22-m, que tem um construto monomérico contendo TadA*7.10 com mutações V82S e Q154S (TadA*8.22). Em algumas modalidades, o ABE8 é ABE8.23-m, que tem um construto monomérico contendo TadA*7.10 com mutações V82S e Y123H (Y123H revertido de H123Y) (TadA*8.23). Em algumas modalidades, o ABE8 é ABE8.24-m, que tem um construto monomérico contendo TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Y147T (TadA*8.24).
[00502] Em algumas modalidades, o ABE8 tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a uma variante de TadA*8 ("ABE8.x-d"). Em algumas modalidades, o ABE8 é ABE8.1-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com uma mutação Y147T (TadA*8.1). Em algumas modalidades, o ABE8 é ABE8.2-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com uma mutação Y147R (TadA*8.2). Em algumas modalidades, o ABE8 é ABE8.3-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com uma mutação Q154S (TadA*8.3). Em algumas modalidades, o ABE8 é ABE8.4-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com uma mutação Y123H (TadA*8.4). Em algumas modalidades, o ABE8 é ABE8.5-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com uma mutação V82S (TadA*8.5). Em algumas modalidades, o ABE8 é ABE8.6-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com uma mutação T166R (TadA*8.6). Em algumas modalidades, o ABE8 é ABE8.7-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com uma mutação Q154R (TadA*8.7). Em algumas modalidades, o ABE8 é ABE8.8-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações Y147R, Q154R e Y123H (TadA*8.8). Em algumas modalidades, o ABE8 é ABE8.9-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações Y147R, Q154R e I76Y (TadA*8.9). Em algumas modalidades, o ABE8 é ABE8.10-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações Y147R, Q154R e T166R (TadA*8.10). Em algumas modalidades, o ABE8 é ABE8.11-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações Y147T e Q154R (TadA*8.11). Em algumas modalidades, o ABE8 é ABE8.12-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações Y147T e Q154S (TadA*8.12). Em algumas modalidades, o ABE8 é ABE8.13-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com Y123H (Y123H revertido de H123Y), Y147R, Q154R e mutações I76Y (TadA*8.13) Em algumas modalidades, o ABE8 é ABE8.14-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações I76Y e V82S (TadA*8.14). Em algumas modalidades, o ABE8 é ABE8.15-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações V82S e Y147R (TadA*8.15). Em algumas modalidades, o ABE8 é ABE8.16-d, que tem um construto heterodimérico contendo TadA de E. coli f de tipo selvagem usado para TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Y147R (TadA*8.16). Em algumas modalidades, o ABE8 é ABE8.17-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações V82S e Q154R (TadA*8.17). Em algumas modalidades, o ABE8 é ABE8.18-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Q154R (TadA*8.18). Em algumas modalidades, o ABE8 é ABE8.19-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y), mutações Y147R e Q154R (TadA*8.19) Em algumas modalidades, o ABE8 é ABE8.20-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com I76Y, V82S, Y123H (Y123H revertido de H123Y), mutações Y147R e Q154R (TadA*8.20). Em algumas modalidades, o ABE8 é ABE8.21-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações Y147R e Q154S (TadA*8.21). Em algumas modalidades, o ABE8 é ABE8.22-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações V82S e Q154S (TadA*8.22). Em algumas modalidades, o ABE8 é ABE8.23-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com mutações V82S e Y123H (Y123H revertido de H123Y) (TadA*8.23). Em algumas modalidades, o ABE8 é ABE8.24-d, que tem um construto heterodimérico contendo TadA de E. coli de tipo selvagem fundido a TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Y147T (TadA*8.24).
[00503] Em algumas modalidades, o ABE8 tem um construto heterodimérico contendo TadA*7.10 fundido a uma variante de TadA*8 ("ABE8.x-7"). Em algumas modalidades, o ABE8 é ABE8.1-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com uma mutação Y147T (TadA*8.1). Em algumas modalidades, o ABE8 é ABE8.2-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com uma mutação Y147R (TadA*8.2). Em algumas modalidades, o ABE8 é ABE8.3-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com uma mutação Q154S (TadA*8.3). Em algumas modalidades, o ABE8 é ABE8.4-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com uma mutação Y123H (TadA*8.4). Em algumas modalidades, o ABE8 é ABE8.5-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com uma mutação V82S (TadA*8.5). Em algumas modalidades, o ABE8 é ABE8.6-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com uma mutação T166R (TadA*8.6). Em algumas modalidades, o ABE8 é ABE8.7-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com uma mutação Q154R (TadA*8.7). Em algumas modalidades, o ABE8 é ABE8.8-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações Y147R, Q154R e Y123H (TadA*8.8). Em algumas modalidades, o ABE8 é ABE8.9-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações Y147R, Q154R e I76Y (TadA*8.9). Em algumas modalidades, o ABE8 é ABE8.10-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações Y147R, Q154R e T166R (TadA*8.10). Em algumas modalidades, o ABE8 é ABE8.11-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações Y147T e Q154R (TadA*8.11). Em algumas modalidades, o ABE8 é ABE8.12-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações Y147T e Q154S (TadA*8.12). Em algumas modalidades, o ABE8 é ABE8.13-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com Y123H (Y123H revertido de H123Y), Y147R, Q154R e mutações I76Y (TadA*8.13). Em algumas modalidades, o ABE8 é ABE8.14-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações I76Y e V82S (TadA*8.14). Em algumas modalidades, o ABE8 é ABE8.15-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações V82S e Y147R (TadA*8.15). Em algumas modalidades, o ABE8 é ABE8.16-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Y147R (TadA*8.16). Em algumas modalidades, o ABE8 é ABE8.17-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações V82S e Q154R (TadA*8.17). Em algumas modalidades, o ABE8 é ABE8.18-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Q154R (TadA*8.18). Em algumas modalidades, o ABE8 é ABE8.19-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com V82S, Y123H (Y123H revertido de H1 23Y), mutações Y147R e Q154R (TadA*8.19). Em algumas modalidades, o ABE8 é ABE8.20-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com I76Y, V82S, Y123H (Y123H revertido de H123Y), mutações Y147R e Q154R (TadA*8.20). Em algumas modalidades, o ABE8 é ABE8.21-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações Y147R e Q154S (TadA*8.21). Em algumas modalidades, o ABE8 é ABE8.22-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações V82S e Q154S (TadA*8.22). Em algumas modalidades, o ABE8 é ABE8.23-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com mutações V82S e Y123H (Y123H revertido de H123Y) (TadA*8.23). Em algumas modalidades, o ABE8 é ABE8.24-7, que tem um construto heterodimérico contendo TadA*7.10 fundido a TadA*7.10 com V82S, Y123H (Y123H revertido de H123Y) e mutações Y147T (TadA*8.24
[00504] Em algumas modalidades, o ABE é ABE8,1-m, ABE8,2-m, ABE8,3-m, ABE8,4-m, ABE8,5-m, ABE8,6-m, ABE8,7-m, ABE8,8-m, ABE8,9-m, ABE8,10-m, ABE8,11-m, ABE8,12-m, ABE8,13-m, ABE8,14-m, ABE8,15-m, ABE8,16-m, ABE8,17-m, ABE8,18-m, ABE8,19-m, ABE8,20-m, ABE8,21-m, ABE8,22-m, ABE8,23-m, ABE8,24-m, ABE8.1-d, ABE8.2-d, ABE8.3-d, ABE8.4-d, ABE8.5-d, ABE8.6-d, ABE8.7-d, ABE8.8-d, ABE8.9-d, ABE8,10-d, ABE8,11-d, ABE8,12-d, ABE8,13-d, ABE8,14-d, ABE8,15-d, ABE8,16-d, ABE8,17 - d, ABE8.18-d, ABE8.19-d, ABE8.20-d, ABE8.21-d, ABE8.22-d, ABE8.23-d ou ABE8.24-d como mostrado na Tabela 7 abaixo. Tabela 7: Editores de base - ABE8s
[00505] Em algumas modalidades, editores de base (por exemplo, ABE8) são gerados por clonagem de uma variante de adenosina desaminase (por exemplo, TadA*8) em um arcabouço que inclui uma Cas9 permutante circular (por exemplo, CP5 ou CP6) e uma sequência de localização nuclear bipartida. Em algumas modalidades, o editor de base (por exemplo, ABE7.9, ABE7.10 ou ABE8) é uma variante NGC PAM CP5 (Cas9 de S. pyrogenes ou Cas9 de spVRQR). Em algumas modalidades, o editor de base (por exemplo, ABE7.9, ABE7.10 ou ABE8) é uma variante AGA PAM CP5 (Cas9 de S. pyrogenes ou Cas9 de spVRQR). Em algumas modalidades, o editor de base (por exemplo, ABE7.9, ABE7.10 ou ABE8) é uma variante NGC PAM CP6 (Cas9 de S. pyrogenes ou Cas9 de spVRQR). Em algumas modalidades, o editor de base (por exemplo, ABE7.9, ABE7.10 ou ABE8) é uma variante AGA PAM CP6 (Cas9 de S. pyrogenes ou Cas9 de spVRQR).
[00506] Em algumas modalidades, o ABE tem um genótipo conforme mostrado na Tabela 8 abaixo. Tabela 8. Genótipos de ABEs Tabela 8. -continuação-
[00507] Conforme mostrado na Tabela 9 abaixo, genótipos de 40 ABE8s são descritos. As posições dos resíduos na porção evoluída de TadA de E. coli de ABE são indicadas. Mudanças mutacionais em ABE8 são mostradas quando distintas das mutações de ABE7.10. Em algumas modalidades, o ABE tem um genótipo de um dos ABEs apresentados na Tabela 9 abaixo.
[00508] Em algumas modalidades, o editor de base é ABE8.1, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00509] ABE8.1_Y147T_CP5_NGC PAM_monomer MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSES ATPESSGGSSGGSEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPL IETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKES ILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSK KLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPE DNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHR DKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATL IHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKK YSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALL FDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFH RLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTD KADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIA LSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADL FLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKA LVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMD GTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYP FLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFE EVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTK VKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIE CFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLT LTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLIN GIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSG QGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIE MARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQN EKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNK VLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDEND KLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVG TALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFE SPKKKRKV*
[00510] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação e a sequência sublinhada indica uma sequência de localização nuclear bipartida.
[00511] Em algumas modalidades, o editor de base é ABE8.1, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00512] pNMG-B335 ABE8.1_Y147T_CP5_NGC PAM_monomer MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSES ATPESSGGSSGGSEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPL IETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKES ILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSK KLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPE DNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHR DKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATL IHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKK YSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALL FDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFH RLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTD KADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQL FEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIA LSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADL FLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKA LVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMD GTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYP FLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFE EVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTK VKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIE CFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLT LTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLIN GIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSG QGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIE MARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQN EKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNK VLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNL TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDEND KLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVG TALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFE SPKKKRKV*
[00513] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação e a sequência sublinhada indica uma sequência de localização nuclear bipartida.
[00514] Em algumas modalidades, o editor de base é ABE8.14, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00515] pNMG-357_ABE8.14 com NGC PAM CP5 MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGW NRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAG AMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILAD ECAALLSDFFRMRRQEIKAQKKAQSSTDGGSSGGSSGSETPGTSES ATPESSGGSSGGSMSEVEFSHEYWMRHALTLAKRARDEREVPVGA VLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATL YVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGM NHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSG GSSGSETPGTSESATPESSGGSSGGSEIGKATAKYFFYSNIMNFFKT EITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVK KTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYS VLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKE VKKDLIIKLPKYSLFELENGRKRMLASAKFLQKGNELALPSKYVNFL YLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILAD ANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIA RKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSG GSGGSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLG NTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQ EIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHE KYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDN SDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLI AQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYD DDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSAS MIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGG ASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQI HLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRF AWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVL PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKT NRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKD KDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQL KRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIH DDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVD ELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKEL GSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYD VDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYW RQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKH VAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREI NNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAK SEQEGADKRTADGSEFESPKKKRKV*
[00516] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação e a sequência sublinhada indica uma sequência de localização nuclear bipartida.
[00517] Em algumas modalidades, o editor de base é ABE8.8-m, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00518] ABE8,8-m MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADE CAALLCRFFRMPRRVFNAQKKAQSSTD SGGSSGGSSGSETPGTSES ATPESSGGSSGGS DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYL QEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYH EKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPD NSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLEN LIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTY DDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSA SMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPH QIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNS RFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEK VLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLF KTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKII KDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMK QLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQ LIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKV VDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIK ELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKN YWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQIT KHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKV REINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMI AKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETG EIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSD KLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKEL LGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKR MLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQL FVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQ AENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITG LYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV*
[00519] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação, a sequência sublinhada indica uma sequência de localização nuclear bipartida e a sequência sublinhada dupla indica mutações.
[00520] Em algumas modalidades, o editor de base é ABE8.8-d, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00521] ABE8.8-d MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGW NRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAG AMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILAD ECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSE SATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGA VLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATL YVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGM NHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTD SGGSSG GSSGSETPGTSESATPESSGGSSGGS DKKYSIGLAIGTNSVGWAVIT DEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTAR RRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERH PIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFR GHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILS ARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAE DAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILR VNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQ SKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRK QRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMT NFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSG EQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNA SLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKT YAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLK SDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGS PAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNS RERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYV DQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVP SEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFI KRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSD FRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGD YKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGK SKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYS LFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGS PEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNK HRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLD ATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV*
[00522] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação, a sequência sublinhada indica uma sequência de localização nuclear bipartida e a sequência sublinhada dupla indica mutações.
[00523] Em algumas modalidades, o editor de base é ABE8.13-m, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00524] ABE8.13-m MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADE CAALLCRFFRMPRRVFNAQKKAQSSTD SGGSSGGSSGSETPGTSES ATPESSGGSSGGS DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYL QEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYH EKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPD NSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLEN LIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTY DDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSA SMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPH QIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNS RFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEK VLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLF KTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKII KDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMK QLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQ LIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKV VDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIK ELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKN YWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQIT KHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKV REINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMI AKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETG EIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSD KLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKEL LGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKR MLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQL FVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQ AENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITG LYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV*
[00525] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação, a sequência sublinhada indica uma sequência de localização nuclear bipartida e a sequência sublinhada dupla indica mutações.
[00526] Em algumas modalidades, o editor de base é ABE8.13-d, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00527] ABE8.13-d MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGW NRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAG AMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILAD ECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSE SATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGA VLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDAT LYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPG MNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTD SGGSS GGSSGSETPGTSESATPESSGGSSGGS DKKYSIGLAIGTNSVGWAV ITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTA RRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHER HPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKF RGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAIL SARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLA EDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDIL RVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFD QSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIP YYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERM TNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLS GEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFN ASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLK TYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFL KSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAG SPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKN SRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMY VDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNV PSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAG FIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVY GDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIR KRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGF SKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEK GKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLP KYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKL KGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSA YNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKE VLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRK V*
[00528] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação, a sequência sublinhada indica uma sequência de localização nuclear bipartida e a sequência sublinhada dupla indica mutações.
[00529] Em algumas modalidades, o editor de base é ABE8.17-m, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00530] ABE8,17-m MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRRVFNAQKKAQSSTD SGGSSGGSSGSETPGTSES ATPESSGGSSGGS DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYL QEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYH EKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPD NSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLEN LIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTY DDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSA SMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPH QIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNS RFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEK VLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLF KTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKII KDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMK QLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQ LIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKV VDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIK ELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKN YWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQIT KHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKV REINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMI AKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETG EIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSD KLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKEL LGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKR MLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQL FVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQ AENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITG LYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV*
[00531] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação, a sequência sublinhada indica uma sequência de localização nuclear bipartida e a sequência sublinhada dupla indica mutações.
[00532] Em algumas modalidades, o editor de base é ABE8.17-d, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00533] ABE8.17-d MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGW NRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAG AMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILAD ECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSE SATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGA VLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATL YSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGM NHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTD SGGSSG GSSGSETPGTSESATPESSGGSSGGS DKKYSIGLAIGTNSVGWAVIT DEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTAR RRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERH PIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFR GHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILS ARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAE DAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILR VNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQ SKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRK QRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPY YVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMT NFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSG EQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNA SLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKT YAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLK SDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGS PAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNS RERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYV DQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVP SEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFI KRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSD FRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGD YKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGK SKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYS LFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGS PEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNK HRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLD ATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV*
[00534] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação, a sequência sublinhada indica uma sequência de localização nuclear bipartida e a sequência sublinhada dupla indica mutações.
[00535] Em algumas modalidades, o editor de base é ABE8.20-m, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00536] ABE8.20-m MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYSTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADE CAALLCRFFRMPRRVFNAQKKAQSSTD SGGSSGGSSGSETPGTSES ATPESSGGSSGGS DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYL QEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYH EKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPD NSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLEN LIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTY DDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSA SMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPH QIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNS RFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEK VLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLF KTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKII KDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMK QLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQ LIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKV VDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIK ELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSD YDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKN YWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQIT KHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKV REINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMI AKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETG EIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSD KLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKEL LGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKR MLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQL FVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQ AENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITG LYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV*
[00537] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação, a sequência sublinhada indica uma sequência de localização nuclear bipartida e a sequência sublinhada dupla indica mutações.
[00538] Em algumas modalidades, o editor de base é ABE8.20-d, que compreende ou consiste essencialmente na seguinte sequência ou um fragmento da mesma com atividade de adenosina desaminase:
[00539] ABE8.20-d MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGW NRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAG AMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILAD ECAALLSDFFRMRRQEIKAQKKAQSSTDSGGSSGGSSGSETPGTSE SATPESSGGSSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGA VLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDAT LYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPG MNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTD SGGSS GGSSGSETPGTSESATPESSGGSSGGS DKKYSIGLAIGTNSVGWAV ITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTA RRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHER HPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKF RGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAIL SARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLA EDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDIL RVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFD QSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLR KQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIP YYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERM TNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLS GEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFN ASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLK TYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFL KSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAG SPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKN SRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMY VDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNV PSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAG FIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVY GDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIR KRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGF SKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEK GKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLP KYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKL KGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSA YNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKE VLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKR KV*
[00540] Na sequência acima, o texto simples indica uma sequência de adenosina desaminase, a sequência em negrito indica a sequência derivada de Cas9, a sequência em itálico indica uma sequência de ligação, a sequência sublinhada indica uma sequência de localização nuclear bipartida e a sequência sublinhada dupla indica mutações.
[00541] Em algumas modalidades, um ABE8 da invenção é selecionado a partir das seguintes sequências:
[00542] monoABE8.1_bpNLS + Y147T MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSES ATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQ EIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEK YPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSD VDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQL PGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDN LLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDE HHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYK FIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILR RQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEET ITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTV YNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKED YFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSR KLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQV SGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVI EMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQN EKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKV LTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKA ERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIR EVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVK KTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSV LVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKK DLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLAS HYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDK VLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRS TKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKK KRKV
[00543] 02. monoABE8.1_bpNLS + Y147R MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCRFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSE SATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKV LGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYL QEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHE KYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNS DVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQ LPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLD NLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYD EHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFY KFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAIL RRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEE TITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFT VYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKE DYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLS RKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQ VSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIV IEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQ NEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNK VLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTK AERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLI REVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALI KKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFF KTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIV KKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYS VLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVK KDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLAS HYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDK VLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRS TKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKK KRKV
[00544] 03. monoABE8.1_bpNLS + Q154S MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSES ATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQ EIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEK YPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSD VDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQL PGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDN LLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDE HHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYK FIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILR RQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEET ITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTV YNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKED YFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSR KLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQV SGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVI EMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQN EKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKV LTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKA ERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIR EVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVK KTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSV LVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKK DLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLAS HYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDK VLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRS TKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKK KRKV
[00545] 04. monoABE8.1_bpNLS + Y123H MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADE CAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSES ATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQ EIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEK YPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSD VDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQL PGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDN LLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDE HHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYK FIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILR RQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEET ITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTV YNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKED YFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSR KLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQV SGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVI EMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQN EKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKV LTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKA ERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIR EVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVK KTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSV LVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKK DLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLAS HYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDK VLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRS TKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKK KRKV
[00546] 05. monoABE8.1_bpNLS + V82S
[00547] MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNN RVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEP CVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEI TEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGS ETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKV PSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRR KNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEG DLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSR RLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSK DTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLS ASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQI HLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPK HSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRK VTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFL DNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRR YTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLT FKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVM GRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEH PVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSF LKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLIT QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT KYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYL NAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYF FYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG FVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFL EAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPS KYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSK RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF DTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTA DGSEFESPKKKRKV
[00548] 06. monoABE8.1_bpNLS + T166R
[00549] MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNN RVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEP CVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEI TEGILADECAALLCYFFRMPRQVFNAQKKAQSSRDSGGSSGGSSGS ETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKV PSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRR KNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEG DLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSR RLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSK DTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLS ASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQI HLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPK HSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRK VTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFL DNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRR YTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLT FKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVM GRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEH PVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSF LKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLIT QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT KYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYL NAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYF FYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG FVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFL EAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPS KYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSK RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF DTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTA DGSEFESPKKKRKV
[00550] 07. monoABE8.1_bpNLS + Q154R
[00551] MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNN RVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEP CVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEI TEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGS ETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKV PSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRR KNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEG DLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSR RLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSK DTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLS ASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQI HLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPK HSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRK VTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFL DNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRR YTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLT FKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVM GRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEH PVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSF LKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLIT QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT KYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYL NAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYF FYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG FVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFL EAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPS KYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSK RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF DTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTA DGSEFESPKKKRKV
[00552] 08. monoABE8.1_bpNLS + Y147R_Q154R_Y123H
[00553] MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNN RVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEP CVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEI TEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGS ETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKV PSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRR KNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEG DLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSR RLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSK DTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLS ASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQI HLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPK HSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRK VTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFL DNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRR YTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLT FKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVM GRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEH PVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSF LKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLIT QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT KYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYL NAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYF FYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG FVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFL EAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPS KYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSK RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF DTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTA DGSEFESPKKKRKV
[00554] 09. monoABE8.1_bpNLS + Y147R_Q154R_I76Y
[00555] MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNN RVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFE PCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVE ITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGS ETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKV PSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRR KNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEG DLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSR RLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSK DTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLS ASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQI HLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPK HSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRK VTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFL DNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRR YTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLT FKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVM GRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEH PVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSF LKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLIT QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT KYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYL NAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYF FYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG FVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFL EAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPS KYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSK RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF DTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTA DGSEFESPKKKRKV
[00556] 10. monoABE8.1_bpNLS + Y147R_Q154R_T166R
[00557] MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNN RVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEP CVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEI TEGILADECAALLCRFFRMPRRVFNAQKKAQSSRDSGGSSGGSSGS ETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKV PSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRR KNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEG DLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSR RLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSK DTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLS ASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQI HLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPK HSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRK VTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFL DNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRR YTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLT FKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVM GRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEH PVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSF LKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLIT QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT KYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYL NAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYF FYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG FVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFL EAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPS KYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSK RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF DTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTA DGSEFESPKKKRKV
[00558] 11. monoABE8.1_bpNLS + Y147T_Q154R
[00559] MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNN RVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEP CVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEI TEGILADECAALLCTFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGS ETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKV PSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRR KNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIV DEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEG DLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSR RLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSK DTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLS ASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDG GASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQI HLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPK HSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRK VTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFL DNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRR YTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLT FKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVM GRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEH PVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSF LKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLIT QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT KYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYL NAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYF FYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGG FVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFL EAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPS KYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSK RVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYF DTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTA DGSEFESPKKKRKV
[00560] 12. monoABE8.1_bpNLS + Y147T_Q154S MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCTFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSES ATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQ EIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEK YPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSD VDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQL PGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDN LLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDE HHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYK FIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILR RQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEET ITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTV YNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKED YFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSR KLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQV SGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVI EMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQN EKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKV LTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKA ERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIR EVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVK KTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSV LVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKK DLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLAS HYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDK VLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRS TKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKK KRKV
[00561] 13. monoABE8.1_bpNLS + H123Y123H_Y147R_Q154R_I76Y MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADE CAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSES ATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQ EIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEK YPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSD VDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQL PGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDN LLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDE HHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYK FIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILR RQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEET ITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTV YNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKED YFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSR KLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQV SGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVI EMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQN EKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKV LTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKA ERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIR EVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVK KTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSV LVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKK DLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLAS HYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDK VLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRS TKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKK KRKV
[00562] 14. monoABE8.1_bpNLS + V82S + Q154R MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWN RAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGA MIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADE CAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSES ATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVL GNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQ EIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEK YPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSD VDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQL PGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDN LLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDE HHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYK FIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILR RQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEET ITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTV YNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKED YFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILE DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSR KLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQV SGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVI EMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQN EKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKV LTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKA ERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIR EVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIK KYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFK TEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVK KTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSV LVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKK DLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLAS HYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDK VLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRS TKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKK KRKV
[00563] Em algumas modalidades, o editor de base é uma proteína de fusão que compreende um domínio de ligação de nucleotídeo programável de polinucleotídeo (por exemplo, domínio derivado de Cas9) fundido a um domínio de edição de nucleobase (por exemplo, todo ou uma porção de um domínio de desaminase). Em certas modalidades, as proteínas de fusão aqui fornecidas compreendem uma ou mais características que melhoram a atividade de edição de base das proteínas de fusão. Por exemplo, qualquer uma das proteínas de fusão fornecidas neste documento pode compreender um domínio Cas9 que tem atividade nuclease reduzida. Em algumas modalidades, qualquer uma das proteínas de fusão aqui fornecidas pode ter um domínio Cas9 que não tem atividade nuclease (dCas9) ou um domínio Cas9 que corta uma fita de uma molécula de DNA duplexado, referida como uma nickase Cas9 (nCas9).
[00564] Em algumas modalidades, o editor de base adicionalmente compreende um domínio que compreende todo ou uma porção de um inibidor da uracil glicosilase (UGI). Em algumas modalidades, o editor de base compreende um domínio que compreende todo ou uma porção de uma proteína de ligação de uracil (UBP), como uma uracil- DNA glicosilase (UDG). Em algumas modalidades, o editor de base compreende um domínio que compreende a totalidade ou uma parte de uma polimerase de ácido nucleico. Em algumas modalidades, uma polimerase de ácido nucleico ou porção da mesma incorporada em um editor de base é uma DNA polimerase de transcrição.
[00565] Em algumas modalidades, um domínio do editor de base pode compreender vários domínios. Por exemplo, o editor de base compreendendo um domínio de ligação de nucleotídeo programável de polinucleotídeo derivado de Cas9 pode compreender um lóbulo REC e um lóbulo NUC correspondente ao lóbulo REC e lóbulo NUC de uma Cas9 de tipo selvagem ou natural. Em outro exemplo, o editor de base pode compreender um ou mais de um domínio RuvCI, domínio BH, domínio REC1, domínio REC2, domínio RuvCII, domínio L1, domínio HNH, domínio L2, domínio RuvCIII, domínio WED, domínio TOPO ou domínio CTD. Em algumas modalidades, um ou mais domínios do editor de base compreendem uma mutação (por exemplo, substituição, inserção, deleção) em relação a uma versão de tipo selvagem de um polipeptídeo compreendendo o domínio. Por exemplo, um domínio HNH de um domínio de ligação de DNA programável de polinucleotídeo pode compreender uma substituição H840A. Em outro exemplo, um domínio RuvCI de um domínio de ligação de DNA programável de polinucleotídeo pode compreender uma substituição D10A.
[00566] Domínios diferentes (por exemplo, domínios adjacentes) do editor de base divulgado neste documento podem ser conectados uns aos outros com ou sem o uso de um ou mais domínios de ligação (por exemplo, um domínio de ligação XTEN). Em algumas modalidades, um domínio de ligação pode ser uma ligação (por exemplo, ligação covalente), grupo químico ou uma molécula que liga duas moléculas ou porções, por exemplo, dois domínios de uma proteína de fusão, como, por exemplo, um primeiro domínio (por exemplo, domínio derivado de Cas9) e um segundo domínio (por exemplo, um domínio de adenosina desaminase). Em algumas modalidades, um ligante é uma ligação covalente (por exemplo, uma ligação carbono-carbono, ligação dissulfeto, ligação carbono-heteroátomo, etc.). Em certas modalidades, um ligante é uma ligação de carbono nitrogênio de uma ligação de amida. Em certas modalidades, um ligante é um ligante cíclico ou acíclico, substituído ou não substituído, ramificado ou não ramificado alifático ou heteroalifático. Em certas modalidades, um ligante é polimérico (por exemplo, polietileno, polietilenoglicol, poliamida, poliéster, etc.). Em certas modalidades, um ligante compreende um monômero, dímero ou polímero de ácido aminoalcanoico. Em algumas modalidades, um ligante compreende um ácido aminoalcanoico (por exemplo, glicina, ácido etanoico, alanina, beta-alanina, ácido 3-aminopropanoico, ácido 4- aminobutanoico, ácido 5-pentanoico, etc.). Em algumas modalidades, um ligante compreende um monômero, dímero ou polímero de ácido aminohexanoico (Ahx). Em certas modalidades, um ligante é baseado em uma porção carbocíclica (por exemplo, ciclopentano, ciclo-hexano). Em outras modalidades, um ligante compreende uma porção polietilenoglicol (PEG). Em certas modalidades, um ligante compreende uma porção aril ou heteroaril. Em certas modalidades, o ligante é baseado em um anel fenil. Um ligante pode incluir porções funcionalizadas para facilitar a ligação de um nucleófilo (por exemplo, tiol, amino) do peptídeo para o ligante. Qualquer eletrófilo pode ser usado como parte do ligante. Eletrófilos exemplares incluem, mas não estão limitados a, ésteres ativados, amidas ativadas, aceitadores de Michael, halogenetos de alquila, halogenetos de arila, halogenetos de acil e isotiocianatos. Em algumas modalidades, um ligante se junta a um domínio de ligação de gRNA de uma nuclease programável de RNA, incluindo um domínio nuclease Cas9 e o domínio catalítico de uma proteína de edição de ácido nucleico. Em algumas modalidades, um ligante se junta a um dCas9 e um segundo domínio (por exemplo, UGI, etc.).
[00567] Normalmente, um ligante é posicionado entre, ou flanqueado por, dois grupos, moléculas ou outras porções e conectado a cada um por meio de uma ligação covalente, conectando assim os dois. Em algumas modalidades, um ligante é um aminoácido ou uma pluralidade de aminoácidos (por exemplo, um peptídeo ou proteína). Em algumas modalidades, um ligante é uma molécula orgânica, grupo, polímero ou fração química. Em algumas modalidades, um ligante tem 2-100 aminoácidos de comprimento, por exemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 30-35, 35-40, 40-45, 45-50, 50-60, 60-70, 70-80, 80-90, 90100, 100-150 ou 150-200 aminoácidos de comprimento. Em algumas modalidades, o ligante é cerca de 3 a cerca de 104 (por exemplo, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 ou 100) aminoácidos de comprimento. Ligantes mais longos ou mais curtos também são contemplados. Em algumas modalidades, um domínio ligante compreende a sequência de aminoácidos SGSETPGTSESATPES, que também pode ser referida como o ligante XTEN. Qualquer método para ligar os domínios da proteína de fusão pode ser empregado (por exemplo, variando de muito flexível ligantes da forma (SGGS)n, (GGGS)n, (GGGGS)n, e (G)n, para ligantes mais rígidos da forma (EAAAK)n, (GGS)n, SGSETPGTSESATPES (vide, por exemplo, Guilinger JP, Thompson DB, Liu DR. Fusion of catalytically inactive Cas9 to FokI nuclease improves the specificity of genome modification. Nat. Biotechnol. 2014; 32(6): 577-82; todo o conteúdo é incorporado aqui por referência), ou (XP) motivo n, a fim de atingir o comprimento ideal para a atividade para o editor de nucleobases. Em algumas modalidades, n é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 ou 15. Em algumas modalidades, o ligante compreende um motivo (GGS)n, em que n é 1, 3 ou 7. Em algumas modalidades, o domínio Cas9 das proteínas de fusão aqui fornecidas são fundidos por meio de um ligante que compreende a sequência de aminoácidos SGSETPGTSESATPES. Em algumas modalidades, um ligante compreende uma pluralidade de resíduos de prolina e tem 5-21, 5-14, 5-9, 5-7 aminoácidos de comprimento, por exemplo, PAPAP, PAPAPA, PAPAPAP, PAPAPAPA, P(AP)4, P(AP)7, P(AP)10 (vide, por exemplo, Tan J, Zhang F, Karcher D, Bock R. Engineering of high-precision base editors for site-specific single nucleotide replacement. Nat Commun. 2019 Jan 25;10(1):439; todo o conteúdo é incorporado neste documento por referência). Esses ligantes ricos em prolina também são chamados de ligantes "rígidos".
[00568] Uma proteína de fusão da invenção compreende um domínio de edição de ácido nucleico. Em algumas modalidades, a desaminase é uma adenosina desaminase. Em algumas modalidades, a desaminase é uma desaminase de vertebrado. Em algumas modalidades, a desaminase é uma desaminase de invertebrado. Em algumas modalidades, a desaminase é uma desaminase humana, chimpanzé, gorila, macaco, vaca, cachorro, rato ou camundongo. Em algumas modalidades, a desaminase é uma desaminase humana. Em algumas modalidades, a desaminase é uma desaminase de rato.
Ligantes
[00569] Em certas modalidades, os ligantes podem ser usados para ligar qualquer um dos peptídeos ou domínios peptídicos da invenção. O ligante pode ser tão simples quanto uma ligação covalente ou pode ser um ligante polimérico com muitos átomos de comprimento. Em certas modalidades, o ligante é um polipeptídeo ou com base em aminoácidos. Em outras modalidades, o ligante não é semelhante a um peptídeo. Em certas modalidades, o ligante é uma ligação covalente (por exemplo, uma ligação carbono-carbono, ligação dissulfeto, ligação carbono-heteroátomo, etc.). Em certas modalidades, o ligante é uma ligação carbono-nitrogênio de uma ligação amida. Em certas modalidades, o ligante é um ligante alifático ou heteroalifático cíclico ou acíclico, substituído ou não substituído, ramificado ou não ramificado. Em certas modalidades, o ligante é polimérico (por exemplo, polietileno, polietilenoglicol, poliamida, poliéster, etc.). Em certas modalidades, o ligante compreende um monômero, dímero ou polímero de ácido aminoalcanoico. Em certas modalidades, o ligante compreende um ácido aminoalcanoico (por exemplo, glicina, ácido etanoico, alanina, beta-alanina, ácido 3-aminopropanoico, ácido 4- aminobutanoico, ácido 5-pentanoico, etc.). Em certas modalidades, o ligante compreende um monômero, dímero ou polímero de ácido aminohexanoico (Ahx). Em certas modalidades, o ligante é baseado em uma porção carbocíclica (por exemplo, ciclopentano, ciclo-hexano). Em outras modalidades, o ligante compreende uma porção de polietilenoglicol (PEG). Em outras modalidades, o ligante compreende aminoácidos. Em certas modalidades, o ligante compreende um peptídeo. Em certas modalidades, o ligante compreende uma porção aril ou heteroaril. Em certas modalidades, o ligante é baseado em um anel fenil. O ligante pode incluir porções funcionalizadas para facilitar a ligação de um nucleófilo (por exemplo, tiol, amino) do peptídeo para o ligante. Qualquer eletrófilo pode ser usado como parte do ligante. Eletrófilos exemplares incluem, mas não estão limitados a, ésteres ativados, amidas ativadas, aceitadores de Michael, halogenetos de alquila, halogenetos de arila, halogenetos de acil e isotiocianatos.
[00570] Em algumas modalidades, o ligante é um aminoácido ou uma pluralidade de aminoácidos (por exemplo, um peptídeo ou proteína). Em algumas modalidades, o ligante é uma ligação (por exemplo, uma ligação covalente), uma molécula orgânica, grupo, polímero ou porção química. Em algumas modalidades, o ligante é cerca de 3 a cerca de 104 (por exemplo, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 ou 100) aminoácidos de comprimento.
[00571] Em algumas modalidades, a adenosina desaminase e o napDNAbp são fundidos por meio de um ligante que tem 4, 16, 32 ou 104 aminoácidos de comprimento. Em algumas modalidades, o ligante tem cerca de 3 a cerca de 104 aminoácidos de comprimento. Em algumas modalidades, qualquer uma das proteínas de fusão aqui fornecidas, compreende uma adenosina desaminase e um domínio Cas9 que são fundidos um ao outro por meio de um ligante. Vários comprimentos de ligante e flexibilidades entre o domínio de desaminase (por exemplo, um ecTadA projetado) e o domínio Cas9 podem ser empregados (por exemplo, variando de ligantes muito flexíveis da forma (GGGS)n, (GGGGS)n, e (G) n a ligantes mais rígidos da forma (EAAAK)n, (SGGS)n, SGSET PGTSESATPES (vide, por exemplo, Guilinger JP, Thompson DB, Liu DR. Fusion of catalytically inactive Cas9 to FokI nuclease improves the specificity of genome modification. Nat. Biotechnol. 2014; 32(6): 577-82; todo o conteúdo é incorporado aqui por referência) e (XP)n) a fim de atingir o comprimento ideal para a atividade para o editor de nucleobase. Em algumas modalidades, n é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 ou 15. Em algumas modalidades, o ligante compreende um motivo (GGS)n, em que n é 1, 3 ou 7. Em algumas modalidades, a adenosina desaminase e o domínio Cas9 de qualquer uma das proteínas de fusão aqui fornecidas são fundidos por meio de um ligante (por exemplo, um ligante XTEN) compreendendo a sequência de aminoácidos SGSETPGTSESATPES.
Complexos Cas9 com RNAs guia
[00572] Alguns aspectos desta divulgação fornecem complexos que compreendem qualquer uma das proteínas de fusão aqui fornecidas e um RNA guia (por exemplo, um guia que visa uma mutação AF). Qualquer método para ligar os domínios da proteína de fusão pode ser empregado (por exemplo, variando de ligantes muito flexíveis da forma (GGGS)n, (GGGGS)n, e (G) n para ligantes mais rígidos da forma (EAAAK)n, (SGGS)n, SGSETPGTSESATPES (vide, por exemplo, Guilinger JP, Thompson DB, Liu DR. Fusion of catalytically inactive Cas9 to FokI nuclease improves the specificity of genome modification. Nat. Biotechnol. 2014; 32(6): 577-82; todo o conteúdo é incorporado aqui por referência) e (XP)n) a fim de atingir o comprimento ideal para a atividade para o editor de nucleobase. Em algumas modalidades, n é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 ou 15. Em algumas modalidades, o ligante compreende um motivo (GGS)n, em que n é 1, 3 ou 7. Em algumas modalidades, o domínio Cas9 das proteínas de fusão aqui fornecidas é fundido por meio de um ligante que compreende a sequência de aminoácidos SGSETPGTSESATPES.
[00573] Em algumas modalidades, o ácido nucleico guia (por exemplo, RNA guia) tem 15-100 nucleotídeos de comprimento e compreende uma sequência de pelo menos 10 nucleotídeos contíguos que é complementar a uma sequência alvo. Em algumas modalidades, o RNA guia é 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 ou 50 nucleotídeos de comprimento. Em algumas modalidades, o RNA guia compreende uma sequência de 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39 ou 40 nucleotídeos contíguos que são complementares a uma sequência alvo. Em algumas modalidades, a sequência alvo é uma sequência de DNA. Em algumas modalidades, a sequência alvo é uma sequência no genoma de uma bactéria, levedura, fungo, inseto, planta ou animal. Em algumas modalidades, a sequência alvo é uma sequência no genoma de um ser humano. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência PAM canônica (NGG). Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência PAM não canônica (por exemplo, uma sequência listada na Tabela 1 ou 5'NAA- 3’). Em algumas modalidades, o ácido nucleico guia (por exemplo, RNA guia) é complementar a uma sequência associada à anemia falciforme (SCD).
[00574] Alguns aspectos desta divulgação fornecem métodos de uso das proteínas de fusão ou complexos aqui fornecidos. Por exemplo, alguns aspectos desta divulgação fornecem métodos que compreendem contatar uma molécula de DNA com qualquer uma das proteínas de fusão fornecidas neste documento e com pelo menos um RNA guia, em que o RNA guia tem cerca de 15-100 nucleotídeos de comprimento e compreende uma sequência de pelo menos 10 nucleotídeos contíguos que são complementares a uma sequência alvo. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência AGC, GAG, TTT, GTG ou CAA. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência NGA, NGCG, NGN, NNGRRT, NNNRRT, NGCG, NGCN, NGTN, NGTN, NGTN ou 5' (TTTV).
[00575] Será entendido que a numeração das posições ou resíduos específicos nas respectivas sequências depende da proteína particular e do esquema de numeração usado. A numeração pode ser diferente, por exemplo, nos precursores de uma proteína madura e na própria proteína madura, e as diferenças nas sequências de espécie para espécie podem afetar a numeração. Um versado na técnica será capaz de identificar o respectivo resíduo em qualquer proteína homóloga e no respectivo ácido nucleico codificador por métodos bem conhecidos na técnica, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos.
[00576] Será evidente para os versados na técnica que, a fim de direcionar qualquer uma das proteínas de fusão aqui divulgadas, para um sítio alvo, por exemplo, um sítio compreendendo uma mutação a ser editada, é tipicamente necessário coexpressar a proteína de fusão juntamente com um RNA guia. Conforme explicado em mais detalhes em outro lugar neste documento, um RNA guia compreende tipicamente uma estrutura tracrRNA que permite a ligação de Cas9 e uma sequência guia, que confere especificidade de sequência à Cas9: enzima de edição de ácido nucleico/proteína de fusão de domínio. Alternativamente, o guia de RNA e o tracrRNA pode ser fornecido separadamente, como duas moléculas de ácido nucleico. Em algumas modalidades, o RNA guia compreende uma estrutura, em que a sequência guia compreende uma sequência que é complementar à sequência alvo. A sequência guia tem tipicamente 20 nucleotídeos de comprimento. As sequências de RNAs de guia adequados para direcionar Cas9: proteínas de fusão de enzima/domínio de edição de ácido nucleico para sítios alvo genômicos específicos serão evidentes para aqueles versados na técnica com base na presente divulgação. Tais sequências de RNA guia adequadas compreendem tipicamente sequências guia que são complementares a uma sequência nucleica dentro de 50 nucleotídeos a montante ou a jusante do nucleotídeo alvo a ser editado. Algumas sequências de RNA guia exemplares adequadas para direcionar qualquer uma das proteínas de fusão fornecidas para sequências alvo específicas são fornecidas neste documento.
Complexos Cas12 com RNAs guia
[00577] Alguns aspectos desta divulgação fornecem complexos que compreendem qualquer uma das proteínas de fusão aqui fornecidas e um RNA guia (por exemplo, um guia que tem como alvo um polinucleotídeo alvo para edição).
[00578] Em algumas modalidades, o ácido nucleico guia (por exemplo, RNA guia) tem 15-100 nucleotídeos de comprimento e compreende uma sequência de pelo menos 10 nucleotídeos contíguos que é complementar a uma sequência alvo. Em algumas modalidades, o RNA guia é 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 ou 50 nucleotídeos de comprimento. Em algumas modalidades, o RNA guia compreende uma sequência de 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39 ou 40 nucleotídeos contíguos que são complementares a uma sequência alvo. Em algumas modalidades, a sequência alvo é uma sequência de DNA. Em algumas modalidades, a sequência alvo é uma sequência no genoma de uma bactéria, levedura, fungo, inseto, planta ou animal. Em algumas modalidades, a sequência alvo é uma sequência no genoma de um ser humano. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência PAM canônica. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência PAM não canônica.
[00579] Alguns aspectos desta divulgação fornecem métodos de uso das proteínas de fusão ou complexos aqui fornecidos. Por exemplo, alguns aspectos desta divulgação fornecem métodos que compreendem contatar uma molécula de DNA com qualquer uma das proteínas de fusão fornecidas neste documento e com pelo menos um RNA guia, em que o RNA guia tem cerca de 15-100 nucleotídeos de comprimento e compreende uma sequência de pelo menos 10 nucleotídeos contíguos que são complementares a uma sequência alvo. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a um local, por exemplo, TTN, DTTN, GTTN, ATTN, ATTC, DTTNT, WTTN, HATY, TTTN, TTTV, TTTC, TG, RTR ou YTN PAM.
[00580] Será entendido que a numeração das posições ou resíduos específicos nas respectivas sequências depende da proteína particular e do esquema de numeração usado. A numeração pode ser diferente, por exemplo, nos precursores de uma proteína madura e na própria proteína madura, e as diferenças nas sequências de espécie para espécie podem afetar a numeração. Um versado na técnica será capaz de identificar o respectivo resíduo em qualquer proteína homóloga e no respectivo ácido nucleico codificador por métodos bem conhecidos na técnica, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos.
[00581] Será evidente para os versados na técnica que, a fim de direcionar qualquer uma das proteínas de fusão aqui divulgadas, para um sítio alvo, por exemplo, um local compreendendo uma mutação a ser editada, é tipicamente necessário coexpressar a fusão proteína juntamente com um RNA guia. Conforme explicado em mais detalhes em outro lugar neste documento, um RNA guia compreende tipicamente uma estrutura tracrRNA que permite a ligação de Cas12 e uma sequência guia, que confere especificidade de sequência ao Cas12: enzima de edição de ácido nucleico/proteína de fusão de domínio. Alternativamente, o RNA guia e o tracrRNA podem ser fornecidos separadamente, como duas moléculas de ácido nucleico. Em algumas modalidades, o RNA guia compreende uma estrutura, em que a sequência guia compreende uma sequência que é complementar à sequência alvo. A sequência guia tem tipicamente 20 nucleotídeos de comprimento. As sequências de RNAs de guia adequados para direcionar Cas12: proteínas de fusão de enzima/domínio de edição de ácido nucleico para sítios alvo genômicos específicos serão evidentes para aqueles versados na técnica com base na presente divulgação. Tais sequências de RNA guia adequadas compreendem tipicamente sequências guia que são complementares a uma sequência nucleica dentro de 50 nucleotídeos a montante ou a jusante do nucleotídeo alvo a ser editado. Algumas sequências de RNA guia exemplares adequadas para direcionar qualquer uma das proteínas de fusão fornecidas para sequências alvo específicas são fornecidas neste documento.
[00582] Os domínios do editor de base divulgado neste documento podem ser organizados em qualquer ordem, desde que o domínio desaminase seja internalizado na proteína Cas12. Exemplos não limitativos de um editor de base compreendendo uma proteína de fusão compreendendo, por exemplo, um domínio Cas12 e um domínio desaminase pode ser arranjado da seguinte forma: NH2-[Domínio Cas12]-Ligante1-[ABE8]-Ligante2-[Domínio Cas12]- COOH; NH2-[Domínio Cas12]-Ligante1-[ABE8]-[Domínio Cas12]-COOH; NH2-[Domínio Cas12]-[ABE8]-Ligante2-[Domínio Cas12]-COOH; NH2-[Domínio Cas12]-[ABE8]-[Domínio Cas12]-COOH; NH2-[Domínio Cas12]-Ligante1-[ABE8]-Ligante2-[Domínio Cas12]- [inibidor de BER de iosina]-COOH; NH2-[Domínio Cas12]-Ligante1-[ABE8]-[Domínio Cas12]-[inibidor de BER de iosina]-COOH; NH2-[Domínio Cas12]-[ABE8]-Ligante2-[Domínio Cas12]-[inibidor de BER de iosina]-COOH;; NH2-[Domínio Cas12]-[ABE8]-[Domínio Cas12]-[inibidor de BER de iosina]-COOH; NH2-[inibidor de BER de iosina]-[Domínio Cas12]-Ligante1-[ABE8]- Ligante2-[Domínio Cas12]-COOH; NH2-[inibidor de BER de iosina]-[Domínio Cas12]-Ligante1-[ABE8]- [Domínio Cas12]-COOH; NH2-[inibidor de BER de iosina]-[Domínio Cas12]-[ABE8]-Ligante2- [Domínio Cas12]-COOH; NH2-[inibidor de BER de iosina]NH2-[Domínio Cas12]-[ABE8]- [Domínio Cas12]-COOH;
[00583] Além disso, em alguns casos, uma proteína Gam pode ser fundida a um N-terminal de um editor de base. Em alguns casos, uma proteína Gam pode ser fundida a um C-terminal de um editor de base. A proteína Gam do bacteriófago Mu pode se ligar às extremidades das quebras de fita dupla (DSBs) e protegê-las da degradação. Em algumas modalidades, o uso de Gam para ligar as extremidades livres de DSB pode reduzir a formação de indel durante o processo de edição de base. Em algumas modalidades, a proteína Gam de 174 resíduos é fundida ao N-terminal dos editores de base. Vide. Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017). Em alguns casos, uma mutação ou mutações podem alterar o comprimento de um domínio de editor de base em relação a um domínio de tipo selvagem. Por exemplo, uma deleção de pelo menos um aminoácido em pelo menos um domínio pode reduzir o comprimento do editor de base. Em outro caso, uma mutação ou mutações não alteram o comprimento de um domínio em relação a um domínio de tipo selvagem. Por exemplo, substituição (s) em qualquer domínio altera/não altera o comprimento do editor de base.
[00584] Em algumas modalidades, as proteínas de fusão de edição de base fornecidas neste documento precisam ser posicionadas em um local preciso, por exemplo, onde uma base alvo é colocada dentro de uma região definida (por exemplo, uma "janela de desaminação"). Em alguns casos, um alvo pode estar dentro de uma região de 4 bases. Em alguns casos, tal região alvo definida pode ser de aproximadamente 15 bases a montante do PAM. Vide Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A^T to G< in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); e Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017), o todo conteúdos dos quais são aqui incorporados por referência.
[00585] Uma região alvo definida pode ser uma janela de desaminação. Uma janela de desaminação pode ser a região definida na qual um editor de base atua sobre e desamina um nucleotídeo alvo. Em algumas modalidades, a janela de desaminação está dentro de 2, 3, 4, 5, 6, 7, 8, 9 ou 10 regiões de base. Em algumas modalidades, a janela de desaminação é 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 ou 25 bases a montante do PAM.
[00586] Os editores de base da presente divulgação podem compreender qualquer domínio, característica ou sequência de aminoácidos que facilite a edição de uma sequência de polinucleotídeo alvo. Por exemplo, em algumas modalidades, o editor de base compreende uma sequência de localização nuclear (NLS). Em algumas modalidades, uma NLS do editor de base está localizado entre um domínio desaminase e um domínio napDNAbp. Em algumas modalidades, uma NLS do editor de base é C-terminal localizado para um domínio napDNAbp.
[00587] Os domínios de proteína incluídos na proteína de fusão podem ser um domínio funcional heterólogo. Exemplos não limitativos de domínios de proteína que podem ser incluídos na proteína de fusão incluem um domínio de desaminase (por exemplo, adenosina desaminase), um domínio de inibidor de uracil glicosilase (UGI), marcadores de epítopo e sequências de gene repórter. Os domínios de proteína podem ser um domínio funcional heterólogo, por exemplo, tendo uma ou mais das seguintes atividades: atividade de ativação transcricional, atividade de repressão transcricional, atividade de fator de liberação de transcrição, atividade de silenciamento de gene, atividade modificadora da cromatina, atividade modificadora epigenética, atividade de modificação de histona, Atividade de clivagem de RNA e atividade de ligação de ácido nucleico. Esses domínios funcionais heterólogos podem conferir uma atividade de função, como a modificação de um polipeptídeo alvo associado ao DNA alvo (por exemplo, uma histona, uma proteína de ligação de DNA, etc.), levando a, por exemplo, metilação de histona, acetilação de histona, ubiquitinação de histona, e similar. Outras funções e/ou atividades conferidos podem incluir atividade de transposase, atividade de integrase, atividade de recombinase, atividade de ligase, atividade de ubiquitina ligase, atividade de desubiquitina, atividade de adenilação, atividade de deadenilação, atividade de SUMOilação, atividade de desUMOilação ou qualquer combinação das anteriores.
[00588] Um domínio pode ser detectado ou marcado com um marcador de epítopo, uma proteína repórter, outros domínios de ligação. Exemplos não limitativos de marcadores de epítopo incluem marcadores de histidina (His), marcadores V5, marcadores FLAG, marcadores de hemaglutinina (HA) de influenza, marcadores Myc, marcadores VSV-G e marcadores de tioredoxina (Trx). Exemplos de genes repórter incluem, mas não estão limitados a, glutationa-5- transferase (GST), peroxidase de rábano silvestre (HRP), cloranfenicol acetiltransferase (CAT) beta-galactosidase, beta-glucuronidase, luciferase, proteína fluorescente verde (GFP), HcRed, DsRed, proteína fluorescente ciano (CFP), proteína fluorescente amarela (YFP) e proteínas autofluorescentes incluindo proteína fluorescente azul (BFP). Sequências de proteínas adicionais podem incluir sequências de aminoácidos que se ligam a moléculas de DNA ou ligam outras moléculas celulares, incluindo, mas não se limitando a proteína de ligação de maltose (MBP), marcador S, fusões de domínio de ligação de DNA Lex A (DBD), fusões de domínio de ligação de DNA GAL4, e fusões de proteína BP16 de vírus herpes simplex (HSV).
[00589] Em algumas modalidades, o polinucleotídeo guia BhCas12b tem a seguinte sequência (onde os T são substituídos por uridinas (U's) no gRNA real): Arcabouço de sgRNA BhCas12b (sublinhado) + sequência guia 20nt a 23nt (denotada por Nn) 5’GTTCTGTCTTTTGGTCAGGACAACCGTCTAGCTATAAGTGCTGC AGGGTGTGAGAAACTCCTATTGCTGGACGATGTCTCTTACGAGGC ATTAGCACNNNNNNNNNNNNNNNNNNNN-3’
[00590] Em algumas modalidades, os polinucleotídeos-guia BvCas12b e AaCas12b têm as seguintes sequências (onde os Ts são substituídos por uridinas (Us) no gRNA real): Arcabouço de sgRNA BvCas12b (sublinhado) + sequência guia 20nt a 23nt (denotada por Nn) 5’GACCTATAGGGTCAATGAATCTGTGCGTGTGCCATAAGTAATTA AAAATTACCCACCACAGGAGCACCTGAAAACAGGTGCTTGGCACN NNNNNNNNNNNNNNNNNNN-3’
[00591] AaCas12b sgRNA scaffold (sublinhado) + sequência guia 20nt a 23nt (denotada por Nn) 5’GTCTAAAGGACAGAATTTTTCAACGGGTGTGCCAATGGCCACTT TCCAGGTGGCAAAGCCCGTTGAACTTCTCAAAAAGAACGATCTGA GAAGTGGCACNNNNNNNNNNNNNNNNNNNN-3’
Métodos de uso de proteínas de fusão compreendendo variante de adenosina desaminase e um domínio Cas9
[00592] Alguns aspectos desta divulgação fornecem métodos de uso das proteínas de fusão ou complexos aqui fornecidos. Por exemplo, alguns aspectos desta divulgação fornecem métodos que compreendem contatar uma molécula de DNA que codifica uma forma mutante de HBG com qualquer uma das proteínas de fusão aqui fornecidas e com pelo menos um RNA guia, em que o RNA guia tem cerca de 15-100 nucleotídeos de comprimento e compreende uma sequência de pelo menos 10 nucleotídeos contíguos que é complementar a uma sequência alvo. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência PAM canônica (NGG). Em algumas modalidades, a extremidade 3’ da sequência alvo não é imediatamente adjacente a uma sequência PAM canônica (NGG). Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência AGC, GAG, TTT, GTG ou CAA. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência NGA, NGCG, NGN, NNGRRT, NNNRRT, NGCG, NGCN, NGTN, NGTN, NGTN ou 5' (TTTV).
[00593] Será entendido que a numeração das posições ou resíduos específicos nas respectivas sequências depende da proteína particular e do esquema de numeração usado. A numeração pode ser diferente, por exemplo, nos precursores de uma proteína madura e na própria proteína madura, e as diferenças nas sequências de espécie para espécie podem afetar a numeração. Um versado na técnica será capaz de identificar o respectivo resíduo em qualquer proteína homóloga e no respectivo ácido nucleico codificador por métodos bem conhecidos na técnica, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos.
[00594] Será evidente para os versados na técnica que, a fim de direcionar qualquer uma das proteínas de fusão compreendendo um domínio Cas9 e uma variante de adenosina desaminase (por exemplo, ABE8), como aqui divulgado, para um sítio alvo, por exemplo, um local compreendendo uma mutação a ser editada, é normalmente necessário coexpressar a proteína de fusão junto com um RNA guia, por exemplo, um sgRNA. Conforme explicado em mais detalhes em outro lugar neste documento, um RNA guia compreende tipicamente uma estrutura tracrRNA que permite a ligação de Cas9 e uma sequência guia, que confere especificidade de sequência ao Cas9: enzima de edição de ácido nucleico/proteína de fusão de domínio. Alternativamente, o RNA guia e o tracrRNA podem ser fornecidos separadamente, como duas moléculas de ácido nucleico. Em algumas modalidades, o RNA guia compreende uma estrutura, em que a sequência guia compreende uma sequência que é complementar à sequência alvo. A sequência guia tem tipicamente 20 nucleotídeos de comprimento. As sequências de RNAs de guia adequados para direcionar Cas9: proteínas de fusão de enzima/domínio de edição de ácido nucleico para sítios alvo genômicos específicos serão evidentes para aqueles versados na técnica com base na divulgação instantânea. Tais sequências de RNA guia adequadas compreendem tipicamente sequências guia que são complementares a uma sequência nucleica dentro de 50 nucleotídeos a montante ou a jusante do nucleotídeo alvo a ser editado. Algumas sequências de RNA guia exemplares adequadas para direcionar qualquer uma das proteínas de fusão fornecidas para sequências alvo específicas são fornecidas neste documento.
Eficiência do Editor de Base
[00595] As nucleases CRISPR-Cas9 têm sido amplamente utilizadas para mediar a edição do genoma direcionado. Na maioria das aplicações de edição de genoma, Cas9 forma um complexo com um polinucleotídeo guia (por exemplo, RNA guia único (sgRNA)) e induz uma quebra de DNA de fita dupla (DSB) no sítio alvo especificado pela sequência de sgRNA. As células respondem principalmente a este DSB por meio da via de reparo de junção de extremidade não homóloga (NHEJ), que resulta em inserções ou deleções estocásticas (indels) que podem causar mutações de deslocamento de estrutura que interrompem o gene. Na presença de um modelo de DNA doador com um alto grau de homologia com as sequências que flanqueiam a DSB, a correção do gene pode ser alcançada por meio de uma via alternativa conhecida como reparo dirigido por homologia (HDR). Infelizmente, na maioria das condições não perturbativas, o HDR é ineficiente, dependente do estado e do tipo de célula e dominado por uma frequência maior de indels. Como a maioria das variações genéticas conhecidas associadas a doenças humanas são mutações pontuais, são necessários métodos que possam fazer mutações pontuais precisas de maneira mais eficiente e limpa. Os sistemas de edição de base aqui fornecidos fornecem uma nova maneira de fornecer edição de genoma sem gerar quebras de DNA de fita dupla, sem exigir um molde de DNA doador e sem induzir um excesso de inserções e deleções estocásticas.
[00596] As proteínas de fusão da invenção modificam vantajosamente uma base de nucleotídeo específica que codifica um H compreendendo uma mutação sem gerar uma proporção significativa de indels. Um "indel", tal como aqui utilizado, refere-se à inserção ou deleção de uma base de nucleotídeo dentro de um ácido nucleico. Tais inserções ou deleções podem levar a mutações de deslocamento de quadro dentro de uma região de codificação de um gene. Em algumas modalidades, é desejável gerar editores de base que modifiquem eficientemente (por exemplo, mutem) um nucleotídeo específico dentro de um ácido nucleico, sem gerar um grande número de inserções ou deleções (isto é, indels) no ácido nucleico. Em certas modalidades, qualquer um dos editores de base fornecidos neste documento é capaz de gerar uma proporção maior de modificações pretendidas (por exemplo, mutações) versus indels.
[00597] Em algumas modalidades, qualquer um dos sistemas de editor de base fornecidos neste documento resulta em menos de 50%, menos de 40%, menos de 30%, menos de 20%, menos de 19%, menos de 18%, menos de 17%, menos de 16%, menos de 15%, menos de 14%, menos de 13%, menos de 12%, menos de 11%, menos de 10%, menos de 9%, menos de 8%, menos de 7%, menos de 6%, menos de 5%, menos de 4%, menos de 3%, menos de 2%, menos de 1%, menos de 0,9%, menos de 0,8%, menos de 0,7%, menos de 0,6%, menos de 0,5%, menos de 0,4%, menos de 0,3%, menos de 0,2%, menos de 0,1%, menos de 0,09%, menos de 0,08%, menos de 0,07%, menos de 0,06%, menos de 0,05%, menos de 0,04%, menos de 0,03%, menos de 0,02% ou menos de 0,01% de formação de indel na sequência de polinucleotídeo alvo.
[00598] Alguns aspectos da divulgação são baseados no reconhecimento de que qualquer um dos editores de base fornecidos aqui são capazes de gerar eficientemente uma mutação pretendida, como uma mutação pontual, em um ácido nucleico (por exemplo, um ácido nucleico dentro de um genoma de um indivíduo) sem gerar um número significativo de mutações indesejadas, como mutações pontuais indesejadas. Em algumas modalidades, qualquer um dos editores de base fornecidos neste documento é capaz de gerar pelo menos 0,01% das mutações pretendidas (ou seja, pelo menos 0,01% de eficiência de edição de base). Em algumas modalidades, qualquer um dos editores de base fornecidos aqui são capazes de gerar pelo menos 0,01%, 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 25%, 30%, 40%, 45%, 50%, 60%, 70%, 80%, 90%, 95% ou 99% das mutações pretendidas.
[00599] Em algumas modalidades, os editores de base fornecidos neste documento são capazes de gerar uma razão de mutações pretendidas para indels que é maior do que 1: 1. Em algumas modalidades, os editores de base fornecidos neste documento são capazes de gerar uma razão de mutações pretendidas para indels que é pelo menos 1,5:1, pelo menos 2:1, pelo menos 2,5:1, pelo menos 3:1, pelo menos 3,5:1, pelo menos 4:1, pelo menos 4,5:1, pelo menos 5:1, pelo menos 5,5:1, pelo menos 6:1, pelo menos 6,5:1, pelo menos 7:1, pelo menos 7,5:1, pelo menos 8:1, pelo menos 10:1, pelo menos 12:1, pelo menos 15:1, pelo menos 20:1, pelo menos 25:1, pelo menos 30:1, pelo menos 40:1, pelo menos 50:1, pelo menos 100:1, pelo menos 200:1, pelo menos 300:1, pelo menos 400:1, pelo menos 500:1, pelo menos 600:1, pelo menos 700:1, pelo menos 800:1, pelo menos 900:1 ou pelo menos 1000:1 ou mais.
[00600] O número de mutações e indels pretendidos pode ser determinado usando qualquer método adequado, por exemplo, conforme descrito nos Pedidos Internacionais PCT Nos. PCT/2017/045381 (WO2018/027078) e PCT/US2016/058344 (WO2017/070632); Komor, A.C., et al., "Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage" Nature 533, 420-424 (2016); Gaudelli, N.M., et al., "Programmable base editing of A^T to G< in genomic DNA without DNA cleavage" Nature 551, 464-471 (2017); e Komor, A.C., et al., "Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity" Science Advances 3:eaao4774 (2017); todo o conteúdo do qual é aqui incorporado por referência.
[00601] Em algumas modalidades, para calcular frequências indel, leituras de sequenciamento são escaneadas para correspondências exatas a duas sequências de 10 bp que flanqueiam ambos os lados de uma janela na qual indels podem ocorrer. Se nenhuma correspondência exata for localizada, a leitura será excluída da análise. Se o comprimento desta janela indel corresponder exatamente à sequência de referência, a leitura é classificada como não contendo um indel. Se a janela indel for duas ou mais bases mais longa ou mais curta do que a sequência de referência, a leitura de sequenciamento é classificada como uma inserção ou exclusão, respectivamente. Em algumas modalidades, os editores de base fornecidos neste documento podem limitar a formação de indels em uma região de um ácido nucleico. Em algumas modalidades, a região está em um nucleotídeo direcionado por um editor de base ou uma região dentro de 2, 3, 4, 5, 6, 7, 8, 9 ou 10 nucleotídeos de um nucleotídeo direcionado por um editor de base.
[00602] O número de indels formados em uma região de nucleotídeo alvo pode depender da quantidade de tempo que um ácido nucleico (por exemplo, um ácido nucleico dentro do genoma de uma célula) é exposto a um editor de base. Em algumas modalidades, o número ou proporção de indels é determinado após pelo menos 1 hora, pelo menos 2 horas, pelo menos 6 horas, pelo menos 12 horas, pelo menos 24 horas, pelo menos 36 horas, pelo menos 48 horas, pelo menos 3 dias, pelo menos 4 dias, pelo menos 5 dias, pelo menos 7 dias, pelo menos 10 dias ou pelo menos 14 dias de exposição da sequência de nucleotídeos alvo (por exemplo, um ácido nucleico dentro do genoma de uma célula) a uma base editor. Deve ser apreciado que as características dos editores de base, conforme descrito neste documento, podem ser aplicadas a qualquer uma das proteínas de fusão ou métodos de uso das proteínas de fusão aqui fornecidas.
[00603] Em algumas modalidades, os editores de base fornecidos neste documento são capazes de limitar a formação de indels em uma região de um ácido nucleico. Em algumas modalidades, a região está em um nucleotídeo direcionado por um editor de base ou uma região dentro de 2, 3, 4, 5, 6, 7, 8, 9 ou 10 nucleotídeos de um nucleotídeo direcionado por um editor de base. Em algumas modalidades, qualquer um dos editores de base fornecidos aqui são capazes de limitar a formação de indels em uma região de um ácido nucleico a menos de 1%, menos de 1,5%, menos de 2%, menos de 2,5%, menos de 3 %, menos de 3,5%, menos de 4%, menos de 4,5%, menos de 5%, menos de 6%, menos de 7%, menos de 8%, menos de 9%, menos de 10%, menos de 12 %, menos de 15% ou menos de 20%. O número de indels formados em uma região de ácido nucleico pode depender da quantidade de tempo que um ácido nucleico (por exemplo, um ácido nucleico dentro do genoma de uma célula) é exposto a um editor de base. Em algumas modalidades, qualquer número ou proporção de indels é determinado após pelo menos 1 hora, pelo menos 2 horas, pelo menos 6 horas, pelo menos 12 horas, pelo menos 24 horas, pelo menos 36 horas, pelo menos 48 horas, pelo menos 3 dias, pelo menos 4 dias, pelo menos 5 dias, pelo menos 7 dias, pelo menos 10 dias, ou pelo menos 14 dias de exposição de um ácido nucleico (por exemplo, um ácido nucleico dentro do genoma de uma célula) para um editor de base.
[00604] Alguns aspectos da divulgação são baseados no reconhecimento de que qualquer um dos editores de base fornecidos neste documento são capazes de gerar eficientemente uma mutação pretendida em um ácido nucleico (por exemplo, um ácido nucleico dentro de um genoma de um indivíduo) sem gerar um número significativo de mutações indesejadas. Em algumas modalidades, uma mutação pretendida é uma mutação que é gerada por um editor de base específico ligado a um gRNA, projetado especificamente para alterar ou corrigir uma mutação de HBG. Em algumas modalidades, qualquer um dos editores de base fornecidos neste documento é capaz de gerar uma razão de mutações pretendidas para mutações não intencionais (por exemplo, mutações pretendidas: mutações não intencionais) que é maior do que 1:1. Em algumas modalidades, qualquer um dos editores de base fornecidos neste documento é capaz de gerar uma proporção de mutações pretendidas para mutações não intencionais que é pelo menos 1,5:1, pelo menos 2:1, pelo menos 2,5:1, pelo menos 3: 1, em pelo menos 3,5:1, pelo menos 4:1, pelo menos 4,5:1, pelo menos 5:1, pelo menos 5,5:1, pelo menos 6:1, pelo menos 6,5:1, pelo menos 7:1, pelo menos 7,5:1, pelo menos 8:1, pelo menos 10:1, pelo menos 12:1, pelo menos 15:1, pelo menos 20:1, pelo menos 25:1, pelo menos 30:1, pelo menos 40:1, pelo menos 50:1, pelo menos 100:1, pelo menos 150:1, pelo menos 200:1, pelo menos 250:1, pelo menos 500:1 ou pelo menos 1000:1 ou mais. Deve ser apreciado que as características dos editores de base aqui descritos podem ser aplicadas a qualquer uma das proteínas de fusão ou métodos de uso das proteínas de fusão aqui fornecidas.
Edição Multiplex
[00605] Em algumas modalidades, o sistema de editor de base fornecido neste documento é capaz de edição multiplex de uma pluralidade de pares de nucleobases em um ou mais genes. Em algumas modalidades, a pluralidade de pares de nucleobases está localizada no mesmo gene. Em algumas modalidades, a pluralidade de pares de nucleobases está localizada em um ou mais genes, em que pelo menos um gene está localizado em um locus diferente. Em algumas modalidades, a edição multiplex pode compreender um ou mais polinucleotídeos guia. Em algumas modalidades, a edição multiplex pode compreender um ou mais sistemas de editor de base. Em algumas modalidades, a edição multiplex pode compreender um ou mais sistemas de editor de base com um único polinucleotídeo guia. Em algumas modalidades, a edição multiplex pode compreender um ou mais sistemas de editor de base com uma pluralidade de polinucleotídeos guia. Em algumas modalidades, a edição multiplex pode compreender um ou mais polinucleotídeos guia com um sistema de editor de base única. Em algumas modalidades, a edição multiplex pode compreender pelo menos um polinucleotídeo guia que não requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo. Em algumas modalidades, a edição multiplex pode compreender pelo menos um polinucleotídeo guia que requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo. Em algumas modalidades, a edição multiplex pode compreender uma mistura de pelo menos um polinucleotídeo guia que não requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo e pelo menos um polinucleotídeo guia que requer uma sequência PAM para direcionar a ligação a um polinucleotídeo alvo sequência. Deve ser apreciado que as características da edição multiplex usando qualquer um dos editores de base, conforme descrito neste documento, podem ser aplicadas a qualquer combinação dos métodos de uso de qualquer um dos editores de base fornecidos neste documento. Também deve ser apreciado que a edição multiplex usando qualquer um dos editores de base, conforme descrito neste documento, pode compreender uma edição sequencial de uma pluralidade de pares de nucleobases.
[00606] Em algumas modalidades, a pluralidade de pares de nucleobases está em mais um gene. Em algumas modalidades, a pluralidade de pares de nucleobases está no mesmo gene. Em algumas modalidades, pelo menos um gene em mais genes está localizado em um locus diferente.
[00607] Em algumas modalidades, a edição é a edição da pluralidade de pares de nucleobases em pelo menos uma região de codificação de proteína. Em algumas modalidades, a edição é a edição da pluralidade de pares de nucleobases em pelo menos uma região de proteína não codificadora. Em algumas modalidades, a edição é a edição da pluralidade de pares de nucleobases em pelo menos uma região de codificação de proteína e em pelo menos uma região de não codificação de proteína.
[00608] Em algumas modalidades, a edição é em conjunto com um ou mais polinucleotídeos guia. Em algumas modalidades, o sistema de editor de base pode compreender um ou mais sistemas de editor de base. Em algumas modalidades, o sistema de editor de base pode compreender um ou mais sistemas de editor de base em conjunto com um único polinucleotídeo guia. Em algumas modalidades, o sistema de editor de base pode compreender um ou mais sistemas de editor de base em conjunto com uma pluralidade de polinucleotídeos guia. Em algumas modalidades, a edição é em conjunto com um ou mais polinucleotídeos guia com um sistema de editor de base única. Em algumas modalidades, a edição é em conjunto com pelo menos um polinucleotídeo guia que não requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo. Em algumas modalidades, a edição é em conjunto com pelo menos um polinucleotídeo guia que requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo. Em algumas modalidades, a edição é em conjunto com uma mistura de pelo menos um polinucleotídeo guia que não requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo e pelo menos um polinucleotídeo guia que requer uma sequência PAM para direcionar a ligação a um alvo sequência de polinucleotídeo. Deve ser apreciado que as características da edição multiplex usando qualquer um dos editores base, conforme descrito neste documento, podem ser aplicadas a qualquer combinação dos métodos de uso de qualquer um dos editores base fornecidos neste documento. Também deve ser apreciado que a edição pode compreender uma edição sequencial de uma pluralidade de pares de nucleobases.
MÉTODOS PARA EDITAR ÁCIDOS NUCLEICOS
[00609] Alguns aspectos da divulgação fornecem métodos para editar um ácido nucleico. Em algumas modalidades, o método é um método para editar uma nucleobase de uma molécula de ácido nucleico que codifica um HBG (por exemplo, um par de bases de uma sequência de DNA de fita dupla). Em algumas modalidades, o método compreende as etapas de: a) contatar uma região alvo de um ácido nucleico (por exemplo, uma sequência de DNA de fita dupla) com um complexo que compreende um editor de base e um ácido nucleico guia (por exemplo, gRNA), b) induzir a separação da fita da referida região alvo, c) converter uma primeira nucleobase do referido par de nucleobases alvo em uma única fita da região alvo em uma segunda nucleobase, e d) cortar não mais do que um fita da referida região alvo usando o nCas9, onde uma terceira nucleobase complementar à primeira base de nucleobase é substituída por uma quarta nucleobase complementar à segunda nucleobase. Em algumas modalidades, o método resulta em menos de 20% de formação de indel no ácido nucleico. Deve ser apreciado que em algumas modalidades, a etapa b é omitida. Em algumas modalidades, o método resulta em menos de 19%, 18%, 16%, 14%, 12%, 10%, 8%, 6%, 4%, 2%, 1%, 0,5%, 0,2% ou menos de 0,1% de formação de indel. Em algumas modalidades, o método adicionalmente compreende substituir a segunda nucleobase por uma quinta nucleobase que é complementar à quarta nucleobase, gerando assim um par de bases editado pretendido (por exemplo, G • C a A • T). Em algumas modalidades, pelo menos 5% dos pares de bases pretendidos são editados. Em algumas modalidades, pelo menos 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45% ou 50% dos pares de bases pretendidos são editados.
[00610] Em algumas modalidades, a proporção de produtos pretendidos para produtos indesejados no nucleotídeo alvo é de pelo menos 2:1, 5:1, 10:1, 20:1, 30:1, 40:1, 50:1, 60:1, 70:1, 80:1, 90:1, 100:1 ou 200:1 ou mais. Em algumas modalidades, a proporção da mutação pretendida para a formação do indel é maior do que 1:1, 10:1, 50:1, 100:1, 500:1 ou 1000:1 ou mais. Em algumas modalidades, a fita simples eliminada (fita cortada) é hibridizada com o ácido nucleico guia. Em algumas modalidades, a fita simples eliminada é oposta à fita que compreende a primeira nucleobase. Em algumas modalidades, o editor de base compreende um domínio dCas9. Em algumas modalidades, o editor de base protege ou liga a fita não editada. Em algumas modalidades, o par de bases editado pretendido está a montante de um sítio PAM. Em algumas modalidades, o par de bases editado pretendido é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a montante do sítio PAM. Em algumas modalidades, o par de bases editado pretendido está a jusante de um sítio PAM. Em algumas modalidades, o par de bases editado pretendido é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a jusante do sítio PAM. Em algumas modalidades, o método não requer um sítio PAM canônico (por exemplo, NGG). Em algumas modalidades, o editor de nucleobases compreende um ligante. Em algumas modalidades, o ligante tem 1-25 aminoácidos de comprimento. Em algumas modalidades, o ligante tem 5-20 aminoácidos de comprimento. Em algumas modalidades, o ligante tem 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 aminoácidos de comprimento. Em uma modalidade, o ligante tem 32 aminoácidos de comprimento. Em outra modalidade, um "ligante longo" tem pelo menos cerca de 60 aminoácidos de comprimento. Em outras modalidades, o ligante tem cerca de 3-100 aminoácidos de comprimento. Em algumas modalidades, a região alvo compreende uma janela alvo, em que a janela alvo compreende o par de nucleobases alvo. Em algumas modalidades, a janela alvo compreende 1-10 nucleotídeos. Em algumas modalidades, a janela alvo tem 1-9, 1-8, 1-7, 1-6, 1-5, 1-4, 1-3, 1-2 ou 1 nucleotídeos de comprimento. Em algumas modalidades, a janela alvo é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos de comprimento. Em algumas modalidades, o par de bases editado pretendido está dentro da janela alvo. Em algumas modalidades, a janela alvo compreende o par de bases editado pretendido. Em algumas modalidades, o método é realizado usando qualquer um dos editores de base fornecidos neste documento.
[00611] Em algumas modalidades, a divulgação fornece métodos para editar um nucleotídeo (por exemplo, SNP no gene que codifica HBG). Em algumas modalidades, a divulgação fornece um método para editar um par de nucleobases de uma sequência de DNA de fita dupla. Em algumas modalidades, o método compreende a) contatar uma região alvo da sequência de DNA de fita dupla com um complexo que compreende um editor de base e um ácido nucleico guia (por exemplo, gRNA), onde a região alvo compreende um par de nucleobases alvo, b) induzir a separação da fita da referida região alvo, c) converter uma primeira nucleobase do referido par de nucleobases alvo em uma única fita da região alvo em uma segunda nucleobase, d) cortar não mais do que uma fita da referida região alvo, em que uma terceira nucleobase complementar para a primeira base de nucleobase é substituída por uma quarta nucleobase complementar à segunda nucleobase, e a segunda nucleobase é substituída por uma quinta nucleobase que é complementar à quarta nucleobase, gerando assim um par de bases editado pretendido, em que a eficiência de gerar o pretendido o par de bases editado é de pelo menos 5%. Deve ser apreciado que em algumas modalidades, a etapa b é omitida. Em algumas modalidades, pelo menos 5% dos pares de bases pretendidos são editados. Em algumas modalidades, pelo menos 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45% ou 50% dos pares de bases pretendidos são editados. Em algumas modalidades, o método causa menos de 19%, 18%, 16%, 14%, 12%, 10%, 8%, 6%, 4%, 2%, 1%, 0,5%, 0,2% ou menos de 0,1% de formação de indel. Em algumas modalidades, a proporção de produto pretendido para produtos não intencionais no nucleotídeo alvo é de pelo menos 2:1, 5:1, 10:1, 20:1, 30:1, 40:1, 50:1, 60:1, 70:1, 80:1, 90:1, 100:1 ou 200:1 ou mais. Em algumas modalidades, a proporção da mutação pretendida para a formação do indel é maior do que 1:1, 10:1, 50:1, 100:1, 500:1 ou 1000:1 ou mais. Em algumas modalidades, a fita simples eliminada é hibridizada com o ácido nucleico guia. Em algumas modalidades, a fita simples eliminada é oposta à fita que compreende a primeira nucleobase. Em algumas modalidades, o par de bases editado pretendido está a montante de um sítio PAM. Em algumas modalidades, o par de bases editado pretendido é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a montante do sítio PAM. Em algumas modalidades, o par de bases editado pretendido está a jusante de um sítio PAM. Em algumas modalidades, o par de bases editado pretendido é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a jusante do sítio PAM. Em algumas modalidades, o método não requer um sítio PAM canônico (por exemplo, NGG). Em algumas modalidades, o ligante tem 1-25 aminoácidos de comprimento. Em algumas modalidades, o ligante tem 5-20 aminoácidos de comprimento. Em algumas modalidades, o ligante tem 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 aminoácidos de comprimento. Em algumas modalidades, a região alvo compreende uma janela alvo, em que a janela alvo compreende o par de nucleobases alvo. Em algumas modalidades, a janela alvo compreende 1-10 nucleotídeos. Em algumas modalidades, a janela alvo tem 1-9, 1-8, 1-7, 1-6, 1-5, 1-4, 1-3, 1-2 ou 1 nucleotídeos de comprimento. Em algumas modalidades, a janela alvo é de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos em comprimento. Em algumas modalidades, o par de bases editado pretendido ocorre dentro da janela alvo. Em algumas modalidades, a janela alvo compreende o par de bases editado pretendido. Em algumas modalidades, o editor de nucleobases é qualquer um dos editores de base fornecidos neste documento.
Expressão de proteínas de fusão em uma célula hospedeira
[00612] As proteínas de fusão da invenção compreendendo uma variante de adenosina desaminase podem ser expressas em virtualmente qualquer célula hospedeira de interesse, incluindo, mas não se limitando a bactérias, leveduras, fungos, insetos, plantas e células animais usando métodos de rotina conhecidos do versado na técnica. Por exemplo, um DNA que codifica uma adenosina desaminase da invenção pode ser clonado projetando iniciadores adequados para a montante e a jusante de CDS com base na sequência de cDNA. O DNA clonado pode ser diretamente, ou após digestão com uma enzima de restrição quando desejado, ou após adição de um ligante adequado e/ou um sinal de localização nuclear ligado a um DNA que codifica um ou mais componentes adicionais de um sistema de edição de base. O sistema de edição básico é traduzido em uma célula hospedeira para formar um complexo.
[00613] Um DNA que codifica um domínio de proteína aqui descrito pode ser obtido sintetizando quimicamente o DNA, ou conectando cadeias curtas de oligoDNA parcialmente sobrepostas sintetizadas utilizando o método de PCR e o método de montagem Gibson para construir um DNA que codifica o seu comprimento completo. A vantagem de construir um DNA de comprimento completo por síntese química ou uma combinação de método de PCR ou método de montagem Gibson é que o códon a ser usado pode ser projetado em CDS de comprimento completo de acordo com o hospedeiro no qual o DNA é introduzido. Na expressão de um DNA heterólogo, espera-se que o nível de expressão da proteína aumente pela conversão da sequência de DNA deste em um códon usado com alta frequência no organismo hospedeiro. Como os dados de frequência de uso de códon no hospedeiro a serem usados, por exemplo, o banco de dados de frequência de uso de código genético (http://www.kazusa.or.jp/codon/index.html) divulgado na página inicial (homepage) de Kazusa DNA Research Institute pode ser usado, ou os documentos que mostram a frequência de uso do códon em cada hospedeiro podem ser consultados. Com referência aos dados obtidos e à sequência de DNA a ser introduzida, os códons que mostram baixa frequência de uso no hospedeiro dentre aqueles usados para a sequência de DNA podem ser convertidos em um códon que codifica o mesmo aminoácido e que mostra alta frequência de uso.
[00614] Um vetor de expressão contendo um DNA que codifica um módulo de reconhecimento de sequência de ácido nucleico e/ou uma enzima de conversão de base de ácido nucleico pode ser produzido, por exemplo, ligando o DNA a jusante de um promotor em um vetor de expressão adequado.
[00615] Como o vetor de expressão, plasmídeos derivados de Escherichia coli (por exemplo, pBR322, pBR325, pUC12, pUC13); plasmídeos derivados de Bacillus subtilis (por exemplo, pUB110, pTP5, pC194); plasmídeos derivados de levedura (por exemplo, pSH19, pSH15); plasmídeos de expressão de células de inseto (por exemplo, pFast-Bac); plasmídeos de expressão de células animais (por exemplo, pA1-11, pXT1, pRc/CMV, pRc/RSV, pcDNAI/Neo); bacteriófagos, tais como fagos lamda e semelhantes; vetores de vírus de inseto, tais como baculovírus e semelhantes (por exemplo, BmNPV, AcNPV); vetores de vírus animais, tais como retrovírus, vírus vaccinia, adenovírus e semelhantes, e semelhantes são usados.
[00616] Como promotor, qualquer promotor apropriado para um hospedeiro a ser usado para a expressão do gene pode ser usado. Em um método convencional ao usar DSB, uma vez que a taxa de sobrevivência da célula hospedeira às vezes diminui acentuadamente devido à toxicidade, é desejável aumentar o número de células pelo início da indução usando um promotor indutivo. No entanto, uma vez que uma proliferação celular suficiente também pode ser conseguida pela expressão do complexo de enzima modificadora de ácido nucleico da presente invenção, um promotor de constituição também pode ser usado sem limitação.
[00617] Por exemplo, quando o hospedeiro é uma célula animal, promotor SR.alfa., promotor SV40, promotor LTR, promotor CMV (citomegalovírus), promotor RSV (vírus do sarcoma de Rous), MoMuLV (vírus da leucemia de camundongo Moloney) LTR, promotor HSV-TK (timidina quinase de vírus herpes simples) e semelhantes. Destes, o promotor CMV, promotor SR.alfa. e semelhantes são preferíveis.
[00618] Quando o hospedeiro é Escherichia coli, são preferidos o promotor trp, o promotor lac, o promotor recA, o promotor lamda.P.sub.L, o promotor lpp, o promotor T7 e semelhantes.
[00619] Quando o hospedeiro é do gênero Bacillus, o promotor SPO1, o promotor SPO2, o promotor penP e semelhantes são preferidos.
[00620] Quando o hospedeiro é uma levedura, são preferidos o promotor Gal1/10, o promotor PHO5, o promotor PGK, o promotor GAP, o promotor ADH e semelhantes.
[00621] Quando o hospedeiro é uma célula de inseto, o promotor de poliedrina, o promotor P10 e semelhantes são preferidos.
[00622] Quando o hospedeiro é uma célula vegetal, o promotor CaMV35S, o promotor CaMV19S, o promotor NOS e semelhantes são preferidos.
[00623] Como o vetor de expressão, além dos mencionados acima, um contendo intensificador, sinal de emenda, terminador, sinal de adição de poliA, um marcador de seleção, como gene de resistência a drogas, gene complementar auxotrófico e semelhantes, origem de replicação e semelhantes sob demanda podem ser usados.
[00624] Um RNA que codifica um domínio de proteína aqui descrito pode ser preparado, por exemplo, por transcrição para mRNA em um sistema de transcrição vitro conhecido per se usando um vetor que codifica DNA que codifica o módulo de reconhecimento de sequência de ácido nucleico acima mencionado e/ou um ácido nucleico enzima de conversão de base como um modelo.
[00625] Uma proteína de fusão da invenção pode ser expressa intracelularmente pela introdução de um vetor de expressão contendo um DNA que codifica um módulo de reconhecimento de sequência de ácido nucleico e/ou uma enzima de conversão de base de ácido nucleico em uma célula hospedeira e cultura da célula hospedeira.
[00626] Como hospedeiro, são usados o gênero Escherichia, gênero Bacillus, levedura, célula de inseto, inseto, célula animal e semelhantes.
[00627] Como o gênero Escherichia, Escherichia coli K12.cndot. DH1 [Proc. Natl. Acad. Sci. USA, 60, 160 (1968)], Escherichia coli JM103 [Nucleic Acids Research, 9, 309 (1981)], Escherichia coli JA221 [Journal of Molecular Biology, 120, 517 (1978)], Escherichia coli HB101 [Journal of Molecular Biology, 41, 459 (1969)], Escherichia coli C600 [Genetics, 39, 440 (1954)] e semelhantes são usados.
[00628] Como o gênero Bacillus, Bacillus subtilis M1114 [Gene, 24, 255 (1983)], Bacillus subtilis 207-21 [Journal of Biochemistry, 95, 87 (1984)] e semelhantes são usados.
[00629] Como a levedura, Saccharomyces cerevisiae AH22, AH22R.sup.-, NA87-11A, DKD-5D, 20B-12, Schizosaccharomyces pombe NCYC1913, NCYC2036, Pichia pastoris KM71 e semelhantes são usados.
[00630] Como a célula de inseto quando o vírus é AcNPV, células da linha estabelecida derivada de larva de lagarta do repolho (célula de Spodoptera frugiperda; célula Sf), células MG1 derivadas do intestino médio de Trichoplusia ni, High Five.TM, células derivadas de um ovo de Trichoplusia ni, células derivadas de Mamestra brassicae, células derivadas de Estigmena acrea e semelhantes são utilizadas. Quando o vírus é BmNPV, células da linhagem estabelecida derivada de Bombyx mori (célula N Bombyx mori; célula BmN) e semelhantes são usadas como células de inseto. Como a célula Sf, por exemplo, são utilizadas células Sf9 (ATCC CRL1711), células Sf21 [todas acima, in vivo, 13, 213-217 (1977)] e semelhantes.
[00631] Como o inseto, por exemplo, são utilizadas larvas de Bombyx mori, Drosophila, grilo e semelhantes [Nature, 315, 592 (1985)].
[00632] Como a célula animal, linhagens celulares como célula COS-7 de macaco, célula Vero de macaco, célula de ovário de hamster chinês (CHO), célula CHO deficiente no gene dhfr, célula L de camundongo, célula AtT-20 de camundongo, célula de mieloma de camundongo, células GH3 de rato, células FL humanas e semelhantes, células-tronco pluripotentes, tais como células iPS, células ES e semelhantes de humanos e outros mamíferos, e células de cultura primária preparadas a partir de vários tecidos. Além disso, embrião de peixe-zebra, oócito de Xenopus e semelhantes também podem ser usados.
[00633] Como a célula vegetal, células cultivadas suspensas, calo, protoplasto, segmento de folha, segmento de raiz e semelhantes preparados a partir de várias plantas (por exemplo, grãos como arroz, trigo, milho e semelhantes, safras de produtos como tomate, pepino, berinjela e semelhantes, plantas de jardim, tais como cravo, Eustoma russellianum e semelhantes, plantas experimentais, tais como tabaco, Arabidopsis thaliana e semelhantes, e semelhantes) podem ser usados.
[00634] Todas as células hospedeiras acima mencionadas podem ser haplóides (monoplóides) ou poliplóides (por exemplo, diplóides, triplóides, tetraplóides e semelhantes). Nos métodos convencionais de introdução de mutação, a mutação é, em princípio, introduzida em apenas um cromossomo homólogo para produzir um tipo de hetero gene. Portanto, o fenótipo desejado não é expresso a menos que ocorra uma mutação dominante, e a homozigosidade requer trabalho e tempo inconvenientemente. Em contraste, de acordo com a presente invenção, uma vez que a mutação pode ser introduzida em qualquer alelo no cromossomo homólogo no genoma, o fenótipo desejado pode ser expresso em uma única geração, mesmo no caso de mutação recessiva, o que é extremamente útila, uma vez que o problema de o método convencional pode ser resolvido.
[00635] Um vetor de expressão pode ser introduzido por um método conhecido (por exemplo, método de lisozima, método competente, método PEG, método de coprecipitação CaCl2, método de eletroporação, o método de microinjeção, o método de pistola de partículas, método de lipofecção, método de Agrobacterium e semelhantes) de acordo com o tipo de anfitrião.
[00636] Escherichia coli pode ser transformada de acordo com os métodos descritos em, por exemplo, Proc. Natl. Acad. Sci. USA, 69, 2110 (1972), Gene, 17, 107 (1982) e semelhantes.
[00637] O gênero Bacillus pode ser introduzido em um vetor de acordo com os métodos descritos em, por exemplo, Molecular & General Genetics, 168, 111 (1979) e semelhantes.
[00638] Uma levedura pode ser introduzida em um vetor de acordo com os métodos descritos em, por exemplo, Methods in Enzymology, 194, 182-187 (1991), Proc. Natl. Acad. Sci. USA, 75, 1929 (1978) e semelhantes.
[00639] Uma célula de inseto e um inseto podem ser introduzidos em um vetor de acordo com os métodos descritos em, por exemplo, Bio/Technology, 6, 47-55 (1988) e semelhantes.
[00640] Uma célula animal pode ser introduzida em um vetor de acordo com os métodos descritos em, por exemplo, Cell Engineering adicional volume 8, New Cell Engineering Experiment Protocol, 263267 (1995) (publicado por Shujunsha), e Virology, 52, 456 (1973).
[00641] Uma célula introduzida com um vetor pode ser cultivada de acordo com um método conhecido de acordo com o tipo de hospedeiro.
[00642] Por exemplo, quando Escherichia coli ou gênero Bacillus é cultivado, um meio líquido é preferível como um meio a ser usado para a cultura. O meio contém preferivelmente uma fonte de carbono, fonte de nitrogênio, substância inorgânica e semelhantes necessárias para o crescimento do transformante. Exemplos da fonte de carbono incluem glicose, dextrina, amido solúvel, sacarose e semelhantes; exemplos da fonte de nitrogênio incluem substâncias inorgânicas ou orgânicas, tais como sais de amônio, sais de nitrato, licor de maceração de milho, peptona, caseína, extrato de cRNAe, bolo de soja, extrato de batata e semelhantes; e exemplos da substância inorgânica incluem cloreto de cálcio, di-hidrogenofosfato de sódio, cloreto de magnésio e semelhantes. O meio pode conter extrato de levedura, vitaminas, fator de promoção de crescimento e semelhantes. O pH do meio é preferivelmente cerca de 5 a cerca de 8.
[00643] Como um meio para a cultura de Escherichia coli, por exemplo, meio M9 contendo glicose, casaminoácido [Journal of Experiments in Molecular Genetics, 431-433, Cold Spring Harbor Laboratory, Nova Iorque 1972] é preferido. Quando necessário, por exemplo, agentes tais como ácido 3.beta.-indolilacrílico podem ser adicionados ao meio para assegurar uma função eficiente de um promotor. Escherichia coli é cultivada geralmente a cerca de 15 a cerca de 43 °C. Quando necessário, aeração e agitação podem ser realizadas.
[00644] O gênero Bacillus é cultivado geralmente a cerca de 30- cerca de 40 °C. Quando necessário, aeração e agitação podem ser realizadas.
[00645] Exemplos do meio para cultura de levedura incluem meio mínimo Burkholder [Proc. Natl. Acad. Sci. USA, 77, 4505 (1980)], meio SD contendo 0,5% de casaminoácido [Proc. Natl. Acad. Sci. USA, 81, 5330 (1984)] e semelhantes. O pH do meio é preferivelmente cerca de 5 a cerca de 8. A cultura é realizada geralmente a cerca de 20 °C- cerca de 35 °C. Quando necessário, aeração e agitação podem ser realizadas.
[00646] Como um meio para a cultura de uma célula de inseto ou inseto, por exemplo, é usado o meio Grace's Insect [Nature, 195, 788 (1962)] contendo um aditivo tal como soro bovino a 10% inativado e semelhantes conforme apropriado e semelhantes. O pH do meio é preferivelmente cerca de 6,2 a cerca de 6,4. A cultura é realizada geralmente a cerca de 27 °C. Quando necessário, aeração e agitação podem ser realizadas.
[00647] Como um meio para a cultura de uma célula animal, por exemplo, meio essencial mínimo (MEM) contendo cerca de 5 a cerca de 20% de soro fetal bovino [Science, 122, 501 (1952)], meio de Eagle modificado por Dulbecco (DMEM) [Virology, 8, 396 (1959)], meio RPMI 1640 [The Journal of the American Medical Association, 199, 519 (1967)], meio 199 [Proceeding of the Society for the Biological Medicine, 73, 1 (1950)] e semelhantes são usados. O pH do meio é preferivelmente cerca de 6 a cerca de 8. A cultura é realizada geralmente a cerca de 30 °C-cerca de 40 °C. Quando necessário, aeração e agitação podem ser realizadas.
[00648] Como um meio para a cultura de uma célula vegetal, por exemplo, são usados meio MS, meio LS, meio B5 e semelhantes. O pH do meio é preferivelmente cerca de 5 a cerca de 8. A cultura é realizada geralmente a cerca de 20 °C-cerca de 30 °C. Quando necessário, aeração e agitação podem ser realizadas.
[00649] Quando uma célula eucariótica superior, tal como célula animal, célula de inseto, célula vegetal e semelhantes é usada como uma célula hospedeira, um DNA que codifica um sistema de edição de base da presente invenção (por exemplo, compreendendo uma variante de adenosina desaminase) é introduzido em um célula hospedeira sob a regulação de um promotor induzível (por exemplo, promotor de metalotioneína (induzido por íon de metal pesado), promotor de proteína de choque térmico (induzido por choque térmico), promotor do sistema Tet-ON/Tet-OFF (induzido por adição ou remoção de tetraciclina ou um derivado deste), promotor responsivo a esteróides (induzido por hormônio esteróide ou um derivado deste) etc.), a substância de indução é adicionada ao meio (ou removida do meio) em um estágio apropriado para induzir a expressão do complexo enzimático que modifica o ácido nucleico, a cultura é realizada por um determinado período para realizar uma edição de base e, a introdução de uma mutação em um gene alvo, a expressão transitória do sistema de edição de base pode ser realizada.
[00650] As células procarióticas, como Escherichia coli e semelhantes, podem utilizar um promotor induzível. Exemplos do promotor induzível incluem, mas não estão limitados a, promotor lac (induzido por IPTG), promotor cspA (induzido por choque frio), promotor araBAD (induzido por arabinose) e semelhantes.
[00651] Alternativamente, o promotor indutivo mencionado acima também pode ser utilizado como um mecanismo de remoção de vetor quando células eucarióticas superiores, tais como célula animal, célula de inseto, célula vegetal e semelhantes, são usadas como uma célula hospedeira. Ou seja, um vetor é montado com uma origem de replicação que funciona em uma célula hospedeira e um ácido nucleico que codifica uma proteína necessária para a replicação (por exemplo, SV40 em um antígeno T grande, oriP e EBNA-1 etc. para células animais), da expressão do ácido nucleico que codifica a proteína é regulada pelo promotor induzível acima mencionado. Como resultado, embora o vetor seja autonomamente replicável na presença de uma substância de indução, quando a substância de indução é removida, a replicação autônoma não está disponível e o vetor cai naturalmente junto com a divisão celular (a replicação autônoma não é possível pela adição de tetraciclina e doxiciclina no vetor do sistema Tet-OFF).
SISTEMA DE ENTREGA Entrega Baseada em Ácido Nucléico de Editores de Nucleobases e gRNAs
[00652] Os ácidos nucleicos que codificam editores de nucleobase de acordo com a presente divulgação podem ser administrados a indivíduos ou entregues em células in vitro (por exemplo, células- tronco hematopoiéticas, células hematopoiéticas, células-tronco embrionárias, células-tronco pluripotentes induzidas (iPSCs), organoides e células in vivo (por exemplo, medula óssea) por métodos conhecidos na técnica ou conforme descrito neste documento. Em uma modalidade, os editores de nucleobase são seletivamente entregues às células (por exemplo, células hematopoiéticas ou seus progenitores, células-tronco hematopoiéticas e/ou células-tronco pluripotentes induzidas). Em outras modalidades, ácidos nucleicos que codificam editores de nucleobase são entregues a células hematopoiéticas ou seus progenitores, células-tronco hematopoiéticas e/ou células-tronco pluripotentes induzidas compreendendo mutações no gene da beta-globina, HBB (por exemplo, HbS). Essas células podem ser usadas para testar os efeitos funcionais da edição de HBB. Em uma modalidade, o efeito de um HBB alterado é examinado em um glóbulo vermelho, onde a restauração da morfologia normal do glóbulo vermelho indica a presença de HBB funcional. Em uma modalidade, os editores de nucleobase podem ser entregues por, por exemplo, vetores (por exemplo, vetores virais ou não virais), métodos não baseados em vetor (por exemplo, usando DNA nu, complexos de DNA, nanopartículas de lipídios) ou uma combinação dos mesmos.
[00653] Os ácidos nucleicos que codificam editores de nucleobase podem ser entregues diretamente às células (por exemplo, células hematopoiéticas ou seus progenitores, células-tronco hematopoiéticas e/ou células-tronco pluripotentes induzidas) como DNA ou RNA nu, por exemplo, por meio de transfecção ou eletroporação, ou pode ser conjugado a moléculas (por exemplo, N-acetilgalactosamina) promovendo a absorção pelas células alvo. Os vetores de ácido nucleico, tais como os vetores descritos neste documento, também podem ser usados.
[00654] Os vetores de ácido nucleico podem compreender uma ou mais sequências que codificam um domínio de uma proteína de fusão aqui descrita. Um vetor também pode compreender uma sequência que codifica um peptídeo sinal (por exemplo, para localização nuclear, localização nucleolar ou localização mitocondrial), associada a (por exemplo, inserida ou fundida a) uma sequência que codifica uma proteína. Como um exemplo, um vetor de ácido nucleico pode incluir uma sequência de codificação Cas9 que inclui uma ou mais sequências de localização nuclear (por exemplo, uma sequência de localização nuclear de SV40) e uma variante de adenosina desaminase (por exemplo, ABE8).
[00655] O vetor de ácido nucleico também pode incluir qualquer número adequado de elementos reguladores/de controle, por exemplo, promotores, intensificadores, íntrons, sinais de poliadenilação, sequências de consenso Kozak ou sítios de entrada de ribossomo interno (IRES). Esses elementos são bem conhecidos na técnica. Para células hematopoiéticas, os promotores adequados podem incluir IFNbeta ou CD45.
[00656] Os vetores de ácido nucleico de acordo com esta divulgação incluem vetores virais recombinantes. Vetores virais exemplares são aqui apresentados. Outros vetores virais conhecidos na técnica também podem ser usados. Além disso, as partículas virais podem ser usadas para entregar componentes do sistema de edição de genoma na forma de ácido nucleico e/ou peptídeo. Por exemplo, partículas virais "vazias" podem ser montadas para conter qualquer carga adequada. Os vetores virais e as partículas virais também podem ser projetados para incorporar ligantes de direcionamento para alterar a especificidade do tecido alvo.
[00657] Além de vetores virais, vetores não virais podem ser usados para entregar ácidos nucleicos que codificam sistemas de edição de genoma de acordo com a presente divulgação. Uma categoria importante de vetores de ácido nucleico não virais são as nanopartículas, que podem ser orgânicas ou inorgânicas. As nanopartículas são bem conhecidas na técnica. Qualquer projeto de nanopartícula adequado pode ser usado para fornecer componentes do sistema de edição de genoma ou ácidos nucleicos que codificam tais componentes. Por exemplo, nanopartículas orgânicas (por exemplo, lipídios e/ou polímeros) podem ser adequadas para uso como veículos de entrega em certas modalidades desta divulgação. Lipídios exemplares para uso em formulações de nanopartículas e/ou transferência de genes são mostrados na Tabela 11 abaixo.
[00658] Tabela 12 lista polímeros exemplares para uso em transferência de gene e/ou formulações de nanopartículas.Tabela 12
[00659] Tabela 13 resume métodos de entrega para um polinucleotídeo que codifica uma proteína de fusão descrita aqui.
[00660] Em outro aspecto, a entrega de componentes do sistema de edição de genoma ou ácidos nucleicos que codificam tais componentes, por exemplo, uma proteína de ligação de ácido nucleico, tal como, por exemplo, Cas9 ou variantes dos mesmos, e um gRNA direcionado a uma sequência de ácido nucleico genômico de interesse, pode ser realizada através da entrega de uma ribonucleoproteína (RNP) às células. A RNP compreende a proteína de ligação ao ácido nucleico, por exemplo, Cas9, em complexo com o gRNA de direcionamento. As RNPs podem ser entregues às células usando métodos conhecidos, tais como eletroporação, nucleofecção ou métodos mediados por lipídios catiônicos, por exemplo, conforme relatado por Zuris, J.A. et al., 2015, Nat. Biotechnology, 33 (1): 73-80. As RNPs são vantajosas para uso em sistemas de edição de base CRISPR, particularmente para células que são difíceis de transfectar, como células primárias. Além disso, as RNPs também podem aliviar as dificuldades que podem ocorrer com a expressão de proteínas nas células, especialmente quando os promotores eucarióticos, por exemplo, CMV ou EF1A, que podem ser usados em plasmídeos CRISPR, não são bem expressos. Vantajosamente, o uso de RNPs não requer a entrega de DNA estranho às células. Além disso, como uma RNP compreendendo uma proteína de ligação de ácido nucleico e um complexo de gRNA é degradada ao longo do tempo, o uso de RNPs tem o potencial de limitar os efeitos fora do alvo. De uma maneira semelhante à das técnicas baseadas em plasmídeo, RNPs podem ser usadas para entregar proteína de ligação (por exemplo, variantes de Cas9) e para dirigir o reparo dirigido por homologia (HDR).
[00661] Um promotor usado para conduzir a expressão da molécula de ácido nucleico que codifica o editor de base pode incluir AAV ITR. Isso pode ser vantajoso para eliminar a necessidade de um elemento promotor adicional, que pode ocupar espaço no vetor. O espaço adicional liberado pode ser usado para conduzir a expressão de elementos adicionais, como um ácido nucleico guia ou um marcador selecionável. A atividade de ITR é relativamente fraca, portanto, pode ser usada para reduzir a toxicidade potencial devido à superexpressão da nuclease escolhida.
[00662] Qualquer promotor adequado pode ser usado para dirigir a expressão do editor de base e, quando apropriado, o ácido nucleico guia. Para expressão ubíqua, os promotores que podem ser usados incluem CMV, CAG, CBh, PGK, SV40, cadeias pesadas ou leves de ferritina, etc., GAD67 ou GAD65 ou VGAT para neurônios GABAérgicos, etc. Para a expressão de células do fígado, os promotores adequados incluem o promotor de albumina. Para a expressão de células pulmonares, os promotores adequados podem incluir SP-B. Para células endoteliais, os promotores adequados podem incluir ICAM. Para células hematopoiéticas, os promotores adequados podem incluem IFNbeta ou CD45. Para Osteoblastos, os promotores adequados podem incluir OG-2.
[00663] Em algumas modalidades, um editor de base da presente divulgação é de tamanho pequeno o suficiente para permitir que promotores separados conduzam a expressão do editor de base e um ácido nucleico guia compatível dentro da mesma molécula de ácido nucleico. Por exemplo, um vetor ou vetor viral pode compreender um primeiro promotor operacionalmente ligado a um ácido nucleico que codifica o editor de base e um segundo promotor operacionalmente ligado ao ácido nucleico guia.
[00664] O promotor usado para dirigir a expressão de um ácido nucleico guia pode incluir: Promotores Pol III, tais como U6 ou H1. Uso do promotor Pol II e cassetes intrônicos para expressar Vírus Adeno- Associados (AAV) de gRNA.
[00665] Em alguns aspectos, a divulgação se refere à entrega viral de um editor de nucleobase visando uma mutação de HBB usando, por exemplo, um vetor viral. Os vetores virais exemplares incluem vetores retrovirais (por exemplo, vírus da leucemia murina de Maloney, MML-V), vetores adenovirais (por exemplo, AD100), vetores lentivirais (vetores baseados em HIV e FIV), vetores de herpesvírus (por exemplo, HSV-2) e vetores de vírus adeno-associados.
Vetores Virais
[00666] Um editor de base aqui descrito pode, portanto, ser entregue com vetores virais. Em algumas modalidades, um editor de base divulgado neste documento pode ser codificado em um ácido nucleico que está contido em um vetor viral. Em algumas modalidades, um ou mais componentes do sistema de editor de base podem ser codificados em um ou mais vetores virais. Por exemplo, um editor de base e ácido nucleico guia podem ser codificados em um único vetor viral. Em outros casos, o editor de base e o ácido nucleico guia são codificados em diferentes vetores virais. Em ambos os casos, o editor de base e o ácido nucleico guia podem ser ligados operativamente a um promotor e terminador. A combinação de componentes codificados em um vetor viral pode ser determinada pelas restrições de tamanho de carga do vetor viral escolhido.
[00667] O uso de sistemas baseados em RNA ou DNA viral para a entrega de um editor de base tira vantagem de processos altamente evoluídos para direcionar um vírus para células específicas em cultura ou no hospedeiro e trafegar a carga viral para o núcleo ou genoma da célula hospedeira. Os vetores virais podem ser administrados diretamente às células em cultura, pacientes (in vivo), ou podem ser usados para tratar células in vitro, e as células modificadas podem ser opcionalmente administradas a pacientes (ex vivo). Os sistemas convencionais baseados em vírus podem incluir vetores de vírus retrovirais, lentivírus, adenovirais, adeno-associados e herpes simplex para transferência de genes. A integração no genoma do hospedeiro é possível com os métodos de transferência de genes de retrovírus, lentivírus e vírus adeno-associados, frequentemente resultando na expressão de longo prazo do transgene inserido. Além disso, altas eficiências de transdução foram observadas em muitos tipos de células e tecidos alvo diferentes.
[00668] Os vetores virais podem incluir lentivírus (por exemplo, vetores baseados em HIV e FIV), adenovírus (por exemplo, AD100), retrovírus (por exemplo, vírus da leucemia murina de Maloney, MMLV), vetores de herpesvírus (por exemplo, HSV-2) e vírus adeno- associados (AAVs), ou outros tipos de plasmídeo ou vetor viral, em particular, usando formulações e doses de, por exemplo, Patente U.S. No. 8.454.972 (formulações, doses para adenovírus), Patente U.S. No. 8.404.658 (formulações, doses para AAV) e Patente U.S. No. 5.846.946 (formulações, doses para plasmídeos de DNA) e de ensaios clínicos e publicações relativas aos ensaios clínicos envolvendo lentivírus, AAV e adenovírus. Por exemplo, para AAV, a via de administração, formulação e dose podem ser como na Patente U.S. No. 8.454.972 e como em ensaios clínicos envolvendo AAV. Para adenovírus, a via de administração, formulação e dose podem ser como na Patente U.S. No. 8.404.658 e como em ensaios clínicos envolvendo adenovírus. Para distribuição de plasmídeo, a via de administração, formulação e dose podem ser como na Patente U.S. No. 5.846.946 e como em estudos clínicos envolvendo plasmídeos. As doses podem ser baseadas ou extrapoladas para um indivíduo com 70 kg em média (por exemplo, um homem adulto do sexo masculino) e podem ser ajustadas para pacientes, indivíduos, mamíferos de diferentes pesos e espécies. A frequência de administração está dentro do âmbito do médico ou veterinário (por exemplo, médico, veterinário), dependendo de fatores usuais, incluindo a idade, sexo, saúde geral, outras condições do paciente ou indivíduo e a condição ou sintomas particulares a serem tratados. Os vetores virais podem ser injetados no tecido de interesse. Para edição de base específica do tipo de célula, a expressão do editor de base e ácido nucleico guia opcional pode ser conduzida por um promotor específico do tipo de célula.
[00669] O tropismo de um retrovírus pode ser alterado pela incorporação de proteínas de envelope estranhas, expandindo a população alvo potencial de células alvo. Os vetores lentivirais são vetores retrovirais que são capazes de transduzir ou infectar células que não se dividem e normalmente produzem altos títulos virais. A seleção de um sistema retroviral de transferência de genes dependeria, portanto, do tecido alvo. Os vetores retrovirais são compostos por repetições terminais longas que atuam em cis com capacidade de empacotamento de até 6-10 kb de sequência estrangeira. As LTRs de ação cis mínima são suficientes para a replicação e empacotamento dos vetores, que são então usados para integrar o gene terapêutico na célula alvo para fornecer a expressão permanente do transgene. Os vetores retrovirais amplamente utilizados incluem aqueles baseados no vírus da leucemia murina (MuLV), vírus da leucemia do macaco gibão (GaLV), vírus da imunodeficiência símia (SIV), vírus da imunodeficiência humana (HIV) e combinações dos mesmos (vide, por exemplo, Buchscher et al., J. Virol. 66: 2731-2739 (1992); Johann et al., J. Virol. 66: 1635-1640 (1992); Sommnerfelt et al., Virol. 176: 58-59 (1990); Wilson et al., J. Virol. 63: 2374-2378 (1989); Miller et al., J. Virol. 65: 2220-2224 (1991); PCT/US94/05700).
[00670] Os vetores retrovirais, especialmente os vetores lentivirais, podem exigir sequências de polinucleotídeo menores do que um determinado comprimento para integração eficiente em uma célula alvo. Por exemplo, vetores retrovirais de comprimento maior que 9 kb podem resultar em títulos virais baixos em comparação com aqueles de tamanho menor. Em alguns aspectos, um editor de base da presente divulgação é de tamanho suficiente para permitir empacotamento e distribuição eficientes em uma célula alvo por meio de um vetor retroviral. Em algumas modalidades, um editor de base tem um tamanho que permite empacotamento e entrega eficientes, mesmo quando expresso em conjunto com um ácido nucleico guia e/ou outros componentes de um sistema de nuclease direcionável.
[00671] Em aplicações onde a expressão transitória é preferida, sistemas baseados em adenovírus podem ser usados. Os vetores baseados em adenovírus são capazes de uma eficiência de transdução muito alta em muitos tipos de células e não requerem divisão celular. Com tais vetores, altos títulos e níveis de expressão foram obtidos. Esse vetor pode ser produzido em grandes quantidades em um sistema relativamente simples. Os vetores de vírus adeno- associados ("AAV") também podem ser usados para transduzir células com ácidos nucleicos alvo, por exemplo, na produção in vitro de ácidos nucleicos e peptídeos, e para procedimentos de terapia gênica in vivo e ex vivo (vide, por exemplo, West et al., Virology 160:38-47 (1987); Patente U.S. No. 4,797,368; WO 93/24641; Kotin, Human Gene Therapy 5:793-801 (1994); Muzyczka, J. Clin. Invest. 94:1351 (1994). The construction of recombinant AAV vectors is described in a number of publications, including U.S. Patent No. 5,173,414; Tratschin et al., Mol. Cell. Biol. 5:3251-3260 (1985); Tratschin, et al., Mol. Cell. Biol. 4:2072-2081 (1984); Hermonat & Muzyczka, PNAS 81:6466-6470 (1984); e Samulski et al., J. Virol. 63:03822-3828 (1989).
[00672] AAV é um pequeno vírus dependente de DNA de fita simples pertencente à família dos parvovírus. O genoma de AAV de 4,7 kb de tipo selvagem (wt) é composto por dois genes que codificam quatro proteínas de replicação e três proteínas do capsídeo, respectivamente, e é flanqueado em ambos os lados por repetições terminais invertidas de 145 pb (ITRs). O vírion é composto por três proteínas do capsídeo, Vp1, Vp2 e Vp3, produzidos em uma proporção de 1:1:10 a partir do mesmo quadro de leitura aberto, mas a partir de emenda diferencial (Vp1) e locais de início de tradução alternativos (Vp2 e Vp3, respectivamente). Vp3 é a subunidade mais abundante no vírion e participa do reconhecimento do receptor na superfície celular, definindo o tropismo do vírus. Um domínio de fosfolipase, que funciona na infecciosidade viral, foi identificado no N-terminal exclusivo de Vp1.
[00673] Semelhante a AAV wt, AAV recombinante (rAAV) utiliza as ITRs de 145-bp de ação cis para flanquear cassetes de transgene de vetor, fornecendo até 4,5 kb para empacotamento de DNA estranho. Após a infecção, o rAAV pode expressar uma proteína de fusão da invenção e persistir sem integração no genoma do hospedeiro por existir epissomalmente em concatâmeros circulares cabeça-a-cauda. Embora existam numerosos exemplos de sucesso de rAAV usando este sistema, in vitro e in vivo, a capacidade de empacotamento limitada limitou o uso de entrega de gene mediada por AAV quando o comprimento da sequência de codificação do gene é igual ou maior em tamanho que o genoma AAV wt.
[00674] Os vetores virais podem ser selecionados com base na aplicação. Por exemplo, para entrega de genes in vivo, AAV pode ser vantajoso em relação a outros vetores virais. Em algumas modalidades, o AAV permite baixa toxicidade, o que pode ser devido ao método de purificação não requerer ultracentrifugação de partículas de células que podem ativar a resposta imune. Em algumas modalidades, o AAV permite baixa probabilidade de causar mutagênese de inserção porque não se integra ao genoma do hospedeiro. Os adenovírus são comumente usados como vacinas devido à forte resposta imunogênica que induzem. A capacidade de empacotamento dos vetores virais pode limitar o tamanho do editor de base que pode ser empacotado no vetor.
[00675] AAV tem uma capacidade de empacotamento de cerca de 4,5 Kb ou 4,75 Kb, incluindo duas repetições terminais invertidas de 145 bases (ITRs). Isto significa que o editor de base divulgado, bem como um promotor e terminador de transcrição, podem caber em um único vetor viral. Construtos maiores que 4,5 ou 4,75 Kb podem levar a uma redução significativa da produção de vírus. Por exemplo, SpCas9 é bastante grande, o próprio gene tem mais de 4,1 Kb, o que torna difícil o empacotamento em AAV. Portanto, as modalidades da presente divulgação incluem o uso de um editor de base divulgado que é mais curto em comprimento do que os editores de base convencionais. Em alguns exemplos, os editores de base têm menos de 4 kb. Editores de base divulgados podem ter menos de 4,5 kb, 4,4 kb, 4,3 kb, 4,2 kb, 4,1 kb, 4 kb, 3,9 kb, 3,8 kb, 3,7 kb, 3,6 kb, 3,5 kb, 3,4 kb, 3,3 kb, 3,2 kb, 3,1 kb, 3 kb, 2,9 kb, 2,8 kb, 2,7 kb, 2,6 kb, 2,5 kb, 2 kb ou 1,5 kb. Em algumas modalidades, os editores de base divulgados têm 4,5 kb ou menos de comprimento.
[00676] Um AAV pode ser AAV1, AAV2, AAV5 ou qualquer combinação dos mesmos. Pode-se selecionar o tipo de AAV em relação às células a serem direcionadas; por exemplo, pode-se selecionar os serótipos 1, 2, 5 de AAV ou um capsídeo híbrido AAV1, AAV2, AAV5 ou qualquer combinação dos mesmos para direcionar células cerebrais ou neuronais; e pode-se selecionar AAV4 para direcionar o tecido cardíaco. AAV8 é útil para entrega ao fígado. Uma tabulação de certos serótipos de AAV quanto a essas células pode ser encontrada em Grimm, D. et al, J. Virol. 82: 5887-5911 (2008)).
[00677] Lentivírus são retrovírus complexos que têm a capacidade de infectar e expressar seus genes em células mitóticas e pós- mitóticas. O lentivírus mais comumente conhecido é o vírus da imunodeficiência humana (HIV), que usa as glicoproteínas do envelope de outros vírus para atingir uma ampla gama de tipos de células.
[00678] Os lentivírus podem ser preparados da seguinte forma. Após a clonagem de pCasES10 (que contém uma estrutura de plasmídeo de transferência lentiviral), HEK293FT em passagem baixa (p = 5) foram semeadas em um frasco T-75 para confluência de 50% no dia antes da transfecção em DMEM com 10% de soro fetal bovino e sem antibióticos. Após 20 horas, o meio é alterado para meio OptiMEM (sem soro) e a transfecção foi realizada 4 horas mais tarde. As células são transfectadas com 10 μg de plasmídeo de transferência lentiviral (pCasES10) e os seguintes plasmídeos de empacotamento: 5 μg de pMD2.G (pseudótipo VSV-g) e 7,5 μg de psPAX2 (gag/pol/rev/tat). A transfecção pode ser feita em 4 mL de OptiMEM com um agente de liberação de lipídio catiônico (50 ul de Lipofectamina 2000 e 100 ul de reagente Plus). Após 6 horas, o meio é alterado para DMEM sem antibiótico com 10% de soro fetal bovino. Esses métodos usam soro durante a cultura de células, mas os métodos sem soro são os preferidos.
[00679] Lentivírus podem ser purificados como segue. Os sobrenadantes virais são colhidos após 48 horas. Os sobrenadantes são primeiro limpos de resíduos e filtrados através de um filtro de baixa ligação à proteína (PVDF) de 0,45 μm. Eles são então centrifugados em uma ultracentrífuga por 2 horas a 24.000 rpm. Os péletes virais são ressuspensos em 50 μl de DMEM durante a noite a 4 °C. Eles são então divididos em alíquotas e imediatamente congelados a -80 °C.
[00680] Em outra modalidade, vetores lentivirais de não primatas mínimos com base no vírus da anemia infecciosa equina (EIAV) também são contemplados. Em outra modalidade, RETINOSTAT®, um vetor de terapia gênica lentiviral à base de vírus de anemia infecciosa equina que expressa endostatina e angiostatina de proteínas angiostáticas, está contemplado para ser entregue por meio de uma injeção sub-retiniana. Em outra modalidade, o uso de um vetor lentiviral autoinativador é contemplado.
[00681] Qualquer RNA dos sistemas, por exemplo, um RNA guia ou um mRNA de codificação de editor de base, pode ser distribuído na forma de RNA. O mRNA de codificação do editor de base pode ser gerado usando a transcrição in vitro. Por exemplo, o mRNA de nuclease pode ser sintetizado usando um cassete de PCR contendo os seguintes elementos: promotor T7, sequência kozak opcional (GCCACC), sequência de nuclease e 3’UTR, como um 3’ UTR da cauda beta globina-poliA. O cassete pode ser usado para transcrição pela polimerase T7. Os polinucleotídeos guia (por exemplo, gRNA) também podem ser transcritos usando a transcrição in vitro de um cassete contendo um promotor T7, seguido pela sequência "GG" e a sequência de polinucleotídeo guia.
[00682] Para aumentar a expressão e reduzir a possível toxicidade, a sequência de codificação do editor de base e/ou o ácido nucleico guia podem ser modificados para incluir um ou mais nucleosídeos modificados, e. usando pseudo-U ou 5-Metil-C.
[00683] A pequena capacidade de empacotamento dos vetores AAV torna a entrega de uma série de genes que excedem esse tamanho e/ou o uso de grandes elementos reguladores fisiológicos desafiadores. Esses desafios podem ser resolvidos, por exemplo, dividindo a (s) proteína (s) a serem entregues em dois ou mais fragmentos, em que o fragmento N-terminal é fundido a uma inteína-N dividida e o fragmento C-terminal é fundido a uma divisão inteína-C. Esses fragmentos são então empacotados em dois ou mais vetores AAV. Tal como aqui utilizado, "inteína" refere-se a um íntron de proteína de autoprocessamento (por exemplo, peptídeo) que liga as exteínas N-terminal e C-terminal (por exemplo, fragmentos a serem unidos). A utilização de certas inteínas para juntar fragmentos de proteínas heterólogas é descrita, por exemplo, em Wood et al., J. Biol. Chem. 289 (21); 14512-9 (2014). Por exemplo, quando fundidas para separar fragmentos de proteínas, as inteínas IntN e IntC reconhecem- se, separam-se e simultaneamente ligam as exteínas N- e C-terminais flanqueadoras dos fragmentos de proteína aos quais foram fundidas, reconstituindo assim uma proteína de comprimento completo dos dois fragmentos de proteína. Outras inteínas adequadas serão evidentes para um versado na técnica.
[00684] Um fragmento de uma proteína de fusão da invenção pode variar em comprimento. Em algumas modalidades, um fragmento de proteína varia de 2 aminoácidos a cerca de 1000 aminoácidos de comprimento. Em algumas modalidades, um fragmento de proteína varia de cerca de 5 aminoácidos a cerca de 500 aminoácidos de comprimento. Em algumas modalidades, um fragmento de proteína varia de cerca de 20 aminoácidos a cerca de 200 aminoácidos de comprimento. Em algumas modalidades, um fragmento de proteína varia de cerca de 10 aminoácidos a cerca de 100 aminoácidos de comprimento. Fragmentos de proteína adequados de outros comprimentos serão evidentes para um versado na técnica.
[00685] Em uma modalidade, os vetores AAV duplos são gerados pela divisão de um grande cassete de expressão do transgene em duas metades separadas (extremidades 5’ e 3’, ou cabeça e cauda), onde cada metade do cassete é empacotada em um único vetor AAV (de <5 kb). A remontagem do cassete de expressão do transgene de comprimento completo é então alcançada após a coinfecção da mesma célula por ambos os vetores AAV duplos, seguida por: (1) recombinação homóloga (HR) entre genomas 5’ e 3’ (sobreposição de AAV duplo vetores); (2) concatemerização cauda-a-cabeça mediada por ITR de genomas 5’ e 3’ (vetores de emenda trans de AAV duplos); ou (3) uma combinação desses dois mecanismos (vetores híbridos duplos AAV). O uso de vetores AAV duplos in vivo resulta na expressão de proteínas de comprimento completo. O uso da plataforma de vetor duplo AAV representa uma estratégia eficiente e viável de transferência de genes para transgenes de tamanho > 4,7 kb.
Inteínas
[00686] Em algumas modalidades, uma porção ou fragmento de uma nuclease (por exemplo, Cas9) são fundidos a uma inteína. A nuclease pode ser fundida ao N-terminal ou ao C-terminal da inteína. Em algumas modalidades, uma porção ou fragmento de uma proteína de fusão são fundidos a uma inteína e fundidos a uma proteína de capsídeo de AAV. A proteína inteína, nuclease e capsídeo podem ser fundidos em qualquer arranjo (por exemplo, nuclease-inteína- capsídeo, inteína-nuclease-capsídeo, capsídeo-inteína-nuclease, etc.). Em algumas modalidades, o N-terminal de uma inteína é fundido ao C- terminal de uma proteína de fusão e o C-terminal da inteína é fundido ao N-terminal de uma proteína de capsídeo de AAV. Inteínas (proteínas intervenientes) são domínios de autoprocessamento encontrados em uma variedade de organismos diversos, que realizam um processo conhecido como emenda de proteínas. A emenda de proteínas é uma reação bioquímica de várias etapas que compreende a clivagem e a formação de ligações peptídicas. Embora os substratos endógenos de emenda de proteínas sejam proteínas encontradas em organismos contendo inteínas, as inteínas também podem ser usadas para manipular quimicamente virtualmente qualquer estrutura polipeptídica.
[00687] Na emenda de proteína, a inteína se excisa de um polipeptídeo precursor por clivagem de duas ligações peptídicas, ligando assim as sequências de exteína flanqueadora (proteína externa) por meio da formação de uma nova ligação peptídica. Este rearranjo ocorre pós-tradução (ou possivelmente co-tradução). A emenda da proteína mediada por inteína ocorre espontaneamente, exigindo apenas o dobramento do domínio da inteína.
[00688] Cerca de 5% das inteínas são inteínas divididas, que são transcritas e traduzidas como dois polipeptídeos separados, a N- inteína e a C-inteína, cada uma fundida a uma exteína. Após a tradução, os fragmentos de inteína espontaneamente e não covalentemente montam na estrutura canônica de inteína para realizar a emenda da proteína em trans. O mecanismo de emenda de proteínas envolve uma série de reações de transferência de acil que resultam na clivagem de duas ligações peptídicas nas junções inteína- exteína e na formação de uma nova ligação peptídica entre as N- e C- exteínas. Este processo é iniciado pela ativação da ligação peptídica que une a N-exteína e o N-terminal da inteína. Praticamente todas as inteínas têm uma cisteína ou serina em seu N-terminal que ataca o carbono carbonil do resíduo de N-exteína C-terminal. Este deslocamento N para O/S acil é facilitado por uma treonina e histidina conservadas (referido como o motivo TXXH), juntamente com um aspartato comumente encontrado, que resulta na formação de um intermediário linear (tio) éster. Em seguida, este intermediário está indivíduo a trans- (tio) esterificação por ataque nucleofílico do primeiro resíduo C-exteína (+1), que é uma cisteína, serina ou treonina. O intermediário ramificado (tio) éster resultante é resolvido por meio de uma transformação única: ciclização da asparagina C-terminal altamente conservada da inteína. Este processo é facilitado pela histidina (encontrada em um motivo HNF altamente conservado) e pela penúltima histidina e pode também envolver o aspartato. Esta reação de formação de succinimida retira a inteína do complexo reativo e deixa para trás as exteínas anexadas por meio de uma ligação não peptídica. Esta estrutura se reorganiza rapidamente em uma ligação peptídica estável de uma forma independente de inteína.
[00689] Em algumas modalidades, um fragmento N-terminal de um editor de base (por exemplo, ABE, CBE) é fundido a uma inteína-N dividida e um fragmento C-terminal é fundido a uma inteína-C dividida. Esses fragmentos são então empacotados em dois ou mais vetores AAV. A utilização de certas inteínas para juntar fragmentos de proteínas heterólogas é descrita, por exemplo, em Wood et al., J. Biol. Chem. 289 (21); 14512-9 (2014). Por exemplo, quando fundidos para separar fragmentos de proteína, as inteínas IntN e IntC reconhecem- se mutuamente, separam-se e ligam simultaneamente as exteínas Ne C-terminais flanqueadoras dos fragmentos de proteína aos quais foram fundidas, reconstituindo assim um corpo inteiro proteína dos dois fragmentos de proteína. Outras inteínas adequadas serão evidentes para um versado na técnica.
[00690] Em algumas modalidades, um ABE foi dividido em fragmentos N- e C-terminais em resíduos Ala, Ser, Thr ou Cys em regiões selecionadas de SpCas9. Essas regiões correspondem às regiões de alça identificadas pela análise da estrutura do cristal Cas9. O N-terminal de cada fragmento é fundido a uma inteína-N e o C- terminal de cada fragmento é fundido a uma inteína C nas posições de aminoácidos S303, T310, T313, S355, A456, S460, A463, T466, S469, T472, T474, C574, S577, A589 e S590, que são indicados em maiúsculas em negrito na sequência abaixo. 1 mdkkysigld igtnsvgwav itdeykvpsk kfkvlgntdr hsikknliga llfdsgetae 61 atrlkrtarr rytrrknric ylqeifsnem akvddsffhr leesflveed kkherhpifg 121 nivdevayhe kyptiyhlrk klvdstdkad Irliylalah mikfrghfli egdlnpdnsd 181 vdklfiqlvq tynqlfeenp inasgvdaka ilsarlsksr rlenliaqlp gekknglfgn 241 lialslgltp nfksnfdlae daklqlskdt ydddldnlla qigdqyadlf laaknlsdai 301 llSdilrvnT eiTkaplsas mikrydehhq dltllkalvr qqlpekykei ffdqSkngya 361 gyidggasqe efykfikpil ekmdgteell vklnredllr kqrtfdngsi phqihlgelh 421 ailrrqedfy pflkdnreki ekiltfripy yvgplArgnS rfAwmTrkSe eTiTpwnfee 481 vvdkgasaqs fiermtnfdk nlpnekvlpk hsllyeyftv yneltkvkyv tegmrkpafl 541 sgeqkkaivd llfktnrkvt vkqlkedyfk kieCfdSvei sgvedrfnAS lgtyhdllki 601 ikdkdfldne enedilediv ltltlfedre mieerlktya hlfddkvmkq lkrrrytgwg 661 rlsrklingi rdkqsgktil dflksdgfan rnfmqlihdd sltfkediqk aqvsgqgdsl 721 hehianlags paikkgilqt vkvvdelvkv mgrhkpeniv iemarenqtt qkgqknsrer 781 mkrieegike lgsqilkehp ventqlqnek lylyylqngr dmyvdqeldi nrlsdydvdh 841 ivpqsflkdd sidnkvltrs dknrgksdnv pseevvkkmk nywrqllnak litqrkfdnl 901 tkaergglse ldkagfikrq lvetrqitkh vaqildsrmn tkydendkli revkvitlks 961 klvsdfrkdf qfykvreinn yhhahdayln avvgtalikk ypklesefvy gdykvydvrk 1021 miakseqeig katakyffys nimnffktei tlangeirkr plietngetg eivwdkgrdf 1081 atvrkvlsmp qvnivkktev qtggfskesi lpkrnsdkli arkkdwdpkk yggfdsptva 1141 ysvlvvakve kgkskklksv kellgitime rssfeknpid fleakgykev kkdliiklpk 1201 yslfelengr krmlasagel qkgnelalps kyvnflylas hyeklkgspe dneqkqlfve 1261 qhkhyldeii eqisefskrv iladanldkv lsaynkhrdk pireqaenii hlftltnlga 1321 paafkyfdtt idrkrytstk evldatlihq sitglyetri dlsqlggd
Uso de Editores de Nucleobase para Direcionar Mutações de HBB
[00691] A adequação dos editores de nucleobases que têm como alvo uma mutação de HBB é avaliada conforme descrito neste documento. Em uma modalidade, uma única célula de interesse (por exemplo, células hematopoiéticas ou seus progenitores, células-tronco hematopoiéticas e/ou células-tronco pluripotentes induzidas compreendendo uma mutação de HBB) é transduzida com um sistema de edição de base juntamente com uma pequena quantidade de um vetor que codifica um repórter (por exemplo, GFP). Estas células podem ser linhas de células humanas imortalizadas, como 293T, K562 ou U20S. Alternativamente, células primárias (por exemplo, humanas) podem ser usadas. Essas células podem ser relevantes para o eventual alvo celular.
[00692] A entrega pode ser realizada usando um vetor viral. Em uma modalidade, a transfecção pode ser realizada usando transfecção de lipídeos (como Lipofectamina ou Fugene) ou por eletroporação. Após a transfecção, a expressão de GFP pode ser determinada por microscopia de fluorescência ou por citometria de fluxo para confirmar níveis elevados e consistentes de transfecção. Essas transfecções preliminares podem compreender diferentes editores de nucleobases para determinar quais combinações de editores oferecem a maior atividade.
[00693] A atividade do editor de nucleobases é avaliada conforme descrito neste documento, ou seja, por sequenciamento do genoma das células para detectar alterações em uma sequência alvo. Para o sequenciamento Sanger, os amplicons de PCR purificados são clonados em uma estrutura de plasmídeo, transformados, miniprepped e sequenciados com um único iniciador. O sequenciamento também pode ser realizado usando técnicas de sequenciamento de próxima geração. Ao usar o sequenciamento de próxima geração, os amplicons podem ter 300-500 bp com o local de corte pretendido colocado de forma assimétrica. Após a PCR, os adaptadores de sequenciamento de próxima geração e códigos de barras (por exemplo, adaptadores multiplex Illumina e índices) podem ser adicionados às extremidades do amplicon, por exemplo, para uso em sequenciamento de alto rendimento (por exemplo, em um Illumina MiSeq).
[00694] As proteínas de fusão que induzem os maiores níveis de alterações específicas alvo em testes iniciais podem ser selecionados para avaliação posterior.
[00695] Em modalidades particulares, os editores de nucleobases são usados para direcionar polinucleotídeos de interesse. Em uma modalidade, um editor de nucleobases da invenção é entregue às células (por exemplo, células hematopoiéticas ou seus progenitores, células-tronco hematopoiéticas e/ou células-tronco pluripotentes induzidas) em conjunto com um RNA guia que é usado para direcionar uma mutação de HBB dentro o genoma de uma célula, alterando assim a mutação HBB.
[00696] O sistema pode compreender um ou mais vetores diferentes. Em um aspecto, o editor de base é códon otimizado para a expressão do tipo de célula desejado, preferivelmente uma célula eucariótica, preferivelmente uma célula de mamífero ou uma célula humana.
[00697] Em geral, a otimização de códons se refere a um processo de modificação de uma sequência de ácido nucleico para expressão intensificada nas células hospedeiras de interesse substituindo pelo menos um códon (por exemplo, cerca de ou mais de cerca de 1, 2, 3, 4, 5, 10, 15, 20, 25, 50 ou mais códons) da sequência nativa com códons que são mais frequentemente ou mais frequentemente usados nos genes dessa célula hospedeira, mantendo a sequência de aminoácidos nativa. Várias espécies apresentam tendência particular para certos códons de um determinado aminoácido. O enviesamento do códon (diferenças no uso do códon entre organismos) muitas vezes se correlaciona com a eficiência da tradução do RNA mensageiro (mRNA), que por sua vez é considerado dependente, entre outras coisas, das propriedades dos códons sendo traduzidos e da disponibilidade de determinados moléculas de RNA de transferência (tRNA). A predominância de tRNAs selecionados em uma célula é geralmente um reflexo dos códons usados com mais frequência na síntese de peptídeos. Consequentemente, os genes podem ser adaptados para a expressão gênica ideal em um determinado organismo com base na otimização de códons. As tabelas de uso de códon estão prontamente disponíveis, por exemplo, no "Codon Usage Database" disponível em www.kazusa.orjp/codon/(visitado em 9 de julho de 2002), e essas tabelas podem ser adaptadas de várias maneiras. Vide, Nakamura, Y., et al. "Codon usage tabulated from the international DNA sequence databases: status for the year 2000" Nucl. Acids Res. 28:292 (2000). Algoritmos de computador para a otimização de códons de uma sequência particular para expressão em uma célula hospedeira particular também estão disponíveis, como Gene Forge (Aptagen; Jacobus, Pa.), Também estão disponíveis. Em algumas modalidades, um ou mais códons (por exemplo, 1, 2, 3, 4, 5, 10, 15, 20, 25, 50 ou mais, ou todos os códons) em uma sequência que codifica uma nuclease projetada corresponde ao mais frequentemente usado códon para um determinado aminoácido.
[00698] As células de empacotamento são normalmente usadas para formar partículas de vírus que são capazes de infectar uma célula hospedeira. Essas células incluem células 293, que empacotam adenovírus, e células psi.2 ou células PA317, que empacotam retrovírus. Os vetores virais usados na terapia genética são geralmente gerados pela produção de uma linhagem celular que empacota um vetor de ácido nucleico em uma partícula viral. Os vetores contêm tipicamente as sequências virais mínimas necessárias para empacotamento e integração subsequente em um hospedeiro, outras sequências virais sendo substituídas por um cassete de expressão para o polinucleotídeo (s) a ser expressos. As funções virais ausentes são normalmente fornecidas em trans pela linhagem de células de empacotamento. Por exemplo, os vetores de AAV usados em terapia gênica tipicamente possuem apenas sequências ITR do genoma de AAV que são necessárias para empacotamento e integração no genoma do hospedeiro. O DNA viral pode ser empacotado em uma linhagem celular, que contém um plasmídeo auxiliar que codifica os outros genes AAV, a saber, rep e cap, mas sem sequências ITR. A linhagem celular também pode ser infectada com adenovírus como auxiliar. O vírus auxiliar pode promover a replicação do vetor AAV e a expressão de genes AAV a partir do plasmídeo auxiliar. O plasmídeo auxiliar, em alguns casos, não é embalado em quantidades significativas devido à falta de sequências ITR. A contaminação com adenovírus pode ser reduzida por, por exemplo, tratamento térmico ao qual o adenovírus é mais sensível do que AAV.
Composições Farmacêuticas
[00699] Outros aspectos da presente divulgação se referem a composições farmacêuticas compreendendo qualquer um dos editores de base, proteínas de fusão ou os complexos de proteína de fusão- polinucleotídeo guia aqui descritos. O termo "composição farmacêutica", tal como aqui utilizado, refere-se a uma composição formulada para uso farmacêutico. Em algumas modalidades, a composição farmacêutica adicionalmente compreende um transportador farmaceuticamente aceitável. Em algumas modalidades, a composição farmacêutica compreende agentes adicionais (por exemplo, para entrega específica, aumento da meia-vida ou outros compostos terapêuticos).
[00700] Conforme usado aqui, o termo "transportador farmaceuticamente aceitável" significa um material, composição ou veículo farmaceuticamente aceitável, tal como um enchimento líquido ou sólido, diluente, excipiente, auxiliar de fabricação (por exemplo, lubrificante, talco magnésio, cálcio ou estearato de zinco, ou ácido estérico), ou material de encapsulamento de solvente, envolvido no transporte ou transporte do composto de um local (por exemplo, o sítio de entrega) do corpo, para outro local (por exemplo, órgão, tecido ou parte do corpo). Um veículo farmaceuticamente aceitável é "aceitável" no sentido de ser compatível com os outros ingredientes da formulação e não prejudicial ao tecido do indivíduo (por exemplo, fisiologicamente compatível, estérila, pH fisiológico, etc.).
[00701] Alguns exemplos não limitativos de materiais que podem servir como veículos farmaceuticamente aceitáveis incluem: (1) açúcares, tais como lactose, glicose e sacarose; (2) amidos, tais como amido de milho e amido de batata; (3) celulose e seus derivados, tais como carboximetilcelulose de sódio, metilcelulose, etilcelulose, celulose microcristalina e acetato de celulose; (4) tragacanto em pó; (5) malte; (6) gelatina; (7) agentes lubrificantes, tais como estearato de magnésio, laurilsulfato de sódio e talco; (8) excipientes, tais como manteiga de cacau e ceras para supositórios; (9) óleos, tais como óleo de amendoim, óleo de semente de algodão, óleo de cártamo, óleo de sésamo, azeite, óleo de milho e óleo de soja; (10) glicóis, tais como propilenoglicol; (11) polióis, tais como glicerina, sorbitol, manitol e polietilenoglicol (PEG); (12) ésteres, tais como oleato de etila e laurato de etila; (13) ágar; (14) agentes tamponantes, tais como hidróxido de magnésio e hidróxido de alumínio; (15) ácido algínico; (16) água apirogênica; (17) solução salina isotônica; (18) solução de Ringer; (19) álcool etílico; (20) soluções com pH tamponado; (21) poliésteres, policarbonatos e/ou polianidridos; (22) agentes de volume, como polipeptídeos e aminoácidos (23) álcoois do soro, como etanol; e (23) outras substâncias compatíveis não tóxicas empregadas em formulações farmacêuticas. Agentes umectantes, agentes corantes, agentes de liberação, agentes de revestimento, agentes adoçantes, agentes aromatizantes, agentes perfumantes, conservantes e antioxidantes também podem estar presentes na formulação. Os termos como "excipiente", "transportador", "veículo farmaceuticamente aceitável", "veículo" ou semelhantes são usados indistintamente neste documento.
[00702] As composições farmacêuticas podem compreender um ou mais compostos de tamponamento de pH para manter o pH da formulação em um nível predeterminado que reflete o pH fisiológico, tal como na faixa de cerca de 5,0 a cerca de 8,0. O composto tampão de pH usado na formulação líquida aquosa pode ser um aminoácido ou mistura de aminoácidos, como histidina ou uma mistura de aminoácidos, como histidina e glicina. Alternativamente, o composto tampão de pH é preferivelmente um agente que mantém o pH da formulação a um nível predeterminado, tal como na faixa de cerca de 5,0 a cerca de 8,0, e que não quela íons de cálcio. Exemplos ilustrativos de tais compostos de tamponamento de pH incluem, mas não estão limitados a, íons imidazol e acetato. O composto de tamponamento de pH pode estar presente em qualquer quantidade adequada para manter o pH da formulação a um nível predeterminado.
[00703] As composições farmacêuticas também podem conter um ou mais agentes moduladores osmóticos, ou seja, um composto que modula as propriedades osmóticas (por exemplo, tonicidade, osmolalidade e/ou pressão osmótica) da formulação a um nível que seja aceitável para a corrente sanguínea e células sanguíneas de indivíduos destinatários. O agente modulador osmótico pode ser um agente que não quela os íons de cálcio. O agente modulador osmótico pode ser qualquer composto conhecido ou disponível para aqueles versados na técnica que modula as propriedades osmóticas da formulação. Um versado na técnica pode determinar empiricamente a adequação de um dado agente modulador osmótico para uso na formulação da invenção. Os exemplos ilustrativos de tipos adequados de agentes moduladores osmóticos incluem, mas não estão limitados a: sais, tais como cloreto de sódio e acetato de sódio; açúcares, como sacarose, dextrose e manitol; aminoácidos, como glicina; e misturas de um ou mais destes agentes e/ou tipos de agentes. O agente (s) modulador osmótico podem estar presentes em qualquer concentração suficiente para modular as propriedades osmóticas da formulação.
[00704] Em algumas modalidades, a composição farmacêutica é formulada para entrega a um indivíduo, por exemplo, para edição de gene. As vias adequadas de administração da composição farmacêutica aqui descritas incluem, sem limitação: tópica, subcutânea, transdérmica, intradérmica, intralesional, intraarticular, intraperitoneal, intravesical, transmucosa, gengival, intradental, intracoclear, transtimpânica, intraórgão, epidural, intratecal, intramuscular, intravenosa, administração intravascular, intraóssea, periocular, intratumoral, intracerebral e intracerebroventricular.
[00705] Em algumas modalidades, a composição farmacêutica aqui descrita é administrada localmente a um local doente (por exemplo, local do tumor). Em algumas modalidades, a composição farmacêutica aqui descrita é administrada a um indivíduo por injeção, por meio de um cateter, por meio de um supositório ou por meio de um implante, sendo o implante de um material poroso, não poroso ou gelatinoso, incluindo uma membrana, como uma membrana sialástica ou uma fibra.
[00706] Em outras modalidades, o produto farmacêutico A composição ical aqui descrita é entregue em um sistema de liberação controlada. Em uma modalidade, uma bomba pode ser usada (vide, por exemplo, Langer, 1990, Science 249: 1527-1533; Sefton, 1989, CRC Crit. Ref. Biomed. Eng. 14: 201; Buchwald et al., 1980, Surgery 88: 507; Saudek et al, 1989, N. Engl. J. Med. 321: 574). Em outra modalidade, materiais poliméricos podem ser usados. (vide, por exemplo, Medical Applications of Controlled Release (Langer and Wise eds., CRC Press, Boca Raton, Fla., 1974); Controlled Drug Bioavailability, Drug Product Design and Performance (Smolen and Ball eds., Wiley, Nova Iorque, 1984); Ranger e Peppas, 1983, Macromol. Sei. Rev. Macromol. Chem. 23:61. Vide também Levy et al., 1985, Science 228: 190; Durante et al., 1989, Ann. Neurol. 25: 351; Howard et ah, 1989, J. Neurosurg. 71: 105.) Outros sistemas de liberação controlada são discutidos, por exemplo, em Langer, supra.
[00707] Em algumas modalidades, a composição farmacêutica é formulada de acordo com procedimentos de rotina como uma composição adaptada para administração intravenosa ou subcutânea a um indivíduo, por exemplo, um humano. Em algumas modalidades, a composição farmacêutica para administração por injeção são soluções em uso isotônico estéril como agente solubilizante e um anestésico local, como lidocaína, para aliviar a dor no sítio da injeção. Geralmente, os ingredientes são fornecidos separadamente ou misturados em forma de dosagem unitária, por exemplo, como um pó liofilizado seco ou concentrado sem água em um recipiente hermeticamente fechado, como uma ampola ou sachê indicando a quantidade de agente ativo. Quando o produto farmacêutico for administrado por infusão, pode ser dispensado com um frasco de infusão contendo água esterilizada de qualidade farmacêutica ou soro fisiológico. Quando a composição farmacêutica é administrada por injeção, uma ampola de água estéril para injeção ou solução salina pode ser fornecida para que os ingredientes possam ser misturados antes da administração.
[00708] Uma composição farmacêutica para administração sistêmica pode ser um líquido, por exemplo, solução salina estérila, solução de Ringer com lactato ou solução de Hank. Além disso, a composição farmacêutica pode estar em formas sólidas e redissolvida ou suspensa imediatamente antes do uso. As formas liofilizadas também são contempladas. A composição farmacêutica pode estar contida em uma partícula lipídica ou vesícula, como um lipossoma ou microcristal, que também é adequado para administração parenteral. As partículas podem ser de qualquer estrutura adequada, tal como unilamelar ou plurilamelar, desde que as composições estejam contidas nelas. Os compostos podem ser aprisionados em "partículas de lipídio-plasmídeo estabilizadas" (SPLP) contendo dioleoilfosfatidiletanolamina de lipídio fusogênico (DOPE), baixos níveis (5-10 mol%) de lipídio catiônico e estabilizados por um revestimento de polietilenoglicol (PEG) (Zhang YP et ah, Gene Ther. 1999, 6: 1438-47). Lípidos carregados positivamente, tais como metilsulfato de N-[1-(2,3- dioleoilóxi)propil]-N,N,N-trimetil-amônio, ou "DOTAP", são particularmente preferidos para tais partículas e vesículas. A preparação de tais partículas lipídicas é bem conhecida. Vide, por exemplo, Patentes U.S. Nos. 4.880.635; 4.906.477; 4.911.928; 4.917.951; 4.920.016; e 4.921.757; cada um dos quais é incorporado aqui por referência.
[00709] A composição farmacêutica aqui descrita pode ser administrada ou embalada como uma dose unitária, por exemplo. O termo "dose unitária", quando usado em referência a uma composição farmacêutica da presente divulgação, refere-se a unidades fisicamente discretas adequadas como dosagem unitária para o indivíduo, cada unidade contendo uma quantidade predeterminada de material ativo calculada para produzir o efeito terapêutico desejado em associação com o diluente necessário; ou seja, transportadora ou veículo.
[00710] Além disso, a composição farmacêutica pode ser fornecida como um kit farmacêutico compreendendo (a) um recipiente contendo um composto da invenção na forma liofilizada e (b) um segundo recipiente contendo um diluente farmaceuticamente aceitável (por exemplo, estéril usado para reconstituição ou diluição do composto liofilizado da invenção. Opcionalmente associado a tais recipientes pode ser um aviso na forma prescrita por uma agência governamental que regula a fabricação, uso ou venda de produtos farmacêuticos ou biológicos, cujo aviso reflete a aprovação pela agência de fabricação, uso ou venda para administração humana.
[00711] Em outro aspecto, um artigo de fabricação contendo materiais úteis para o tratamento das doenças descritas acima é incluído. Em algumas modalidades, o artigo de fabricação compreende um recipiente e um rótulo. Recipientes adequados incluem, por exemplo, garrafas, frascos, seringas e tubos de ensaio. Os recipientes podem ser formados de uma variedade de materiais, como vidro ou plástico. Em algumas modalidades, o recipiente contém uma composição que é eficaz para o tratamento de uma doença aqui descrita e pode ter uma porta de acesso estéril. Por exemplo, o recipiente pode ser um saco de solução intravenosa ou um frasco com uma rolha perfurável por uma agulha de injeção hipodérmica. O agente ativo na composição é um composto da invenção. Em algumas modalidades, o rótulo ou associado ao recipiente indica que a composição é usada para tratar a doença de escolha. O artigo de fabricação pode adicionalmente compreender um segundo recipiente compreendendo um tampão farmaceuticamente aceitável, tal como solução salina tamponada com fosfato, solução de Ringer ou solução de dextrose. Pode ainda incluir outros materiais desejáveis do ponto de vista comercial e do usuário, incluindo outros tampões, diluentes, filtros, agulhas, seringas e bulas com instruções de uso.
[00712] Em algumas modalidades, qualquer uma das proteínas de fusão, gRNAs e/ou complexos aqui descritos são fornecidos como parte de uma composição farmacêutica. Em algumas modalidades, a composição farmacêutica compreende qualquer uma das proteínas de fusão aqui fornecidas. Em algumas modalidades, a composição farmacêutica compreende qualquer um dos complexos aqui fornecidos. Em algumas modalidades, a composição farmacêutica compreende um complexo de ribonucleoproteína compreendendo uma nuclease guiada por RNA (por exemplo, Cas9) que forma um complexo com um gRNA e um lipídeo catiônico. Em algumas modalidades, a composição farmacêutica compreende um gRNA, uma proteína de ligação de DNA programável de ácido nucleico, um lipídio catiônico e um excipiente farmaceuticamente aceitável. As composições farmacêuticas podem opcionalmente compreender uma ou mais substâncias terapeuticamente ativas adicionais.
[00713] Em algumas modalidades, as composições fornecidas neste documento são administradas a um indivíduo, por exemplo, a um indivíduo humano, a fim de efetuar uma modificação genômica direcionada dentro do indivíduo. Em algumas modalidades, as células são obtidas a partir do indivíduo e colocadas em contato com qualquer uma das composições farmacêuticas aqui fornecidas. Em algumas modalidades, as células removidas de um indivíduo e contatadas ex vivo com uma composição farmacêutica são reintroduzidas no indivíduo, opcionalmente após a modificação genômica desejada ter sido efetuada ou detectada nas células. Os métodos de entrega de composições farmacêuticas compreendendo nucleases são conhecidos e são descritos, por exemplo, na Pat. Nos. 6.453.242; 6.503.717; 6.534.261; 6.599.692; 6.607.882; 6.689.558; 6.824.978; 6.933.113; 6.979.539; 7.013.219; e 7.163.824, cujas divulgações são incorporadas aqui por referência em sua totalidade. Embora as descrições de composições farmacêuticas fornecidas neste documento sejam principalmente direcionadas a composições farmacêuticas que são adequadas para administração a humanos, será entendido pelo versado na técnica que tais composições são geralmente adequadas para administração a animais ou organismos de todos os tipos, por exemplo, para uso veterinário.
[00714] A modificação de composições farmacêuticas adequadas para administração a humanos a fim de tornar as composições adequadas para administração a vários animais é bem compreendida, e o farmacologista veterinário comumente habilitado pode projetar e/ou realizar tal modificação com experimentação meramente comum, se houver. Os indivíduos para os quais a administração das composições farmacêuticas é contemplada incluem, mas não estão limitados a, humanos e/ou outros primatas; mamíferos, animais domesticados, animais de estimação e mamíferos comercialmente relevantes, como gado, porcos, cavalos, ovelhas, gatos, cães, ratos e/ou ratos; e/ou pássaros, incluindo pássaros comercialmente relevantes, como galinhas, patos, gansos e/ou perus.
[00715] As formulações das composições farmacêuticas aqui descritas podem ser preparadas por qualquer método conhecido ou a seguir desenvolvido na técnica da farmacologia. Em geral, tais métodos preparatórios incluem a etapa de trazer o ingrediente (s) ativo em associação com um excipiente e/ou um ou mais outros ingredientes acessórios e, então, se necessário e/ou desejável, moldar e/ou embalar o produto em uma unidade de dose única ou múltipla desejada. As formulações farmacêuticas podem compreender adicionalmente um excipiente farmaceuticamente aceitável, que, como aqui utilizado, inclui todos e quaisquer solventes, meios de dispersão, diluentes ou outros veículos líquidos, auxiliares de dispersão ou suspensão, agentes tensoativos, agentes isotônicos, espessantes ou emulsionantes, conservantes, aglutinantes sólidos, lubrificantes e semelhantes, conforme adequado para a forma de dosagem particular desejada. Remington’s The Science and Practice of Pharmacy, 21a Edição, A. R. Gennaro (Lippincott, Williams & Wilkins, Baltimore, MD, 2006; incorporado em sua totalidade neste documento por referência) divulga vários excipientes usados na formulação de composições farmacêuticas e técnicas conhecidas para a sua preparação. Vide também o pedido PCT PCT/US2010/055131 (Publicação número WO2011/053982 A8, depositado em 2 de novembro de 2010), incorporado em sua totalidade neste documento por referência, para métodos adicionais adequados, reagentes, excipientes e solventes para a produção de composições farmacêuticas compreendendo uma nuclease.
[00716] Exceto na medida em que qualquer meio excipiente convencional seja incompatível com uma substância ou seus derivados, como por meio da produção de qualquer efeito biológico indesejável ou de outra forma interagindo de forma deletéria com qualquer outro componente (s) da composição farmacêutica, seu uso é contemplado como estando dentro do escopo desta divulgação.
[00717] As composições, conforme descrito acima, podem ser administradas em quantidades eficazes. A quantidade eficaz dependerá do modo de administração, da condição particular a ser tratada e do resultado desejado. Também pode depender do estágio da condição, da idade e da condição física do indivíduo, da natureza da terapia simultânea, se houver, e de fatores semelhantes bem conhecidos do médico. Para aplicações terapêuticas, é a quantidade suficiente para atingir um resultado clinicamente desejável.
[00718] Em algumas modalidades, as composições de acordo com a presente divulgação podem ser usadas para o tratamento de qualquer uma de uma variedade de doenças, distúrbios e/ou condições. Em algumas modalidades, as composições podem ser usadas para o tratamento de SCD e seus sintomas.
Kits
[00719] Vários aspectos desta divulgação fornecem kits que compreendem um sistema de editor de base. Em uma modalidade, o kit compreende um construto de ácido nucleico que compreende uma sequência de nucleotídeos que codifica uma proteína de fusão de editor de nucleobase. A proteína de fusão compreende uma desaminase (por exemplo, adenosina desaminase) e uma proteína de ligação de DNA programável de ácido nucleico (napDNAbp). Em algumas modalidades, o kit compreende pelo menos um RNA guia capaz de direcionar o HBB. Em algumas modalidades, o kit compreende um construto de ácido nucleico que compreende uma sequência de nucleotídeos que codifica pelo menos um RNA guia capaz de direcionar o HBB.
[00720] O kit fornece, em algumas modalidades, instruções para usar o kit para editar uma ou mais mutações (por exemplo, mutações em HBB). As instruções geralmente incluirão informações sobre o uso do kit para edição de moléculas de ácido nucleico. Em outras modalidades, as instruções incluem pelo menos um dos seguintes: precauções; avisos; estudos clínicos; e/ou referências. As instruções podem ser impressas diretamente no recipiente (quando presente), ou como uma etiqueta aplicada ao recipiente, ou como uma folha separada, panfleto, cartão ou pasta fornecida no ou com o recipiente. Em uma outra modalidade, um kit pode compreender instruções na forma de um rótulo ou folheto separado (folheto informativo) para parâmetros operacionais adequados. Em ainda outra modalidade, o kit pode compreender um ou mais recipientes com controles positivos e negativos apropriados ou amostras de controle, para serem usados como padrão (s) para detecção, calibração ou normalização. O kit pode ainda compreender um segundo recipiente compreendendo um tampão farmaceuticamente aceitável, tal como solução salina tamponada com fosfato (estéril), solução de Ringer ou solução de dextrose. Pode ainda incluir outros materiais desejáveis do ponto de vista comercial e do usuário, incluindo outros tampões, diluentes, filtros, agulhas, seringas e bulas com instruções de uso.
Proteínas de Fusão com Inserções Internas
[00721] São fornecidas aqui proteínas de fusão compreendendo um polipeptídeo heterólogo fundido a uma proteína de ligação a ácido nucleico programável de ácido nucleico, por exemplo, um NAPDNAbp. Um polipeptídeo heterólogo pode ser um polipeptídeo que não é encontrado na sequência do polipeptídeo napDNAbp nativo ou de tipo selvagem. O polipeptídeo heterólogo pode ser fundido ao napDNAbp em uma extremidade C-terminal do napDNAbp, uma extremidade N- terminal do napDNAbp, ou inserido em um local interno do napDNAbp. Em algumas modalidades, o polipeptídeo heterólogo é inserido em um local interno do napDNAbp.
[00722] Em algumas modalidades, o polipeptídeo heterólogo é uma desaminase ou um fragmento funcional da mesma. Por exemplo, uma proteína de fusão pode compreender uma desaminase flanqueada por um fragmento N-terminal e um fragmento C-terminal de uma Cas9 ou Cas12 (por exemplo, Cas12b/C2c1), polipeptídeo. A desaminase em uma proteína de fusão pode ser uma adenosina desaminase. Em algumas modalidades, a adenosina desaminase é um TadA (por exemplo, TadA7.10 ou TadA*8). Em algumas modalidades, o TadA é um TadA*8. As sequências de TadA (por exemplo, TadA7.10 ou TadA*8) como aqui descritas são desaminases adequadas para as proteínas de fusão descritas acima.
[00723] A desaminase pode ser uma desaminase permutante circular. Por exemplo, a desaminase pode ser uma adenosina desaminase permutante circular. Em algumas modalidades, a desaminase é um permutante circular TadA, circularmente permutado no resíduo de aminoácido 116 conforme numerado na sequência de referência de TadA. Em algumas modalidades, a desaminase é um permutante circular TadA, circularmente permutado no resíduo de aminoácido 136 conforme numerado na sequência de referência de TadA. Em algumas modalidades, a desaminase é um permutante circular TadA, circularmente permutado no resíduo de aminoácido 65, conforme numerado na sequência de referência de TadA.
[00724] A proteína de fusão pode compreender mais de uma desaminase. A proteína de fusão pode compreender, por exemplo, 1, 2, 3, 4, 5 ou mais desaminases. Em algumas modalidades, a proteína de fusão compreende uma desaminase. Em algumas modalidades, a proteína de fusão compreende dois deam inases. As duas ou mais desaminases em uma proteína de fusão podem ser uma adenosina desaminase. citidina desaminase, ou uma combinação das mesmas, por exemplo, como descrito em PCT/US19/44935. As duas ou mais desaminases podem ser homodímeros. As duas ou mais desaminases podem ser heterodímeros. As duas ou mais desaminases podem ser inseridas em tandem no napDNAbp. Em algumas modalidades, as duas ou mais desaminases podem não estar em tandem no napDNAbp.
[00725] Em algumas modalidades, o napDNAbp na proteína de fusão é um polipeptídeo Cas9 ou um fragmento do mesmo. O polipeptídeo Cas9 pode ser um polipeptídeo Cas9 variante. Em algumas modalidades, o polipeptídeo Cas9 é um polipeptídeo nickase Cas9 (nCas9) ou um fragmento do mesmo. Em algumas modalidades, o polipeptídeo Cas9 é um polipeptídeo Cas9 morta de nuclease (dCas9) ou um fragmento do mesmo. O polipeptídeo Cas9 em uma proteína de fusão pode ser um polipeptídeo Cas9 de comprimento completo. Em alguns casos, o polipeptídeo Cas9 em uma proteína de fusão pode não ser um polipeptídeo Cas9 de comprimento completo. O polipeptídeo Cas9 pode ser truncado, por exemplo, em uma extremidade N-terminal ou C-terminal em relação a uma proteína Cas9 de ocorrência natural. O polipeptídeo Cas9 pode ser uma proteína Cas9 permutada circularmente. O polipeptídeo Cas9 pode ser um fragmento, uma porção ou um domínio de um polipeptídeo Cas9, que ainda é capaz de ligar o polinucleotídeo alvo e uma sequência de ácido nucleico guia.
[00726] Em algumas modalidades, o polipeptídeo Cas9 é um Cas9 de Streptococcus pyogenes (SpCas9), Cas9 de Staphylococcus aureus (SaCas9), Cas9 de Streptococcus thermophilus 1 (St1Cas9), ou fragmentos ou variantes dos mesmos.
[00727] O polipeptídeo Cas9 de uma proteína de fusão pode compreender uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntica a um polipeptídeo Cas9 de ocorrência natural.
[00728] O polipeptídeo Cas9 de uma proteína de fusão pode compreender uma sequência de aminoácidos que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% idêntica à sequência de aminoácidos Cas9 estabelecida abaixo (chamada de "sequência de referência Cas9" abaixo): MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI GALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDD SFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVD STDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYN QLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLI ALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLF LAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVR QQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEE LLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDN REKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDK GASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTE GMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEI SGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRE MIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGK TILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIA NLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKG QKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGR DMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKS DNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKA GFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLV SDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYG DYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKR PLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSK ESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKS KKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPED NEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDK PIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQ SITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[00729] Em algumas modalidades, o napDNAbp na proteína de fusão é um polipeptídeo Cas12, por exemplo, Cas12b/C2c1 ou um fragmento do mesmo. O polipeptídeo Cas12 pode ser um polipeptídeo Cas12 variante.
[00730] O polipeptídeo heterólogo (por exemplo, desaminase) pode ser inserido no napDNAbp (por exemplo, Cas9 ou Cas12 (por exemplo, Cas12b/C2c1)) em um local adequado, por exemplo, de modo que o napDNAbp retenha sua capacidade de ligar o polinucleotídeo alvo e um ácido nucléico guia. Uma desaminase (por exemplo, adenosina desaminase) pode ser inserida em um NAPDNAbp sem comprometer a função da desaminase (por exemplo, atividade de edição de base) ou o napDNAbp (por exemplo, capacidade de se ligar ao ácido nucleico alvo e ácido nucleico guia). Uma desaminase (por exemplo, adenosina desaminase) pode ser inserida no napDNAbp em, por exemplo, uma região desordenada ou uma região compreendendo um fator de alta temperatura ou fator B como mostrado por estudos cristalográficos. Regiões de uma proteína que são menos ordenadas, desordenadas ou não estruturadas, por exemplo, regiões expostas a solvente e loops, podem ser usadas para inserção sem comprometer a estrutura ou função. Uma desaminase (por exemplo, adenosina desaminase) pode ser inserida no napDNAbp em uma região de alça flexível ou uma região exposta a solvente. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida em uma alça flexível da Cas9 ou do polipeptídeo Cas12b/C2c1.
[00731] Em algumas modalidades, o local de inserção de uma desaminase (por exemplo, adenosina desaminase) é determinado por análise de fator B da estrutura cristalina do polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida em regiões do polipeptídeo Cas9 compreendendo fatores B superiores à média (por exemplo, fatores B superiores em comparação com a proteína total ou o domínio da proteína que compreende a região desordenada). O fator B ou fator de temperatura pode indicar a flutuação dos átomos de sua posição média (por exemplo, como resultado de vibrações atômicas dependentes da temperatura ou desordem estática em uma rede cristalina). Um fator B alto (por exemplo, fator B maior do que a média) para átomos de backbone pode ser indicativo de uma região com mobilidade local relativamente alta. Essa região pode ser usada para inserir uma desaminase sem comprometer a estrutura ou função. Uma desaminase (por exemplo, adenosina desaminase) pode ser inserida em um local com um resíduo possuindo um átomo Cα com um fator B que é 50%, 60%, 70%, 80%, 90%, 100%, 110%, 120 %, 130%, 140%, 150%, 160%, 170%, 180%, 190%, 200% ou mais de 200% a mais do que o fator B médio para a proteína total. Uma desaminase (por exemplo, adenosina desaminase) pode ser inserida em um local com um resíduo possuindo um átomo Cα com um fator B que é 50%, 60%, 70%, 80%, 90%, 100%, 110%, 120 %, 130%, 140%, 150%, 160%, 170%, 180%, 190%, 200% ou mais do que 200% a mais do que o fator B médio para um domínio de proteína Cas9 compreendendo o resíduo. As posições do polipeptídeo Cas9 que compreendem um fator B superior à média podem incluir, por exemplo, os resíduos 768, 792, 1052, 1015, 1022, 1026, 1029, 1067, 1040, 1054, 1068, 1246, 1247 e 1248 conforme numerado no acima da sequência de referência Cas9. As regiões polipeptídicas Cas9 que compreendem um fator B superior à média podem incluir, por exemplo, os resíduos 792-872, 792-906 e 2-791, conforme numerado na sequência de referência Cas9 acima.
[00732] Um polipeptídeo heterólogo (por exemplo, desaminase) pode ser inserido no napDNAbp em um resíduo de aminoácido selecionado a partir do grupo que consiste em: 768, 791, 792, 1015, 1016, 1022, 1023, 1026, 1029, 1040, 1052, 1054, 1067, 1068, 1069, 1246, 1247 e 1248, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, o polipeptídeo heterólogo é inserido entre as posições de aminoácidos 768-769, 791792, 792-793, 1015-1016, 1022-1023, 1026-1027, 1029-1030, 10401041, 1052-1053, 1054 -1055, 1067-1068, 1068-1069, 1247-1248 ou 1248-1249 conforme numerado na sequência de referência Cas9 acima ou nas posições de aminoácidos correspondentes. Em algumas modalidades, o polipeptídeo heterólogo é inserido entre as posições de aminoácidos 769-770, 792-793, 793-794, 1016-1017, 1023-1024, 1027-1028, 1030-1031, 1041-1042, 1053-1054, 1055 -1056, 1068 1069, 1069-1070, 1248-1249 ou 1249-1250 conforme numerado na sequência de referência Cas9 acima ou nas posições de aminoácidos correspondentes. Em algumas modalidades, o polipeptídeo heterólogo substitui um resíduo de aminoácido selecionado a partir do grupo que consiste em: 768, 791, 792, 1015, 1016, 1022, 1023, 1026, 1029, 1040, 1052, 1054, 1067, 1068, 1069, 1246, 1247 e 1248 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Deve ser entendido que a referência à sequência de referência Cas9 acima com relação às posições de inserção é para fins ilustrativos. As inserções, conforme discutido neste documento, não estão limitadas à sequência de polipeptídeo Cas9 da sequência de referência Cas9 acima, mas incluem a inserção em locais correspondentes em polipeptídeos Cas9 variantes, por exemplo, uma nickase Cas9 (nCas9), Cas9 morta de nuclease (dCas9), uma variante de Cas9 sem um domínio nuclease, uma Cas9 truncada ou um domínio Cas9 sem um domínio HNH parcial ou completo.
[00733] Um polipeptídeo heterólogo (por exemplo, desaminase) pode ser inserido no napDNAbp em um resíduo de aminoácido selecionado a partir do grupo que consiste em: 768, 792, 1022, 1026, 1040, 1068 e 1247 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, o polipeptídeo heterólogo é inserido entre as posições de aminoácidos 768-769, 792793, 1022-1023, 1026-1027, 1029-1030, 1040-1041, 1068-1069 ou 1247-1248 conforme numerado na sequência referência Cas9 acima ou posições de aminoácidos correspondentes dos mesmos. Em algumas modalidades, o polipeptídeo heterólogo é inserido entre as posições de aminoácidos 769-770, 793-794, 1023-1024, 1027-1028, 1030-1031, 1041-1042, 1069-1070 ou 1248-1249 conforme numerado na sequência referência Cas9 acima ou posições de aminoácidos correspondentes dos mesmos. Em algumas modalidades, o polipeptídeo heterólogo substitui um resíduo de aminoácido selecionado a partir do grupo que consiste em: 768, 792, 1022, 1026, 1040, 1068 e 1247 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00734] Um polipeptídeo heterólogo (por exemplo, d eaminase) pode ser inserido no napDNAbp em um resíduo de aminoácido como aqui descrito, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em uma modalidade, um polipeptídeo heterólogo (por exemplo, desaminase) pode ser inserido no napDNAbp em um resíduo de aminoácido selecionado a partir do grupo que consiste em: 1002, 1003, 1025, 1052-1056, 1242-1247, 1061-1077, 943- 947, 686691, 569-578, 530-539 e 1060-1077 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. A desaminase (por exemplo, adenosina desaminase) pode ser inserida no N-terminal ou no C-terminal do resíduo ou substituir o resíduo. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo.
[00735] Em algumas modalidades, uma adenosina desaminase (por exemplo, TadA) é inserida em um resíduo de aminoácido selecionado a partir do grupo que consiste em: 1015, 1022, 1029, 1040, 1068, 1247, 1054, 1026, 768, 1067, 1248, 1052, e 1246 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, uma adenosina desaminase (por exemplo, TadA) é inserida no lugar dos resíduos 792-872, 792-906 ou 2-791, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a adenosina desaminase é inserida no N-terminal de um aminoácido selecionado a partir do grupo que consiste em: 1015, 1022, 1029, 1040, 1068, 1247, 1054, 1026, 768, 1067, 1248, 1052 e 1246 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a adenosina desaminase é inserida no C-terminal de um aminoácido selecionado a partir do grupo que consiste em: 1015, 1022, 1029, 1040, 1068, 1247, 1054, 1026, 768, 1067, 1248, 1052 e 1246 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a adenosina desaminase é inserida para substituir um aminoácido selecionado a partir do grupo que consiste em: 1015, 1022, 1029, 1040, 1068, 1247, 1054, 1026, 768, 1067, 1248, 1052 e 1246 conforme numerado em a sequência de referência Cas9 acima ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00736] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 768 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal do resíduo de aminoácido 768, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo de aminoácido 768, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o resíduo de aminoácido 768 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00737] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 791 ou é inserida no resíduo de aminoácido 792, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal do resíduo de aminoácido 791 ou é inserida no N-terminal do aminoácido 792, conforme numerado na sequência de referência Cas9 acima, ou um aminoácido correspondente resíduo de ácido em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C- terminal do aminoácido 791 ou é inserida no N-terminal do aminoácido 792, conforme numerado na sequência de referência Cas9 acima, ou um aminoácido correspondente resíduo em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o aminoácido 791 ou é inserida para substituir o aminoácido 792, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00738] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 1016 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal do resíduo de aminoácido 1016 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo de aminoácido 1016, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o resíduo de aminoácido 1016 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00739] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 1022 ou é inserida no resíduo de aminoácido 1023, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal do resíduo de aminoácido 1022 ou é inserida no N-terminal do resíduo de aminoácido 1023, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo de aminoácido 1022 ou é inserida no C-terminal do resíduo de aminoácido 1023, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o resíduo de aminoácido 1022, ou é inserida para substituir o resíduo de aminoácido 1023, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00740] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 1026 ou é inserida no resíduo de aminoácido 1029, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal do resíduo de aminoácido 1026 ou é inserida no N-terminal do resíduo de aminoácido 1029, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo de aminoácido 1026 ou é inserida no C-terminal do resíduo de aminoácido 1029, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o resíduo de aminoácido 1026 ou é inserida para substituir o resíduo de aminoácido 1029, conforme numerado na sequência de referência Cas9 acima, ou resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00741] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 1040 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal do resíduo de aminoácido 1040 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo de aminoácido 1040 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o resíduo de aminoácido 1040 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00742] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 1052, ou é inserida no resíduo de aminoácido 1054, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal do resíduo de aminoácido 1052 ou é inserida no N-terminal do resíduo de aminoácido 1054, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo de aminoácido 1052 ou é inserida no C-terminal do resíduo de aminoácido 1054, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o resíduo de aminoácido 1052, ou é inserida para substituir o resíduo de aminoácido 1054, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00743] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 1067, ou é inserida no resíduo de aminoácido 1068, ou é inserida no resíduo de aminoácido 1069, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal o f resíduo de aminoácido 1067 ou é inserido no N-terminal do resíduo de aminoácido 1068 ou é inserido no N-terminal do resíduo de aminoácido 1069, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro Cas9 polipeptídeo. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo de aminoácido 1067 ou é inserida no C-terminal do resíduo de aminoácido 1068 ou é inserida no C-terminal do resíduo de aminoácido 1069, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o resíduo de aminoácido 1067, ou é inserida para substituir o resíduo de aminoácido 1068, ou é inserida para substituir o resíduo de aminoácido 1069, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00744] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no resíduo de aminoácido 1246, ou é inserida no resíduo de aminoácido 1247, ou é inserida no resíduo de aminoácido 1248, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no N-terminal do resíduo de aminoácido 1246 ou é inserida no N-terminal do resíduo de aminoácido 1247 ou é inserida no N-terminal do resíduo de aminoácido 1248, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida no C-terminal do resíduo de aminoácido 1246 ou é inserida no C-terminal do resíduo de aminoácido 1247 ou é inserida no C-terminal do resíduo de aminoácido 1248, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) é inserida para substituir o resíduo de aminoácido 1246, ou é inserida para substituir o resíduo de aminoácido 1247, ou é inserida para substituir o resíduo de aminoácido 1248, conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00745] Em algumas modalidades, um polipeptídeo heterólogo (por exemplo, desaminase) é inserido em uma alça flexível de um polipeptídeo Cas9. As porções de alça flexível podem ser selecionadas a partir do grupo que consiste em 530-537, 569-570, 686-691, 943-947, 1002-1025, 1052-1077, 1232-1247 ou 1298-1300 conforme numerado no Cas9 acima sequência de referência ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. As porções de alça flexível podem ser selecionadas a partir do grupo que consiste em: 1-529, 538-568, 580-685, 692-942, 948-1001, 10261051, 1078-1231 ou 1248-1297 conforme numerado acima Sequência de referência Cas9 ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00746] Um polipeptídeo heterólogo (por exemplo, adenina desaminase) pode ser inserido em uma região polipeptídica Cas9 correspondente aos resíduos de aminoácidos: 1017-1069, 1242-1247, 1052-1056, 1060-1077, 1002-1003, 943-947, 530-537, 568-579, 686691,1242-1247, 1298-1300, 1066-1077, 1052-1056 ou 1060-1077 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00747] Um polipeptídeo heterólogo (por exemplo, adenina desaminase) pode ser inserido no lugar de uma região deletada de um polipeptídeo Cas9. A região deletada pode corresponder a uma porção N-terminal ou C-terminal do polipeptídeo Cas9. Em algumas modalidades, a região deletada corresponde aos resíduos 792-872 conforme numerados na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a região deletada corresponde aos resíduos 792-906 conforme numerados na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a região deletada corresponde aos resíduos 2-791 conforme numerados na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. Em algumas modalidades, a região deletada corresponde aos resíduos 1017-1069 conforme numerados na sequência de referência Cas9 acima, ou seus resíduos de aminoácidos correspondentes.
[00748] Editores de base de fusão interna exemplares são fornecidos na Tabela 14A abaixo e também são descritos em PCT/US20/16285.Tabela 14A: Loci de inserção em proteínas Cas9
[00749] Um polipeptídeo heterólogo (por exemplo, desaminase) pode ser inserido dentro de um domínio estrutural ou funcional de um polipeptídeo Cas9. Um polipeptídeo heterólogo (por exemplo, desaminase) pode ser inserido entre dois domínios estruturais ou funcionais de um polipeptídeo Cas9. Um polipeptídeo heterólogo (por exemplo, desaminase) pode ser inserido no lugar de um domínio estrutural ou funcional de um polipeptídeo Cas9, por exemplo, após a exclusão do domínio do polipeptídeo Cas9. Os domínios estruturais ou funcionais de um polipeptídeo Cas9 podem incluir, por exemplo, RuvC I, RuvC II, RuvC III, Rec1, Rec2, PI ou HNH.
[00750] Em algumas modalidades, o polipeptídeo Cas9 carece de um ou mais domínios selecionados do grupo que consiste em: domínio RuvC I, RuvC II, RuvC III, Rec1, Rec2, PI ou HNH. Em algumas modalidades, o polipeptídeo Cas9 carece de um domínio nuclease. Em algumas modalidades, o polipeptídeo Cas9 carece de um domínio HNH. Em algumas modalidades, o polipeptídeo Cas9 carece de uma porção do domínio HNH, de modo que o polipeptídeo Cas9 reduziu ou aboliu a atividade de HNH.
[00751] Em algumas modalidades, o polipeptídeo Cas9 compreende uma deleção do domínio nuclease e a desaminase é inserida para substituir o domínio nuclease. Em algumas modalidades, o domínio HNH é excluído e a desaminase é inserida em seu lugar. Em algumas modalidades, um ou mais dos domínios RuvC são excluídos e a desaminase é inserida em seu lugar.
[00752] Uma proteína de fusão compreendendo um polipeptídeo heterólogo pode ser flanqueada por um fragmento N-terminal e um C- terminal de um NAPDNAbp. Em algumas modalidades, a proteína de fusão compreende uma desaminase flanqueada por um fragmento N- terminal e um fragmento C-terminal de um polipeptídeo Cas9. O fragmento do N-terminal ou o fragmento do C-terminal podem ligar a sequência de polinucleotídeo alvo. O C-terminal do fragmento do N- terminal ou o N-terminal do fragmento do C-terminal pode compreender uma parte de uma alça flexível de um polipeptídeo Cas9. O C-terminal do fragmento do N-terminal ou o N-terminal do fragmento do C-terminal pode compreender uma parte de uma estrutura de hélice alfa do polipeptídeo Cas9. O fragmento N-terminal ou o fragmento C- terminal podem compreender um domínio de ligação de DNA. O fragmento N-terminal ou o fragmento C-terminal podem compreender um domínio RuvC. O fragmento N-terminal ou o fragmento C-terminal podem compreender um domínio HNH. Em algumas modalidades, nenhum do fragmento N-terminal e o fragmento C-terminal compreendem um domínio HNH.
[00753] Em algumas modalidades, o C-terminal do fragmento de Cas9 do N-terminal compreende um aminoácido que está próximo a uma nucleobase alvo quando a proteína de fusão desamina a nucleobase alvo. Em algumas modalidades, o N-terminal do fragmento de Cas9 do C-terminal compreende um aminoácido que está próximo a uma nucleobase alvo quando a proteína de fusão desamina a nucleobase alvo. O local de inserção de diferentes desaminases pode ser diferente a fim de ter proximidade entre a nucleobase alvo e um aminoácido no C-terminal do fragmento de Cas9 do N-terminal ou no N-terminal do fragmento de Cas9 do C-terminal. Por exemplo, a posição de inserção de um ABE pode ser em um resíduo de aminoácido selecionado a partir do grupo que consiste em: 1015, 1022, 1029, 1040, 1068, 1247, 1054, 1026, 768, 1067, 1248, 1052 e 1246 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00754] O fragmento de Cas9 N-terminal de uma proteína de fusão (isto é, o fragmento de Cas9 N-terminal flanqueando a desaminase em uma proteína de fusão) pode compreender o N-terminal de um polipeptídeo Cas9. O fragmento de Cas9 N-terminal de uma proteína de fusão pode compreender um comprimento de pelo menos cerca de: 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200 ou 1300 aminoácidos. O fragmento de Cas9 N-terminal de uma proteína de fusão pode compreender uma sequência correspondente aos resíduos de aminoácidos: 1-56, 1-95, 1-200, 1-300, 1-400, 1-500, 1600, 1- 700, 1-718, 1-765, 1-780, 1-906, 1-918 ou 1-1100 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. O fragmento de Cas9 N-terminal pode compreender uma sequência compreendendo pelo menos: 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96 %, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% de identidade de sequência com resíduos de aminoácidos: 1-56, 1-95, 1-200, 1-300, 1-400, 1-500, 1600, 1-700, 1-718, 1-765, 1-780, 1-906, 1-918 ou 1-1100 conforme numerado na sequência de referência Cas9 acima ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00755] O fragmento de Cas9 C-terminal de uma proteína de fusão (isto é, o fragmento de Cas9 C-terminal que flanqueia a desaminase em uma proteína de fusão) pode compreender o C-terminal de um polipeptídeo Cas9. O fragmento de Cas9 C-terminal de uma proteína de fusão pode compreender um comprimento de pelo menos cerca de: 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200 ou 1300 aminoácidos. O fragmento de Cas9 C-terminal de uma proteína de fusão pode compreender uma sequência correspondente aos resíduos de aminoácidos: 1099-1368, 918-1368, 906-1368, 780-1368, 765-1368, 718-1368, 94-1368 ou 56-1368 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9. O fragmento de Cas9 N- terminal pode compreender uma sequência compreendendo pelo menos: 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96 %, pelo menos 97%, pelo menos 98%, pelo menos 99% ou pelo menos 99,5% de identidade de sequência com resíduos de aminoácidos: 1099-1368, 918-1368, 906-1368, 780-1368, 765-1368, 718 -1368, 94-1368 ou 56-1368 conforme numerado na sequência de referência Cas9 acima, ou um resíduo de aminoácido correspondente em outro polipeptídeo Cas9.
[00756] O fragmento de Cas9 N-terminal e o fragmento de Cas9 C- terminal de uma proteína de fusão tomados em conjunto podem não corresponder a uma sequência de polipeptídeo Cas9 de comprimento completo natural, por exemplo, como estabelecido na sequência de referência Cas9 acima.
[00757] A proteína de fusão aqui descrita pode efetuar a desaminação direcionada com desaminação reduzida em sítios não alvo (por exemplo, locais fora do alvo), tal como desaminação espúria em todo o genoma reduzido. A proteína de fusão aqui descrita pode efetuar a desaminação direcionada com desaminação de bystander reduzida em sítios não alvo. A desaminação indesejada ou desaminação fora do alvo pode ser reduzida em pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95 %, ou pelo menos 99% em comparação com, por exemplo, uma proteína de fusão terminal compreendendo a desaminase fundida a um N-terminal ou um C-terminal de um polipeptídeo Cas9. A desaminação indesejada ou desaminação fora do alvo pode ser reduzida em pelo menos uma vez, pelo menos duas vezes, pelo menos três vezes, pelo menos quatro vezes, pelo menos cinco vezes, pelo menos dez vezes, pelo menos quinze vezes, pelo menos vinte vezes, pelo menos trinta vezes, pelo menos quarenta vezes, pelo menos cinquenta vezes, pelo menos 60 vezes, pelo menos 70 vezes, pelo menos 80 vezes, pelo menos 90 vezes ou pelo menos cem vezes, em comparação com, por exemplo, uma proteína de fusão do terminal final compreendendo a desaminase fundida a um N-terminal ou um C-terminal de um polipeptídeo Cas9.
[00758] Em algumas modalidades, a desaminase (por exemplo, adenosina desaminase) da proteína de fusão desamina não mais do que duas nucleobases dentro da faixa de uma alça R. Em algumas modalidades, a desaminase da proteína de fusão desamina não mais do que três nucleobases dentro da faixa da alça R. Em algumas modalidades, a desaminase da proteína de fusão desamina não mais do que 2, 3, 4, 5, 6, 7, 8, 9 ou 10 nucleobases dentro da faixa da alça R. Uma alça R é uma estrutura de ácido nucléico de três filamentos, incluindo um híbrido de DNA:RNA, um DNA:DNA ou uma estrutura complementar de RNA:RNA e a associada com o DNA de fita simples. Tal como aqui utilizado, uma alça R pode ser formada quando um polinucleotídeo alvo é contatado com um complexo CRISPR ou um complexo de edição de base, em que uma porção de um polinucleotídeo guia, por exemplo, um RNA guia, hibridiza e desloca com uma porção de um polinucleotídeo alvo, por exemplo, um DNA alvo. Em algumas modalidades, uma alça R compreende uma região hibridizada de uma sequência espaçadora e uma sequência complementar de DNA alvo. Uma região de alça R pode ser de cerca de 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, ou 50 pares de nucleobases de comprimento. Em algumas modalidades, a região de alça R tem cerca de 20 pares de nucleobases de comprimento. Deve ser entendido que, como aqui utilizado, uma região de alça R não está limitada à fita de DNA alvo que hibridiza com o polinucleotídeo guia. Por exemplo, a edição de uma nucleobase alvo dentro de uma região de alça R pode ser para uma fita de DNA que compreende a fita complementar a um RNA guia, ou pode ser para um fita de DNA que é a fita oposto da fita complementar ao RNA guia. Em algumas modalidades, a edição na região da alça R compreende a edição de uma nucleobase na fita não complementar (fita do protoespaçador) para um RNA guia em uma sequência de DNA alvo.
[00759] A proteína de fusão aqui descrita pode efetuar a desaminação do alvo em uma janela de edição diferente da edição de base canônica. Em algumas modalidades, uma nucleobase alvo é de cerca de 1 a cerca de 20 bases a montante de uma sequência PAM na sequência de polinucleotídeo alvo. Em algumas modalidades, uma nucleobase alvo é de cerca de 2 a cerca de 12 bases a montante de uma sequência PAM na sequência de polinucleotídeo alvo. Em algumas modalidades, uma nucleobase alvo tem cerca de 1 a 9 pares de bases, cerca de 2 a 10 pares de bases, cerca de 3 a 11 pares de bases, cerca de 4 a 12 pares de bases, cerca de 5 a 13 pares de bases, cerca de 6 a 14 pares de bases, cerca de 7 a 15 pares de bases, cerca de 8 a 16 b pares de base, cerca de 9 a 17 pares de bases, cerca de 10 a 18 pares de bases, cerca de 11 a 19 pares de bases, cerca de 12 a 20 pares de bases, cerca de 1 a 7 pares de bases, cerca de 2 a 8 pares de bases, cerca de 3 a 9 pares de bases pares, cerca de 4 a 10 pares de bases, cerca de 5 a 11 pares de bases, cerca de 6 a 12 pares de bases, cerca de 7 a 13 pares de bases, cerca de 8 a 14 pares de bases, cerca de 9 a 15 pares de bases, cerca de 10 a 16 pares de bases, cerca de 11 a 17 pares de bases, cerca de 12 a 18 pares de bases, cerca de 13 a 19 pares de bases, cerca de 14 a 20 pares de bases, cerca de 1 a 5 pares de bases, cerca de 2 a 6 pares de bases, cerca de 3 a 7 pares de bases, cerca de 4 a 8 pares de bases, cerca de 5 a 9 pares de bases, cerca de 6 a 10 pares de bases, cerca de 7 a 11 pares de bases, cerca de 8 a 12 pares de bases, cerca de 9 a 13 pares de bases, cerca de 10 a 14 pares de bases, cerca de 11 a 15 pares de bases, cerca de 12 a 16 pares de bases, cerca de 13 a 17 pares de bases, cerca de 14 a 18 pares de bases, cerca de 15 a 19 pares de bases, cerca de 16 a 20 pares de bases, cerca de 1 a 3 pares de bases, cerca de 2 a 4 pares de bases, cerca de 3 a 5 pares de bases, cerca de 4 a 6 pares de bases, cerca de 5 a 7 pares de bases, cerca de 6 a 8 pares de bases, cerca de 7 a 9 pares de bases, cerca de 8 a 10 pares de bases, cerca de 9 a 11 pares de bases, cerca de 10 a 12 pares de bases, cerca de 11 a 13 pares de bases, cerca de 12 a 14 pares de bases, cerca de 13 a 15 pares de bases, cerca de 14 a 16 pares de bases, cerca de 15 a 17 pares de bases, cerca de 16 a 18 pares de bases, cerca de 17 a 19 pares de bases, cerca de 18 a 20 pares de bases de distância ou a montante da sequência PAM. Em algumas modalidades, uma nucleobase alvo tem cerca de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou mais pares de bases longe ou a montante da sequência PAM. Em algumas modalidades, uma nucleobase alvo tem cerca de 1, 2, 3, 4, 5, 6, 7, 8 ou 9 pares de bases a montante da sequência PAM. Em algumas modalidades, uma nucleobase alvo tem cerca de 2, 3, 4 ou 6 pares de bases a montante da sequência PAM.
[00760] A proteína de fusão pode compreender mais de um polipeptídeo heterólogo. Por exemplo, a proteína de fusão pode compreender adicionalmente um ou mais domínios UGI e/ou um ou mais sinais de localização nuclear. Os dois ou mais domínios heterólogos podem ser inseridos em tandem. Os dois ou mais domínios heterólogos podem ser inseridos em localizações de modo que não estejam em tandem no napDNAbp.
[00761] Uma proteína de fusão pode compreender um ligante entre a desaminase e o polipeptídeo napDNAbp. O ligante pode ser um peptídeo ou um ligante não peptídico. Por exemplo, o ligante pode ser um XTEN, (GGGS)n, (GGGGS)n, (G)n, (EAAAK)n, (GGS)n, SGSETPGTSESATPES. Em algumas modalidades, a proteína de fusão compreende um ligante entre o fragmento de Cas9 N-terminal e a desaminase. Em algumas modalidades, a proteína de fusão compreende um ligante entre o fragmento de Cas9 C-terminal e a desaminase. Em algumas modalidades, os fragmentos N-terminal e C- terminal de napDNAbp são conectados à desaminase com um ligante. Em algumas modalidades, os fragmentos N-terminal e C-terminal são unidos ao domínio desaminase sem um ligante. Em algumas modalidades, a proteína de fusão compreende um ligante entre o fragmento de Cas9 do N-terminal e a desaminase, mas não compreende um ligante entre o fragmento de Cas9 do C-terminal e a desaminase. Em algumas modalidades, a proteína de fusão compreende um ligante entre o fragmento de Cas9 C-terminal e a desaminase, mas não compreende um ligante entre o fragmento de Cas9 N-terminal e a desaminase.
[00762] Em outras modalidades, os fragmentos N- ou C-terminais do polipeptídeo Cas12 compreendem um domínio de ligação de DNA programável de ácido nucleico ou um domínio RuvC. Em outras modalidades, a proteína de fusão contém um ligante entre o polipeptídeo Cas12 e o domínio catalítico. Em outras modalidades, a sequência de aminoácidos do ligante é GGSGGS ou GSSGSETPGTSESATPESSG. Em outras modalidades, o ligante é um ligante rígido. Em outras modalidades dos aspectos acima, o ligante é codificado por GGAGGCTCTGGAGGAAGC ou GGCTCTTCTGGATCTGAAACACCTGGCACAAGCGAGAGCGCCAC CCCTGAGAGCTCTGGC.
[00763] As proteínas de fusão compreendendo um domínio catalítico heterólogo flanqueado por fragmentos N- e C-terminais de um polipeptídeo Cas9 ou Cas12 também são úteis para edição de base nos métodos aqui descritos. As proteínas de fusão compreendendo Cas9 ou Cas12 e um ou mais domínios desaminase, por exemplo, adenosina desaminase, ou compreendendo um domínio adenosina desaminase flanqueado por sequências de Cas9 ou Cas12 também são úteis para edição de base altamente específica e eficiente de sequências alvo. Em uma modalidade, uma proteína de fusão Cas9 ou Cas12 quimérica contém um domínio catalítico heterólogo inserido dentro de um polipeptídeo Cas12.
[00764] Em várias modalidades, o domínio catalítico tem atividade modificadora de DNA (por exemplo, atividade de desaminase), como a atividade de adenosina desaminase. Em algumas modalidades, a adenosina desaminase é um TadA (por exemplo, TadA7.10). Em algumas modalidades, o TadA é um TadA*8. Em outras modalidades, a proteína de fusão contém um ou mais domínios catalíticos. Em outras modalidades, pelo menos um dos um ou mais domínios catalíticos é inserido dentro do polipeptídeo Cas12 ou é fundido no N- terminal ou C-terminal de Cas12. Em outras modalidades, pelo menos um dos um ou mais domínios catalíticos é inserido dentro de um loop, uma região de hélice alfa, uma porção não estruturada ou uma porção acessível a solvente do polipeptídeo Cas12. Em outras modalidades, o polipeptídeo Cas12 é Cas12a, Cas12b, Cas12c, Cas12d, Cas12e, Cas12g, Cas12h ou Cas12i. Em outras modalidades, o polipeptídeo Cas12 tem pelo menos cerca de 85% de identidade de sequência de aminoácidos com Cas12b de Bacillus hisashii, Cas12b de Bacillus thermoamylovorans, Cas12b de Bacillus sp. V3-13 ou Cas12b de Bacillus thermoamylovorans. Em outras modalidades, o polipeptídeo Cas12 tem pelo menos cerca de 90% de identidade de sequência de aminoácidos com Cas12b de Bacillus hisashii, Cas12b de Bacillus thermoamylovorans, Cas12b de Bacillus sp. V3-13 ou Cas12b de Bacillus thermoamylovorans. Em outras modalidades, o polipeptídeo Cas12 tem pelo menos cerca de 95% de identidade de sequência de aminoácidos com Cas12b de Bacillus hisashii, Cas12b de Bacillus thermoamylovorans, Cas12b de Bacillus sp. V3-13 ou Cas12b de Bacillus thermoamylovorans. Em outras modalidades, o polipeptídeo Cas12 contém ou consiste essencialmente em um fragmento de Cas12b de Bacillus hisashii, Cas12b de Bacillus thermoamylovorans, Cas12b de Bacillus sp. V3-13 ou Cas12b de Bacillus thermoamylovorans.
[00765] Em outras modalidades, o domínio catalítico é inserido entre as posições de aminoácidos 153-154, 255-256, 306-307, 980981, 1019-1020, 534-535, 604-605 ou 344-345 de BhCas12b ou um resíduo de aminoácido correspondente de Cas12a, Cas12c, Cas12d, Cas12e, Cas12g, Cas12h ou Cas12i. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos P153 e S154 de BhCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos K255 e E256 de BhCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos D980 e G981 de BhCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos K1019 e L1020 de BhCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos F534 e P535 de BhCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos K604 e G605 de BhCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos H344 e F345 de BhCas12b. Em outras modalidades, o domínio catalítico é inserido entre as posições de aminoácidos 147 e 148, 248 e 249, 299 e 300, 991 e 992, ou 1031 e 1032 de BvCas12b ou um resíduo de aminoácido correspondente de Cas12a, Cas12c, Cas12d, Cas12e, Cas12g, Cas12h ou Cas12i. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos P147 e D148 de BvCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos G248 e G249 de BvCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos P299 e E300 de BvCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos G991 e E992 de BvCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos K1031 e M1032 de BvCas12b. Em outras modalidades, o domínio catalítico é inserido entre as posições de aminoácidos 157 e 158, 258 e 259, 310 e 311, 1008 e 1009, ou 1044 e 1045 de AaCas12b ou um resíduo de aminoácido correspondente de Cas12a, Cas12c, Cas12d, Cas12e, Cas12g, Cas12h ou Cas12i. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos P157 e G158 de AaCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos V258 e G259 de AaCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos D310 e P311 de AaCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos G1008 e E1009 de AaCas12b. Em outras modalidades, o domínio catalítico é inserido entre os aminoácidos G1044 e K1045 em AaCas12b.
[00766] Em outras modalidades, a proteína de fusão contém um sinal de localização nuclear (por exemplo, um sinal de localização nuclear bipartido). Em outras modalidades, a sequência de aminoácidos do sinal de localização nuclear é MAPKKKRKVGIHGVPAA. Em outras modalidades dos aspectos acima, o sinal de localização nuclear é codificado pela seguinte sequência: ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCC AGCAGCC.
[00767] Em outras modalidades, o polipeptídeo Cas12b contém uma mutação que silencia a atividade catalítica de um domínio RuvC. Em outras modalidades, o polipeptídeo Cas12b contém mutações D574A, D829A e/ou D952A. Em outras modalidades, a proteína de fusão contém ainda um marcador (por exemplo, um marcador de hemaglutinina da gripe).
[00768] Em algumas modalidades, a proteína de fusão compreende um domínio napDNAbp (por exemplo, domínio derivado de Cas12) com um domínio de edição de nucleobase fundido internamente (por exemplo, todo ou uma porção de um domínio desaminase, por exemplo, um domínio de adenosina desaminase). Em algumas modalidades, o napDNAbp é um Cas12b. Em algumas modalidades, o editor de base compreende um domínio Cas12 (por exemplo, um domínio BhCas12b, um domínio BvCas12b ou um domínio AACas12b) com um domínio TadA*8 fundido internamente inserido nos locais fornecidos na Tabela 14B abaixo.Tabela 14B: Loci de inserção em proteínas Cas12b
[00769] A título de exemplo não limitativo, uma adenosina desaminase (por exemplo, ABE8.13) pode ser inserida em um BhCas12b para produzir uma proteína de fusão (por exemplo, ABE8.13-BhCas12b) que edita efetivamente uma sequência de ácido nucleico, como uma sequência de ácido nucleico compreendendo um polimorfismo de nucleotídeo único (SNP) associado à anemia falciforme (SCD). Em uma modalidade, a sequência de ácido nucleico codifica um polipeptídeo de HBB.
[00770] Proteínas de fusão exemplares, embora não limitativas, são descritas nos Pedidos Provisórios U.S. Nos. 62/852.228 e 62/852.224, cujos conteúdos são incorporados aqui por referência na sua totalidade.
[00771] A prática da presente invenção emprega, salvo indicação em contrário, técnicas convencionais de biologia molecular (incluindo técnicas recombinantes), microbiologia, biologia celular, bioquímica e imunologia, que estão bem dentro do alcance do versado na técnica. Tais técnicas são totalmente explicadas na literatura, tais como, "Molecular Cloning: A Laboratory Manual", second edition (Sambrook, 1989); "Oligonucleotide Synthesis" (Gait, 1984); "Animal Cell Culture" (Freshney, 1987); "Methods in Enzymology" "Handbook of Experimental Immunology" (Weir, 1996); "Gene Transfer Vectors for Mammalian Cells" (Miller e Calos, 1987); "Current Protocols in Molecular Biology" (Ausubel, 1987); "PCR: The Polymerase Chain Reaction", (Mullis, 1994); "Current Protocols in Immunology" (Coligan, 1991). Estas técnicas são aplicáveis à produção dos polinucleotídeos e polipeptídeos da invenção e, como tal, podem ser consideradas na preparação e prática da invenção. Técnicas particularmente úteis para modalidades particulares serão discutidas nas seções a seguir.
[00772] Os exemplos a seguir são apresentados de modo a fornecer aos versados na técnica uma divulgação e descrição completa de como fazer e usar o ensaio, triagem e métodos terapêuticos da invenção, e não se destinam a limitar o escopo daquilo que os inventores consideram sua invenção.
EXEMPLOS Exemplo 1: Editores de base de adenosina com maior eficiência de edição
[00773] Sistemas de edição de base que incluem proteínas de fusão Tad7.10-dCas9 são capazes de editar um polinucleotídeo alvo com eficiência de aproximadamente 10-20%, mas para usos que requerem maior eficiência seu uso pode ser limitado. Em um esforço para identificar editores de base de adenina com eficiência e especificidade aumentadas, os construtos que compreendem a adenosina desaminase TadA 7.10 foram mutagenizados por PCR propensa a erros e subsequentemente clonados em um vetor de expressão adjacente a uma sequência de ácido nucleico que codifica dCas9, uma proteína de ligação de DNA programável de ácido nucleico (FIG. 1A). Os vetores de expressão que compreendem as variantes de adenosina desaminase foram cotransformados em células bacterianas competentes com um plasmídeo de seleção que codifica resistência ao cloranfenicol (CamR) e resistência à espectinomicina (SpectR) e tendo um gene de resistência à canamicina que foi tornado não funcional por duas mutações pontuais (rodada 7 de estratégia de evolução) (FIG. 1B). As células foram selecionadas para restauração da resistência à canamicina, que foi uma leitura da atividade da adenosina desaminase. Em rodadas subsequentes de seleção, os vetores de expressão foram co- transformados em células competentes com um plasmídeo que codifica resistência ao cloranfenicol (CamR) e resistência à espectinomicina (SpectR) e tendo um gene de resistência à canamicina que foi tornado não funcional por três mutações pontuais (rodada 8 de estratégia de evolução) (FIG. 1C).
[00774] Uma sequência de ácido nucleico do gene de resistência à canamicina inativada é fornecida abaixo: ccggaattgccagctggggcgccctctggtaaggttgggaagccctgcaaagtaaactggatgg ctttcttgccgccaaggatctgatggcgcaggggatcaagatctgatcaagagacaggatgagg atcctttcgcATGATCGAATAAGATGGATTGCACGCAGGTTCTCCGGC CGCTTAGGTGGAGCGCCTATTCGGCTATGACTGGGCACAACAGA CAATCGGCTGCTCTGATGCCGCCGTGTTCCGGCTGTCAGCGCAG GGGCGCCCGGTTCTTTTTGTCAAGACCGACCTGTCCGGTGCCCT GAATGAACTGCAGGACGAGGCAGCGCGGCTATCGTGGCTGGCCA CGACGGGCGTTCCTTGCGCAGCTGTGCTCGACGTTGTCACTGAA GCGGGAAGGGACTGGCTGCTATTGGGCGAAGTGCCGGGGCAGG ATCTCCTGTCATCTCACCTTGCTCCTGCCGAGAAAGTATCCATCAT GGCTGATGCAATGCGGCGGCTGCATACGCTTGATCCGGCTACCT GCCCATTCGACCACCAAGCGAAACATCGCATCGAGCGAGCACGT ACTCGGATGGAAGCCGGTCTTGTCGATCAGGATGATCTGGACGAA GAGCATCAGGGGCTCGCGCCAGCCGAACTGTTCGCCAGGCTCAA GGCGCGCATGCCCGACGGCGAGGATCTCGTCGTGACCCATGGC GATGCCTGCTTGCCGAATATCATGGTGGAAAATGGCCGCTTTTCT GGA TTCATTAACTGTGGCCGGCTGGGTGTGGCGGACCGCTATCA GGACATAGCGTTGGCTACCCGTGATATTGCTGAAGAGCTTGGCG GCGAATGGGCTGACCGCTTCCTCGTGCTTTACGGTATCGCCGCTC CCGATTCGCAGCGCATCGCCTTCTATCGCCTTCTTGACGAGTTCT TCTAA
[00775] Na sequência acima, as letras minúsculas denotam a região do promotor de resistência à canamicina, a sequência em negrito indica a porção de inativação direcionada (Q4* e W15*), a sequência em itálico denota o sítio inativo direcionado do gene de resistência à canamicina (D208N) e as sequências sublinhadas denotam o Sequências PAM.
[00776] Novamente, as células foram semeadas em uma série de placas de agarose com concentração crescente de canamicina. Como mostrado na FIG. 2, as variantes da adenosina desaminase com atividade de edição de base eficiente foram capazes de corrigir as mutações presentes no gene de resistência à canamicina e foram selecionadas para análise posterior. Editores de base de variante de adenosina desaminase mostrando edição de base eficiente em células bacterianas são descritos na Tabela 14. Os vetores de expressão de mamífero que codificam editores de base compreendendo as variantes de adenosina desaminase selecionadas foram gerados.
[00777] Células Hek293T que expressam uma proteína β-globina associada à anemia falciforme que contém uma mutação E6V (também denominada E7V) foram usadas para testar a eficiência de edição das variantes de adenosina desaminase (FIGs. 3A e 3B). Estas células denominadas células "Hek293T/HBBE6V" foram transduzidas usando vetores lentivirais que expressam um sistema de edição de base que inclui uma proteína de fusão compreendendo os ABE8s listados na Tabela 15. Os ABE8s foram gerados pela clonagem de uma variante de adenosina desaminase em um arcabouço que incluía uma Cas9 permutante circular e uma sequência de localização nuclear bipartida. Cas9s permutantes circulares são conhecidos na técnica e descritos, por exemplo, em Oakes et al., Cell 176, 254-267, 2019. Essas sequências são fornecidas aqui abaixo.
[00778] A regulação positiva da hemoglobina fetal é uma abordagem terapêutica para superar a doença das células falciformes. FIG. 3A mostra um sítio terapeuticamente relevante para a regulação positiva da hemoglobina fetal. A edição de adenosinas nos resíduos 5 e 8 pode reduzir significativamente a ligação de BCL11A, aumentando assim a expressão da hemoglobina fetal. Com referência à FIG. 3A, os ABE8s exibiram aproximadamente 2 - 3 vezes mais atividade de edição de base do que o editor de base ABE7.10. Tabela 15: Editores da Nova Base de Adenina ABE8
[00779] Com referência à FIG. 4, os ABE8s foram introduzidos em células Hek293T/HBBE6V juntamente com RNAs guia de 18, 19, 20, 21 ou 22 nucleotídeos direcionados ao polinucleotídeo que codifica HBB E6V. Os editores ABE8 mostraram maior eficiência de edição quando fundidos ao permutante circular (Cp)-Cas9. No total, 40 construtos ABE8 diferentes (Tabela 16) e três construtos ABE7.10 foram testados quanto à atividade de edição em células Hek293T/HBBE6V. Segue-se a sequência de construtos exemplares. Para avaliar a especificidade da edição, as mutações alvo e não intencionais ou bystanders foram monitoradas (FIG. 5). A edição não intencional de uma adenosina no códon 5 foi silenciosa. No entanto, a edição não intencional do códon 9 resultou em uma mutação de serina para prolina. Referindo-se novamente à FIG. 5, múltiplos ABE8s mostraram maior eficiência e especificidade de edição em comparação com os editores ABE7.10, e nenhum dos editores teve edição significativa de bystander que levou à mutação missense de serina para prolina.
[00780] Uma análise adicional de ABE8s selecionados e um controle ABE7.10 foi realizada em células de fibroblastos contendo a mutação falciforme. Como mostrado na FIG. 6, os editores ABE8 aumentaram a atividade de edição de base em comparação com o ABE7.10. ABE8.18 mostrou eficiência de aproximadamente 70%. Os editores ABE8 selecionados também exibiram uma especificidade sem precedentes. É importante ressaltar que a formação média do INDEL para todos os editores ABE8 foi inferior a 0,1%.
Exemplo 2: Editores de Base de Adenina para o Tratamento de Doenças Hematológicas
[00781] A anemia falciforme (SCD) afeta aproximadamente 100.000 pacientes nos Estados Unidos. Os indivíduos portadores da mutação de SCD e das mutações que causam persistência da hemoglobina fetal (HPFH) geralmente não apresentam patologias falciformes devido aos níveis persistentes de hemoglobina fetal (HbF). Níveis mais altos de HbF se correlacionam com maior benefício para indivíduos com doenças do sangue, como redução dos sintomas da doença e melhora da saúde geral. Uma mutação de T para C na posição -198 no promotor HGB causa HPFH por interferência de ligação a proteínas repressoras de Y-globulina, como BCL11A.
[00782] Os construtos ABE8 foram avaliados em células-tronco hematopoiéticas humanas (HSC). A manipulação ex vivo e/ou edição de HSCs antes da administração a pacientes como terapia celular é uma abordagem promissora para o tratamento de distúrbios hematológicos. Foi demonstrado anteriormente que ABEs podem introduzir uma substituição de T para C na posição -198 da região promotora de HBG1/2 (Gaudelli, N. M. et al. Programmable base editing of A*T to G*C in genomic DNA without DNA cleavage. Nature 551, 464-471, doi:10.1038/nature24644 (2017)). Este alelo de ocorrência natural produz Persistência Hereditária de Hemoglobina Fetal (HPFH), resultando em níveis aumentados de Y-globina na idade adulta, o que pode mitigar os defeitos na β-globina vistos na anemia falciforme e β-talassemia (Wienert, B. et al. KLF1 drives the expression of fetal hemoglobin in British HPFH. Blood 130, 803-807, doi:10.1182/blood-2017-02-767400 (2017)). Com o objetivo de reproduzir o fenótipo HPFH e avaliar a relevância clínica de ABE8, células-tronco CD34+ hematopoiéticas foram isoladas de dois doadores e transfectadas com mRNA que codifica editores ABE8 e sgRNA modificado na extremidade, colocando o alvo A na posição 7 dentro do protoespaçador.
[00783] As eficiências médias de edição ABE8 no sítio alvo do promotor HBG1/2 -198 foram 2-3 vezes maiores do que qualquer construto ABE7.10 em pontos de tempo iniciais (48h), e 1,3-2 vezes maior do que ABE7.10 no momento posterior (144h) (FIG. 7B; FIGs. 8A e 8B, FIG. 9). FIG. 7A mostra esquematicamente o sítio alvo do promotor HBG1/2. FIG. 7C mostra que a edição ABE8 em células CD34+ produziu um aumento de aproximadamente 1,4 vez na formação de Y-globina em eritrócitos diferenciados (ABE8.13-d resultou em 55% de expressão de Y—globina/a—globina). Essas distinções cinéticas são clinicamente importantes para terapias ex vivo em que a cultura de células deve ser mantida em um mínimo antes da administração da terapia celular.
[00784] Em seguida, a quantidade de proteína Y—globina produzida após tratamento com ABE e diferenciação de eritrócitos foi quantificada por UPLC (FIGs. 10—30). Um aumento médio de 3,5 vezes na expressão de % de Y—globina/α—globina foi observado em eritrócitos derivados dos grupos de tratamento ABE8 quando comparados com células tratadas com simulação e um aumento de cerca de 1,4 vez foi observado quando ABE8.13—d foi comparado com níveis alcançados com ABE7,10—m/d (FIG. 7B).
[00785] As eficiências de edição e edição no alvo (por exemplo, na posição de nucleotídeo 9G na célula falciforme (HbS) alelo) por editores ABE8 é ainda demonstrada nas FIGs. 37, 40, 43A, 43B, 44A e 44B.
[00786] Prevê-se que >20% de HbF é necessário para melhorar os sintomas da anemia falciforme, e os pacientes com β—talassemia provavelmente necessitarão de níveis mínimos ainda mais elevados (vide, por exemplo, Canver, M. C. & Orkin, S. H. Customizing the genome as therapy for the beta-hemoglobinopathies. Blood 127, 25362545, doi:10.1182/blood-2016-01-678128 (2016); Fitzhugh, C. D. et al., Blood, 130, 1946-1948, doi:10.1182/blood-2017-03-772392 (2017)). Os níveis de Y-globina observados após o tratamento com ABE8 ultrapassaram este limite para o nível de HbF.
[00787] No geral, ABE8s recriou uma persistência hereditária de ocorrência natural do alelo da hemoglobina fetal (HPFH) no promotor dos genes da Y-globina HBG1 e HBG2, alcançando eficiências de edição de até 60% em culturas de células humanas CD34+ e uma suprarregulação correspondente da gama globina expressão em eritrócitos diferenciados. (FIGs. 34A. 34B. 35A-35C)
Exemplo 3: Abordagens de Edição de Base Complementar para o Tratamento de Anemia Falciforme e Beta talassemia (β-talasse- mia)
[00788] A anemia falciforme (SCD) e a beta talassemia são distúrbios da produção e função da beta globina que levam à anemia grave e complicações significativas da doença em uma grande variedade de sistemas orgânicos. O transplante autólogo de células- tronco hematopoiéticas construídas geneticamente por meio da suprarregulação da hemoglobina fetal (HbF) ou correção do gene da beta globina tem o potencial de reduzir a carga da doença em pacientes com beta hemoglobinopatias. A edição de base é uma tecnologia desenvolvida recentemente que permite a modificação precisa do genoma sem a introdução de quebras de DNA de fita dupla.
[00789] Os promotores do gene da gama globina foram examinados de forma abrangente com editores de base de citosina e adenina (ABE) para a identificação de alterações que desreprimissem HbF. Três regiões foram identificadas as quais aumentaram significativamente a HbF e as conversões de resíduos de nucleotídeos mais eficazes são apoiadas pela variação natural observada em pacientes com persistência hereditária de hemoglobina fetal (HPFH). ABEs foram desenvolvidos para aumentar significativamente o nível de HbF após a conversão de nucleotídeos em motivos regulatórios chave dentro dos promotores HBG1 e HBG2 (HBG1/2). Células-tronco hematopoéticas e progenitoras CD34+ (HSPC) foram purificadas em escala clínica e editadas usando um processo projetado para preservar a capacidade de autorrenovação. A edição em dois sítios independentes com ABEs diferentes atingiu 94 por cento e resultou em até 63 por cento de gama globina por UPLC (FIGs. 31A-31E). Os níveis de HbF observados devem oferecer proteção para a maioria dos pacientes com SCD e β-talassemia com base em observações clínicas de HPFH e terapia não intervencionista que relaciona dosagem de HbF mais alta com doença mais branda (Ngo et al., 2011 Brit J Hem, Vol. 156 (2): 259-264; Musallam et al., 2012 Blood). Consequentemente, na abordagem HPFH descrita aqui, a edição de base é usada para recriar mudanças de base única na região reguladora de ambos os genes da gama globina (HBG1 e HBG2) que interrompem a ligação do repressor e levam ao aumento da expressão da hemoglobina fetal (HbF). Pacientes com talassemia beta ou anemia falciforme que apresentam naturalmente essas variantes são frequentemente assintomáticos ou apresentam uma forma mais branda da doença. A edição da base seguida pela diferenciação eritroide in vitro de células CD34+ de doadores saudáveis e doadores com traço falciforme levou a níveis de HbF maiores que 60%, o que se espera ser clinicamente relevante.
Hb G-Makassar
[00790] Corrigir diretamente a mutação Glu6Val de SCD tem sido um objetivo recente das terapias genéticas projetadas para população SCD. A tecnologia de edição de base atual ainda não pode converter mutações como as que resultam da transversão A-T na beta globina falciforme; no entanto, as variantes de ABE foram projetadas para reconhecer e editar o resíduo de adenina de cadeia oposta da valina. Isso resulta na conversão de valina em alanina e na produção de uma variante natural conhecida como Hb G-Makassar. A beta globina com alanina nesta posição não contribui para a formação do polímero, e os pacientes com Hb G-Makassar são assintomáticos por apresentarem parâmetros hematológicos e morfologia eritrocitária normais.
[00791] Editores de base ABE, tais como os ABE8s aqui descritos (vide, por exemplo, Tabela 7, Tabela 14 e FIGs. 36A-36C; 37-39) foram usados para converter diretamente a mutação pontual causadora da anemia falciforme (E6V) em um assintomático, variante de ocorrência natural (E6A), também conhecida como Hb G-Makassar. Os indivíduos portadores da variante Hb G-Makassar não apresentam polimerização (falcização) e são assintomáticos. Fibroblastos de pacientes com SCD editados com essas variantes de ABE alcançam até 70 por cento de conversão da adenina alvo (FIG. 32A). As células CD34+ de doadores saudáveis foram então editadas com uma variante de ABE principal, visando a uma mutação sinônima em uma prolina adjacente que reside dentro da janela de edição e serve como um proxi para editar a mutação de SCD. A frequência média de edição foi de 40 por cento (FIG. 32B). Além disso, mais de 50% da edição de base na posição 9G foi alcançada 96 horas após a eletroporação. (FIG. 40. FIGs. 43A e 43B; e FIGs. 44A e 44B). O quimerismo mieloide do doador documentado nesses níveis no cenário de transplante alogênico excede os 20 por cento necessários para reverter o fenótipo falciforme (Fitzhugh et al, 2017 Blood).
[00792] Após a edição de base do sítio alvo de HbS com editores de base compreendendo variantes de adenosina desaminase, por exemplo, ABE8, como aqui descrito usando células (CD34+) de uma amostra de paciente com SCD (amostras de HbSS homozigotas ou heterozigotas) e análise da amostra editada por UHPLC, picos distintos delinearam a globina variante Hb-G-Makassar da variante globina HbS (FIGs. 41A, 45, 46A e 47), que resultou da conversão direta da mutação pontual causadora da anemia falciforme (E6V) em uma forma assintomática, naturalmente variante de ocorrência (E6A) nas células. Com base nos pesos moleculares em uma amostra heterozigótica editada, as diferentes variantes da beta globina (Hb) que corresponderam à substituição Val ^ Ala foram distinguidas por UHPLC. A análise LC-MS do pico de edição também mostrou a presença de variantes de beta globina distintas. (FIGs. 41B, 46B e 47B). As análises de UHPLC e LC-MS detectaram a edição da mutação pontual de célula falciforme HbS mutante (E6V) para a variante assintomática de Hb G-Makassar (E6A), demonstrando assim a edição bem-sucedida de uma variante falciforme patogênica (HbS) para a variante de Hb G-Makassar assintomática, não patogênica.
[00793] Para estudos de edição de HPFH, uma sequência de gRNA adequada a 3^ é representada pela seguinte sequência: mCsmUsmUsGACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUA GCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAAGUG GCACCGAGUCGGUGCUsmUsmUsmU
[00794] Na sequência acima, as modificações são as seguintes: "mC" é 2'-O-metilcitidina; "MU" é 2'-O-metiluradina; e "s" indica a posição de um fosforotioato. Será apreciado que o código para modificações não é padrão. Consequentemente, códigos separados são tipicamente usados para as sequências guia de Makassar e HPFH sgRNA. Alternativamente, a sequência HPFH com a mesma nomenclatura da sequência de Makassar é a seguinte: csususGACCAAUAGCCUUGACAGUUUUAGAGCUAGAAAUAGCAA GUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACC GAGUCGGUGCUsususu
[00795] A sequência alvo, incluindo as bases editadas 5 e 8 (em negrito) e PAM:
Exemplo 4: Redução de HbS e regulação positiva de HbF em células CD34+ de SCD
[00796] Células CD34+ de um paciente com SCD foram transfectadas com mRNA e sgRNA de ABE8.8 (HBG1/2, 50 nM) usando eletroporação. As células editadas foram diferenciadas em células eritroides in vitro. A taxa de edição nos promotores HBG1/2 foi medida por Sequenciamento de Genoma de Próxima Geração (NGS). A edição de 16,5% pelo editor base ABE8.8 foi observada 48 horas após a diferenciação, e a edição de 89,2% foi medida no dia 14 após a diferenciação (FIG. 34A). O detalhamento da edição de bystander em 48 horas e no dia 14 pós-diferenciação também é mostrado (FIG. 34B).
[00797] A leitura funcional de regulação positiva de HbF e regulação negativa de HbS em células CD34+ de SCD submetidas a edição é mostrada nas FIGS. 35A-35D. As células CD34+ de SCD editadas foram diferenciadas em células eritroides e os níveis de globina foram analisados no dia 18 após a diferenciação. Os níveis de globina em células eritroides diferenciadas de células CD34+ de SCD não editadas foram avaliados por UHPLC. FIG. 35B mostra os níveis de globina em células eritroides diferenciadas de células CD34+ de SCD editadas. 63,2% do nível de Y globina foram detectados em células eritroides diferenciadas de células CD34+ de SCD editadas versus células não editadas (FIG. 35C). A S globina foi reduzida de 86% para 32,9%, diferenciada de células CD34+ de SCD editadas versus células não editadas (FIG. 35D). A regulação positiva da hemoglobina fetal é uma abordagem vantajosa para o tratamento da SCD e também da beta-talassemia.
Exemplo 5: Materiais e Métodos Métodos Gerais:
[00798] Toda a clonagem foi conduzida através de métodos de clonagem da enzima USER (New England Biolabs) (vide Geu-Flores et al., USER fusion: a rapid and efficient method for simultaneous fusion and cloning of multiple PCR products. Nucleic Acids Res 35, e55, doi:10.1093/nar/gkm106 (2007)) e os modelos para amplificação por PCR foram adquiridos como fragmentos de genes otimizados para códons de bactérias ou mamíferos (GeneArt). Os vetores criados foram transformados em células competentes do Mach T1R (ThermoFisher Scientific) e mantidos a -80 °C para armazenamento de longo prazo. Todos os iniciadores usados neste trabalho foram adquiridos da Integrated DNA Technologies e PCRS foram realizadas usando Phusion U DNA Polymerase Green MultiPlex PCR Master Mix (ThermoFisher) ou Q5 Hot Start High-Fidelity 2x Master Mix (New England Biolabs). Todos os plasmídeos usados neste trabalho foram recém-preparados a partir de 50 mL de cultura Mach1 usando ZymoPURE Plasmid Midiprep (Zymo Research Corporation) que envolve um procedimento de remoção de endotoxina. O grau de biologia molecular, água Hyclone (GE Healthcare Life Sciences) foi usado em todos os ensaios, transfecções e reações de PCR para garantir a exclusão da atividade DNAse.
[00799] Sequências de aminoácidos de sgRNAs usadas para a transfecção de células de mamífero Hek293T são fornecidas na Tabela 17 abaixo. O protoespaçador alvo de 20 nt é mostrado em negrito. Quando uma sequência de DNA alvo não começou com um 'G', um 'G' foi adicionado à extremidade 5’ do iniciador, uma vez que foi estabelecido que o promotor U6 humano prefere um 'G' no sítio de início da transcrição (vide Cong, L. et al., Multiplex genome engineering using CRISPR/Cas systems. Science 339, 819-823, doi: 10.1126/science. 1231143 (2013)). O plasmídeo pFYF sgRNA descrito anteriormente foi usado como um molde para a amplificação por PCR. Tabela 17: Sequências de sgRNAs usadas para transfecção de células de mamífero Hek293T.
[00800] Sequência de arcabouço de sgRNA são como seguem: S. pyogenes: GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUU AUCAACUUGAAAAAGUGGCACCGAGUCGGUGC S. aureus: GUUUUAGUACUCUGUAAUGAAAAUUACAGAAUCUACUAAAACAA GGCAAAAUGCCGUGUUUAUCUCGUCAACUUGUUGGCGAGA Geração de bibliotecas bacterianas de entrada TadA*para evolução direcionada
[00801] A biblioteca TadA*8.0 foi projetada para codificar todos os 20 aminoácidos em cada posição de aminoácido na estrutura de leitura aberta TadA*7.10 (Gaudelli, N. M. et al., Programmable base editing of A*T to G*C in genomic DNA without DNA cleavage. Nature 551, 464-471, doi:10.1038/nature24644 (2017)). Cada membro da biblioteca TadA*8.0 continha cerca de 1-2 novas mutações de codificação e foi sintetizado quimicamente e adquirido na Ranomics Inc (Toronto, Canadá). A biblioteca TadA*8.0 foi amplificada por PCR com Phusion U Green MultiPlex PCR Master Mix e montada pelo USUÁRIO em um vetor bacteriano otimizado para evolução direcionada por ABE (Gaudelli, N. M. et al., Programmable base editing of A*T to G*C in genomic DNA without DNA cleavage. Nature 551, 464-471, doi:10.1038/ nature24644 (2017).
Evolução bacteriana de variantes de TadA
[00802] A evolução direcionada de ABE contendo a biblioteca TadA*8 foi conduzida conforme descrito anteriormente (Gaudelli, N. M. et al., Programmable base editing of A*T to G*C in genomic DNA without DNA cleavage. Nature 551, 464-471, doi:10.1038/nature24644 (2017)) com as seguintes alterações: i) 10 betas de E. coli (New England Biolabs) foram usados como o hospedeiro de evolução; e ii) a sobrevivência com canamicina dependia da correção de três componentes de inativação genética (por exemplo, a sobrevivência exigia a reversão de duas mutações de parada e uma mutação de sítio ativo na canamicina). A sequência do gene de resistência à canamicina contém mutações de seleção para a evolução de ABE8. Após a cocultura durante a noite do plasmídeo de seleção e editor em 10 células hospedeiras beta, as culturas da biblioteca foram semeadas em meio de ágar 2xYT suplementado com antibiótico de manutenção de plasmídeo e concentrações crescentes de antibiótico de seleção, canamicina (64-512 μg/mL). As bactérias foram deixadas crescer por 1 dia e a porção TadA*8 dos clones sobreviventes foi sequenciada por Sanger após o enriquecimento. As mutações TadA*8 identificadas de interesse foram então incorporadas no vetor de expressão de mamífero por meio de montagem de USUÁRIO.
Condições gerais de cultura de mamíferos HEK293T e RPMI-8226
[00803] Células foram cultivadas a 37 °C com 5% de CO2. Células HEK293T [CLBTx013, American Type Cell Culture Collection (ATCC)] foram cultivadas em meio Eagles modificado de Dulbecco mais Glutamax (10566-016, Thermo Fisher Scientific) com 10% (v/v) de soro fetal bovino (A31606-02, Thermo Fisher Científico). As células RPMI-8226 (CCL-155, ATCC) foram cultivadas em meio RPMI-1640 (Gibco) com 10% (v/v) de soro fetal bovino (Gibco). As células foram testadas negativas para micoplasma após o recebimento do fornecedor.
Transfecção de plasmídeo Hek293T e extração de gDNA
[00804] Células HEK293T foram semeadas em placas BioCoat tratadas com Poli-D-lisina de 48 poços (Corning) a uma densidade de 35.000 células/poço e transfectadas 18-24 horas após o plaqueamento. As células foram contadas usando um NucleoCounter NC-200 (Chemometec). A essas células foram adicionados 750 ng de editor de base ou controle de nuclease, 250 ng de sgRNA e 10 ng de plasmídeo GFP-max (Lonza) diluído para 12,5 μL de volume total em meio de soro reduzido Opti-MEM (ThermoFisher Scientific). A solução foi combinada com 1,5 μL de Lipofectamina 2000 (ThermoFisher) em 11 μL de meio de soro reduzido Opti-MEM e deixada em repouso em temperatura ambiente por 15 min. Toda a mistura de 25 μL foi então transferida para as células Hek293T pré-semeadas e deixada para incubar por cerca de 120 h. Após a incubação, o meio foi aspirado e as células foram lavadas duas vezes com 250 μL de solução PBS 1x (ThermoFisher Scientific) e 100 μL de tampão de lise recém-preparado foram adicionados (100 mM de Tris-HCl, pH 7,0, SDS 0,05%, 25 μg/mL Proteinase K (Thermo Fisher Scientific). Placas de transfecção contendo tampão de lise foram incubadas a 37 °C por 1 hora e a mistura foi transferida para uma placa de PCR de 96 poços e aquecida a 80 °C por 30 min.
Análise de edição fora do alvo de DNA e RNA para arquitetura ABE e construtos ABE8
[00805] Células HEK293T foram semeadas em placas revestidas com poli-D-lisina de 48 poços (Corning) 16 a 20 horas antes da lipofecção a uma densidade de 30.000 células por poço em meio DMEM + Glutamax (Thermo Fisher Scientific) sem antibióticos. 750 ng de nickase ou DNA de plasmídeo de expressão de editor de base foram combinados com 250 ng de DNA de plasmídeo de expressão de sgRNA em 15 μl de OPTIMEM + Glutamax. Isso foi combinado com 10 μl de mistura de lipídios, compreendendo 1,5 μl de Lipofectamina 2000 e 8,5 μl de OPTIMEM + Glutamax por poço. As células foram colhidas 3 dias após a transfecção e DNA ou RNA foram colhidos. Para análise de DNA, as células foram lavadas uma vez em 1X PBS e, em seguida, lisadas em 100 μl de tampão QuickExtract™ (Lucigen) de acordo com as instruções do fabricante. Para a coleta de RNA, o Kit de isolamento total de RNA MagMAX™ mirVana™ (Thermo Fisher Scientific) foi usado com o Sistema de Purificação Flex de KingFisher™ de acordo com as instruções do fabricante.
[00806] Sequenciamento de RNA direcionado foi realizado amplamente conforme descrito anteriormente (vide Rees, H. A. et al., Analysis and minimization of cell RNA Edit by DNA adenine base editors. Sci Adv 5, eaax5717, doi: 10.1126/sciadv.aax5717 (2019)). cDNA foi preparado a partir do RNA isolado usando o Sistema RT-PCR Uma-Etapa SuperScript IV com EZDnase (Thermo Fisher Scientific) de acordo com as instruções do fabricante. O seguinte programa foi usado: 58 °C por 12 min; 98 °C por 2 min; seguido por ciclos de PCR que variaram por amplicon: para CTNNB1 e IP90: 32 ciclos de [98 °C por 10 s; 60°C por 10 s; 72 °C por 30 s] e para RSL1D1 35 ciclos de [98 °C por 10 s; 58 °C por 10 s; 72°C por 30 s]. Nenhum controle de RT foi executado simultaneamente com as amostras. Após RT-PCR combinada, os amplicons foram codificados em barras e sequenciados usando uma Illumina Miseq como descrito acima. O primeiro 125nt em cada amplicon, começando na primeira base após o final do iniciador direto em cada amplicon, foi alinhado com uma sequência de referência e usado para frequências médias e máximas de A a I em cada amplicon (FIGs. 33A e 33B)
[00807] Sequenciamento de DNA fora do alvo foi realizado usando iniciadores publicados anteriormente (vide Komor, A. C. et al., Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage. Nature 533, 420-424, doi:10.1038/ nature17946 (2016); Rees, H. A. et al., Analysis and minimization of cellular RNA editing by DNA adenine base editors. Sci Adv 5, eaax5717, doi:10.1126/sciadv.aax5717 (2019)) listado na Tabela 18 abaixo usando uma PCR de duas etapas e método de código de barras para preparar amostras para sequenciamento usando sequenciadores Illumina Miseq como acima.
Produção de mRNA para editores ABE usados em células CD34+
[00808] Todo o mRNA do editor de base de adenina foi gerado usando o seguinte protocolo de síntese. Os editores foram clonados em um plasmídeo que codifica um promotor dT7 seguido por um 5'UTR, sequência Kozak, ORF e 3’UTR. O promotor dT7 carrega uma mutação de ponto de inativação dentro do promotor T7 que impede a transcrição do plasmídeo circular. Este plasmídeo modelou uma reação de PCR (Q5 Hot Start 2X Master Mix), em que o iniciador direto corrigiu o SNP dentro do promotor T7 e o iniciador reverso anexou uma cauda poliA a 3’UTR. O produto de PCR resultante foi purificado em uma coluna DCC de 25 μg Zymo Research e usado como molde de mRNA na transcrição in vitro subsequente. O Kit de Alto Rendimento NEB HiScribe foi usado de acordo com o manual de instruções, mas com a substituição total de N1-metil-pseudouridina por uridina e cobertura cotranscricional com CleanCap AG (Trilink). A limpeza da reação foi realizada por precipitação de cloreto de lítio. Os iniciadores usados para amplificação podem ser encontrados na Tabela 18.
[00809] O mRNA de Cas9 usado aqui foi adquirido da Trilink (CleanCap Cas9 mRNA 5moU) e o mRNA de CBE usado em todo o experimento de sequenciamento do genoma foi gerado internamente. Tabela 19: Iniciadores usados para reações de transcrição in vitro de ABE8 T7
Preparação de células CD34+
[00810] O sangue periférico mobilizado foi obtido e enriquecido para HSPCs CD34+ humanos e congelado em alíquotas de uso único (HemaCare, M001F-GCSF/MOZ-2). As células CD34+ foram descongeladas e colocadas em X-VIVO 10 (Lonza) contendo 1% de Glutamax (Gibco), 100ng/mL de TPO (Peprotech), SCF (Peprotech) e Flt-3 (Peprotech) e cultivadas por 48 horas antes de eletroporação.
Eletroporação de células CD34+
[00811] 48 horas após o descongelamento, as células foram centrifugadas para remover o meio X-VIVO 10 e lavadas em tampão MaxCyte (HyClone) com HSA a 0,1% (Akron Biotechnologies). As células foram então ressuspensas em tampão MaxCyte frio a 1.250.000 células por mL e divididas em múltiplas alíquotas de 20 μL. O mRNA de ABE (0,15 μM) e sgRNA -198 HBG1/2 (4,05 μM) foram então aliquotados de acordo com as condições experimentais e aumentados para um total de 5 μL em tampão MaxCyte. 20 μL de células foram adicionados à mistura de 5 μL de RNA em grupos de 3 e carregados em cada câmara de uma cuvete OC25x3 MaxCyte para eletroporação. Depois de receber a carga, 25 μL foram coletados das câmaras e colocados no centro dos poços em uma placa de cultura de tecidos não tratada com 24 poços. As células se recuperaram por 20 minutos em uma incubadora (37 °C, 5% de CO2). Após a recuperação de 20 minutos, meio X-VIVO 10 contendo Glutamax a 1%, 100ng/mL de TPO, SCF e Flt-3 foi adicionado às células para uma concentração de 1.000.000 células por mL. As células foram então deixadas para se recuperar em uma incubadora (37 °C, 5% de CO2) por 48 horas.
Diferenciação de eritrócitos após eletroporação ABE
[00812] Após 48 h após o repouso da eletroporação (dia 0 da cultura), as células foram centrifugadas e movidas para meio de "Fase 1" IMDM (ATCC) contendo 5% de soro humano, 330 μg/mL de transferrina (Sigma), 10 μg/mL de insulina humana (Sigma), 2U/mL de heparina de sódio (Sigma), 3U/mL de EPO (Peprotech), 100 ng/mL de SCF (Peprotech), 5 μg/mL de IL3 e 50 μM de hidrocortisona (Sigma) a 20.000 células por mL. No dia 4 de cultura, as células foram alimentadas com 4x o volume do mesmo meio. No dia 7, as células foram centrifugadas e movidas para meio IMDM de "Fase 2" contendo 5% de soro humano (Sigma), 330μg/mL de transferrina, 10μg/mL de insulina humana, 2U/mL de heparina sódica, 3U/mL de EPO e 100ng/mL SCF a 200.000 células por mL. No dia 11, as células foram centrifugadas e movidas para meio IMDM de "Fase 3" contendo 5% de soro humano, 330 μg/mL de transferrina, 10 μg/mL de insulina humana, 2U/mL de heparina sódica e 3U/mL de EPO a 1.000.000 células por mL. No dia 14, as células foram centrifugadas e ressuspensas no mesmo meio usado no dia 11, mas a 5.000.000 de células por mL. No dia 18, os glóbulos vermelhos diferenciados foram coletados em 500.000 alíquotas de células, lavados uma vez em 500 μL de DPBS (Gibco) e congelados a -80 °C por 24 horas antes do processamento UHPLC.
Preparação de amostra de glóbulos vermelhos para análise UHPLC
[00813] Péletes de glóbulos vermelhos congelados foram descongelados à temperatura ambiente. Os péletes foram diluídos a uma concentração final de 5 x 104 células^L com tampão de lise ACK. As amostras foram misturadas por pipeta e incubadas em temperatura ambiente por 5 min. As amostras foram então congeladas a -80°C por 5 min, descongeladas e misturadas por pipeta antes da centrifugação a 6.700g por 10 min. O sobrenadante foi cuidadosamente removido (sem perturbar o pélete de detritos celulares), transferido para uma nova placa na qual uma diluição de 10 vezes em água ultrapura foi feita para análise UHPLC.
Análise de cromatografia líquida de ultra-alto desempenho (UHPLC)
[00814] A separação em fase reversa das cadeias de globina foi realizada usando um sistema UHPLC configurado com uma bomba binária e detector de UV (Thermo Fisher Scientific, Vanquish Horizon). A pré-coluna Waters AQUITY Peptide BEH C18 VanGuard (2,1 x 5 mm, esferas de 1,7 μm, 300 Â de tamanho de poro) seguida pela coluna ACQUITY Peptide BEH C18 (2,1 x 150 mm, esferas de 1,7 μm, 300 Â de tamanho de poro) (Waters Corp) foram usadas para a separação com uma temperatura de coluna de 60 °C. A eluição foi realizada usando ácido trifluoroacético a 0,1% (TFA) em água (A) e TFA a 0,08% em acetonitrila (B) com uma taxa de fluxo de 0,25 mL/min. A separação das cadeias de globina foi conseguida usando um gradiente linear de 40-52% B 0-10 min; 52-40% B 10-10,5 min; e 40% B a 12 min. O volume de injeção de amostra foi de 10 μL. Os espectros de UV em um comprimento de onda de 220 nm com uma taxa de dados de 5 Hz foram coletados ao longo da análise. As identidades da cadeia de globina foram confirmadas por meio de análise LC/MS dos padrões de hemoglobina.
Extração de DNA genômico para células CD34+
[00815] Após a eletroporação de ABE (por exemplo, 48h depois), uma alíquota de células foi cultivada em meio X-VIVO 10 (Lonza) contendo Glutamax a 1% (Gibco), 100ng/mL de TPO (Peprotech), SCF (Peprotech) e Flt-3 (Peprotech). Após 48 h e 144 h após a cultura, 100.000 células foram coletadas e centrifugadas. 50 μL de Quick Extract (Lucigen) foram adicionados ao pélete celular e a mistura de células foi transferida para uma placa de PCR de 96 poços (Bio-Rad). O lisado foi aquecido durante 15 minutos a 65 °C, seguido de 10 minutos a 98 °C. Os lisados celulares foram armazenados a -20 °C.
Outras modalidades
[00816] A partir da descrição anterior, será evidente que variações e modificações podem ser feitas à invenção aqui descrita para adotá-la em vários usos e condições. Tais modalidades também estão dentro do escopo das seguintes reivindicações.
[00817] A recitação de uma lista de elementos em qualquer definição de uma variável neste documento inclui definições dessa variável como qualquer elemento único ou combinação (ou subcombinação) de elementos listados. A recitação de uma modalidade aqui inclui essa modalidade como qualquer modalidade única ou em combinação com quaisquer outras modalidades ou porções das mesmas.
[00818] Todas as publicações, patentes e pedidos de patentes mencionados nesta especificação são incorporados aqui por referência na mesma extensão como se cada publicação, patente ou pedido de patente individual fossem específica e individualmente indicados para ser incorporados por referência. Na ausência de qualquer indicação em contrário, as publicações, patentes e pedidos de patentes mencionados nesta especificação são incorporados neste documento por referência em sua totalidade.

Claims (21)

1. Método para editar um polinucleotídeo beta globina (HBB) associado à anemia falciforme, o método caracterizado por compreender o contato de uma célula compreendendo um polimorfismo de nucleotídeo único (SNP) no polinucleotídeo beta globina (HBB) com um RNA guia e uma proteína de fusão compreendendo um domínio de ligação de DNA programável de polinucleotídeo e um domínio de adenosina deaminase compreendendo: a) a seguinte sequência de aminoácidos TadA*7.10 compreendendo ainda uma alteração em uma serina (S) na posição de aminoácido 82 e até cinco alterações totais de aminoácidos em comparação com a sequência de aminoácidos TadA*7.10: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLM DVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD (SEQ ID NO: 2), ou b) a sequência de aminoácidos TadA*7.10 com uma serina (S) na posição de aminoácido 82 e compreendendo ainda uma alteração em uma ou mais das seguintes posições de aminoácidos 76, 123, 147, 154 e 166; em que o referido RNA guia tem como alvo o referido domínio de ligação de DNA programável de polinucleotídeo ao SNP no polinucleotídeo beta globina (HBB).
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o domínio de adenosina desaminase compreende ainda uma alteração na posição de aminoácido 166.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a alteração na posição do aminoácido 166 é T166R.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o domínio de adenosina desaminase compreende ainda uma ou mais das seguintes alterações: Y147T, Y147R, Q154S, Y123H e Q154R.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o domínio de adenosina desaminase compreende uma combinação de alterações selecionadas dentre o grupo que consiste em: Y147T e Q154R; Y147T e Q154S; Y147R e Q154S; V82S e Q154S; V82S e Y147R; V82S e Q154R; V82S e Y123H; I76Y e V82S; V82S, Y123H e Y147T; V82S, Y123H e Y147R; V82S, Y123H e Q154R; Y147R, Q154R e Y123H; Y147R, Q154R e I76Y; Y147R, Q154R e T166R; Y123H, Y147R, Q154R e I76Y; V82S, Y123H, Y147R e Q154R; e I76Y, V82S, Y123H, Y147R e Q154R.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o domínio de adenosina desaminase compreende V82S e T166R.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a proteína de fusão compreende um heterodímero compreendendo o domínio de adenosina desaminase como definido na reivindicação 1, e um domínio de adenosina desaminase tipo selvagem.
8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o domínio de adenosina desaminase compreende Y147T e Q154S.
9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que uma alteração de A»T para G»C no SNP resulta na expressão de um polipeptídeo HBB possuindo uma alanina na posição de aminoácido 6.
10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o domínio de ligação de DNA programável compreende um domínio Cas9.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que o domínio Cas9 compreende uma Cas9 morta (dCas9) ou uma nickase Cas9 (nCas9).
12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o domínio Cas9 é uma Cas9 de Streptococcus pyogenes (SpCas9), uma Cas9 de Staphylococcus aureus (SaCas9) ou uma Cas9 de Streptococcus thermophilus 1 (St1Cas9).
13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o domínio Cas9 compreende a seguinte sequência de aminoácidos: MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEE DKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHF LIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQY ADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPE KYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRT FDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFA WMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYN ELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEIS GVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYA HLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHD DSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPEN IVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQ NGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVV KKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQIL DSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVG TALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLA NGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILP KRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMER SSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPS KYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDK VLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLI HQSITGLYETRIDLSQLGGD (SEQ ID NO: 1).
14. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a proteína de fusão é selecionada dentre ABE8.14-m, ABE8.15-m, ABE8.16-m, ABE8.17- m, ABE8.18-m, ABE8.19-m, ABE8.20-m, ABE8.22-m, ABE8.23-m, ABE8.24-m, ABE8.14-d, ABE8.15-d, ABE8.16-d, ABE8.17-d, ABE8.18-d, ABE8.19-d, ABE8.20- d, ABE8.22-d, ABE8.23-d ou ABE8.24-d.
15. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o domínio de adenosina desaminase compreende um TadA8 truncado compreendendo uma deleção de 1, 2, 3, 4, 5, 6, 7 ou 8 resíduos de aminoácidos N-terminal ou C-terminal em relação ao TadA8 de comprimento total.
16. Sistema de edição de base caracterizada pelo fato de que compreende uma proteína de fusão como definida na reivindicação1, e um RNA guia compreendendo uma sequência de ácido nucleico selecionada do grupo que consiste em CUUCUCCACAGGAGUCAGAU (SEQ ID NO: 4); ACUUCUCCACAGGAGUCAGAU (SEQ ID NO: 5) e GACUUCUCCACAGGAGUCAGAU (SEQ ID NO: 6).
17. Método para editar um polinucleotídeo beta globina (HBB) associado à anemia falciforme caracterizado pelo fato de que compreende o contato de uma célula compreendendo um polimorfismo de nucleotídeo único (SNP) no polinucleotídeo beta globina (HBB) com um RNA guia e uma proteína de fusão compreendendo um domínio de ligação de DNA programável de polinucleotídeo compreendendo a seguinte sequência de aminoácidos: EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLV VAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHK HYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPR AFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSG GSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALL FDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDK KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLI EGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQL PGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYAD LFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKY KEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFD NGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWM TRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNEL TKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGV EDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHL FDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDS LTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIV IEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNG RDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKK MKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDS RMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTA LIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV (SEQ ID NO: 3), e em um domínio de adenosina deaminase compreendendo: a) a seguinte sequência de aminoácidos TadA*7.10 compreendendo ainda uma alteração em uma serina (S) na posição de aminoácido 82 e até cinco alterações totais de aminoácidos em comparação com a sequência de aminoácidos TadA*7.10: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLM DVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD (SEQ ID NO: 2), ou b) a sequência de aminoácidos TadA*7.10 com uma serina (S) na posição de aminoácido 82 e compreendendo ainda uma alteração em uma ou mais das seguintes posições de aminoácidos 76, 123, 147, 154 e 166.
18. Método para produção de um glóbulo vermelho, ou progenitor do mesmo, caracterizado pelo fato de que compreende: (a) introduzir em um progenitor de glóbulos vermelhos compreendendo um polinucleotídeo de HBB associado à anemia falciforme: (i) uma proteína de fusão, ou um polinucleotídeo que codifica a referida proteína de fusão, em que a referida proteína de fusão compreende um domínio de ligação de nucleotídeo programável por polinucleotídeo e um domínio de adenosina desaminase como definido na reivindicação 1; e (ii) um ou mais polinucleotídeos guia, em que os referidos um ou mais polinucleotídeos guia direcionam a referida proteína de fusão para efetuar uma alteração de A»T para G»C de um SNP no polinucleotídeo HBB; e (b) diferenciar o progenitor de glóbulos vermelhos em um glóbulo vermelho.
19. Composição farmacêutica caracterizada pelo fato de que compreende um sistema de edição de base compreendendo uma proteína de fusão como definida na reivindicação 1, um RNA guia e um transportador, veículo ou excipiente farmaceuticamente aceitável.
20. Sistema de edição de base caracterizado pelo fato de que compreende uma proteína de fusão compreendendo um domínio de ligação de DNA programável de polinucleotídeo e um domínio de adenosina desaminase compreendendo: a) a seguinte sequência de aminoácidos TadA*7.10 compreendendo ainda uma alteração em uma serina (S) na posição de aminoácido 82 e até cinco alterações totais de aminoácidos em comparação com a sequência de aminoácidos TadA*7.10: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAE IMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLM DVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD (SEQ ID NO: 2), ou b) a sequência de aminoácidos TadA*7.10 com uma serina (S) na posição de aminoácido 82 e compreendendo ainda uma alteração em uma ou mais das seguintes posições de aminoácidos 76, 123, 147, 154 e 166; e um RNA guia, em que o referido RNA guia direciona a referida proteína de fusão para efetuar uma alteração de um polimorfismo de nucleotídeo único (SNP) em um polinucleotídeo de beta globina (HBB).
21. Sistema de edição de base, de acordo com a reivindicação 20, caracterizado pelo fato de que o domínio de ligação de DNA programável compreende a seguinte sequência de aminoácidos: EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKV LSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLV VAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLF ELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHK HYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPR AFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSG GSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALL FDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDK KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLI EGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQL PGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYAD LFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKY KEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFD NGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWM TRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNEL TKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGV EDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHL FDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDS LTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIV IEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNG RDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKK MKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDS RMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTA LIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV (SEQ ID NO: 3).
BR112021013605-3A 2019-02-13 2020-02-13 Sistemas de edição de base, célula ou um progenitor da mesma,população de células, composição farmacêutica, e métodos para editar um polinucleotídeo de beta globina (hbb) associado à anemia falciforme e para produzir um glóbulo vermelho ou progenitor do mesmo BR112021013605B1 (pt)

Applications Claiming Priority (14)

Application Number Priority Date Filing Date Title
US201962805277P 2019-02-13 2019-02-13
US201962805271P 2019-02-13 2019-02-13
US62/805,271 2019-02-13
US62/805,277 2019-02-13
US201962852228P 2019-05-23 2019-05-23
US201962852224P 2019-05-23 2019-05-23
US62/852,224 2019-05-23
US201962931722P 2019-11-06 2019-11-06
US201962931747P 2019-11-06 2019-11-06
US62/931,722 2019-11-06
US62/931,747 2019-11-06
US201962941569P 2019-11-27 2019-11-27
US202062966526P 2020-01-27 2020-01-27
PCT/US2020/018193 WO2020168133A1 (en) 2019-02-13 2020-02-13 Compositions and methods for treating hemoglobinopathies

Publications (2)

Publication Number Publication Date
BR112021013605A2 BR112021013605A2 (pt) 2021-11-30
BR112021013605B1 true BR112021013605B1 (pt) 2024-03-26

Family

ID=

Similar Documents

Publication Publication Date Title
AU2020223060B2 (en) Compositions and methods for treating hemoglobinopathies
WO2020168132A9 (en) Adenosine deaminase base editors and methods of using same to modify a nucleobase in a target sequence
CA3100019A1 (en) Methods of substituting pathogenic amino acids using programmable base editor systems
JP2022546608A (ja) 新規核酸塩基エディター及びその使用方法
WO2020168051A9 (en) Methods of editing a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
AU2020223297A1 (en) Splice acceptor site disruption of a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
US20220387622A1 (en) Methods of editing a single nucleotide polymorphism using programmable base editor systems
US20230101597A1 (en) Compositions and methods for treating alpha-1 antitrypsin deficiency
CN114026237A (zh) 用于治疗1a型糖原贮积病的组成物和方法
BR112021013605B1 (pt) Sistemas de edição de base, célula ou um progenitor da mesma,população de células, composição farmacêutica, e métodos para editar um polinucleotídeo de beta globina (hbb) associado à anemia falciforme e para produzir um glóbulo vermelho ou progenitor do mesmo
BR122023002401B1 (pt) Sistemas de edição de base, células e seus usos, composições farmacêuticas, kits, usos de uma proteína de fusão e de um editor de base de adenosina 8 (abe8), bem como métodos para edição de um polinucleotídeo de beta globina (hbb) compreendendo um polimorfismo de nucleotídeo único (snp) associado à anemia falciforme e para produção de um glóbulo vermelho
BR122023002394B1 (pt) Métodos para editar um promotor da subunidade gama 1 e/ou 2 da hemoglobina (hbg1/2) em uma célula, e para produção de um glóbulo vermelho ou seu progenitor
US20240132868A1 (en) Compositions and methods for the self-inactivation of base editors
CA3198671A1 (en) Compositions and methods for treating glycogen storage disease type 1a
WO2023086953A1 (en) Compositions and methods for the treatment of hereditary angioedema (hae)
WO2023049935A1 (en) Compositions and methods for treating hepatitis b virus infection
WO2023115012A2 (en) Compositions and methods for the treatment of spinal muscular atrophy (sma)